
大數(shù)據(jù)的小時(shí)代,沒有IOE也能玩轉(zhuǎn)智慧城市
如今一談到大數(shù)據(jù),人們就會聯(lián)想到數(shù)百TB以上且規(guī)模不斷增長的Hadoop集群系統(tǒng),人們?yōu)檫^去兩年我們制造了超過人類歷史總和的數(shù)據(jù)量而感到顫抖,但實(shí)際上大數(shù)據(jù)可以很小,甚至在智能手機(jī)和筆記本上就能進(jìn)行分析處理,而聰明的機(jī)器學(xué)習(xí)算法能將大型強(qiáng)子對撞機(jī)數(shù)據(jù)分析工作量減少上萬倍;后大數(shù)據(jù)時(shí)代,人們將更加關(guān)心如何讓大數(shù)據(jù)“大事化小”。
但在粒度更小,數(shù)據(jù)規(guī)模卻更大的智能傳感器時(shí)代,在一場官方色彩越來越濃的“去IOE運(yùn)動”中,如何利用本土低成本技術(shù)資源,在Hadoop之外尋找一條新的開源大數(shù)據(jù)處理技術(shù)方案?如何在大力開展“智慧城市”等物聯(lián)網(wǎng)大數(shù)據(jù)項(xiàng)目的同時(shí)防止對個(gè)人隱私的侵犯?
在計(jì)算機(jī)科學(xué)中, 一個(gè)簡單的真理可以預(yù)言一部分未來: “正在CERN(歐洲粒子物理研究所)上演的將很快發(fā)生在世界上每個(gè)地方?!?我們還可以再加上第二個(gè)預(yù)言: “一切正在聚集的將最終以分散結(jié)尾?!?這與大數(shù)據(jù)應(yīng)用有何關(guān)系?
許多所謂的 “大數(shù)據(jù)” 問題其實(shí)并不是那么大。一個(gè)中央銀行五年的交易數(shù)據(jù)量大概有100GB 大小。所以,中央銀行一年的交易數(shù)據(jù)是完全能夠被存儲在一部智能手機(jī)中的。 一所保險(xiǎn)公司關(guān)于一個(gè)國家的所有交易數(shù)據(jù)量不會超過4TB。 一個(gè)硬盤就可以儲存這些保險(xiǎn)數(shù)據(jù)。
那些由企業(yè)巨額投資的被標(biāo)記為時(shí)尚 “大數(shù)據(jù)”用來解決數(shù)據(jù)分析問題的基礎(chǔ)結(jié)構(gòu),實(shí)際上完全可以通過一臺筆記本 —— 甚至是一部智能手機(jī) —— 和開源軟件來替代。研究者們和全球金融機(jī)構(gòu)都用像 Scikit-Learn[1], Pandas[2]或NLTK[3] 這樣的開源軟件來處理交易數(shù)據(jù)和客戶關(guān)系數(shù)據(jù)。如MariaDB[4]這樣傳統(tǒng)的數(shù)據(jù)庫現(xiàn)如今能夠處理差不多每秒1百萬的錄入。MariaDB 10.0[5] 甚至還有來自淘寶的開發(fā)人員開發(fā)的一些可以被延伸的復(fù)制技術(shù)。
我建議在進(jìn)行昂貴的投資前:先購買一個(gè)小型的含至少32 GB記憶卡的GNU/Linux 服務(wù)器, 一個(gè)大容量的SSD 盤(例如 1 TB)并學(xué)習(xí) Scikit-Learn 機(jī)器學(xué)習(xí)工具包102[30] (基于Andrew Ng吳恩達(dá),最近加入百度的機(jī)器學(xué)習(xí)之父[31]的課程)。在大多數(shù)情況下,這些已經(jīng)足夠解決您的問題。 如果還不夠,您還可以設(shè)計(jì)一個(gè)稍后能夠延伸成一個(gè)大型基礎(chǔ)架構(gòu)的模型。Scikit-Learn 被許多谷歌工程師用作 “大數(shù)據(jù)” 問題建模解決方案的工具包。
極端的挑戰(zhàn)由核物理及小微粒研究提出來,不斷引導(dǎo)了新信息技術(shù)的創(chuàng)造。 HTML 是由在歐洲核子研究組織 – 也被稱為CERN 的Tim Berners Lee于1991 為解決大規(guī)模文檔管理的問題而創(chuàng)造。CERN的大型強(qiáng)子對撞機(jī) (the Large Hadron Collider,簡稱LHC)被設(shè)計(jì)用作處理每秒1 PB 的數(shù)據(jù)。它在2013年提供了第一個(gè)證明 希格斯玻色子 [6]存在的證據(jù), 這是一個(gè)在過去的50年里都沒有被解決的問題。
讓我們來理解一下每秒1 PB 的數(shù)據(jù)意味著什么。 1 PB和1,000 TB, 1,000,000 GB 或者是13.3年的HD視頻容量一樣大。 能夠每秒處理1 PB的數(shù)據(jù)相當(dāng)于能夠處理419,428,800個(gè)(13.3*365*24*3600)HD攝像設(shè)備生成的數(shù)據(jù)。這比中國的閉錄電視攝像機(jī)[7]多15倍, 比英國的多100倍[8].
總的說來,在CERN里為小粒子創(chuàng)造的技術(shù)可以被應(yīng)用到實(shí)時(shí)收集和處理地球上每個(gè)人制造的以聲音,視頻,健康監(jiān)測,智能材料日志等形式存在的數(shù)據(jù)。
大數(shù)據(jù)結(jié)構(gòu)成功的關(guān)鍵概念是它可以迅速丟棄收集的大部分?jǐn)?shù)據(jù)并最終只 儲存其中的一小部分[9]。 這是通過將大多數(shù)數(shù)據(jù)處理轉(zhuǎn)移到所謂的 “人工智能”的智能傳感器上來實(shí)現(xiàn),在現(xiàn)實(shí)的高級統(tǒng)計(jì)學(xué)中也被叫做機(jī)器學(xué)習(xí)。
大型強(qiáng)子對撞機(jī)的傳感器之一 ,叫做 緊湊μ子線圈 (CMS)[10] – 每秒中能夠收集3太字節(jié)代表小型粒子碰撞的圖像數(shù)據(jù)。然后它會自動丟棄被認(rèn)為是無關(guān)的圖像并”只” 發(fā)送每秒100 Mb到LHC存儲結(jié)構(gòu)中,這比它收集的原始數(shù)據(jù)要少30,000倍。傳感器本身使用了FPGA, 一種能夠比一般處理器更快處理數(shù)據(jù)的可編程硬件, 來實(shí)施叫做 “clustering”[11]的機(jī)器學(xué)習(xí)運(yùn)算法則。
如果我們希望將大型強(qiáng)子對撞機(jī)的想法應(yīng)用到閉錄電視監(jiān)控, 我們可以在每個(gè)攝像機(jī)中存儲幾個(gè)小時(shí)的視頻并使用一個(gè)FPGA 或者一個(gè)GPU直接在攝影機(jī)中實(shí)時(shí)處理視頻數(shù)據(jù)。我們可以使用可改編程序的人工智能來偵查人群的數(shù)量,性別,尺寸, 行為(和平的, 暴力的, 偷偷摸摸的,迷路的,工作的等等),一個(gè)物品的存在(例如:一個(gè)手提箱)或一個(gè)物品的缺少(例如: 一個(gè)路燈)。 只有這些元數(shù)據(jù)才可以通過網(wǎng)絡(luò)被發(fā)送到一個(gè)中央處理設(shè)備。 如果有需要的話,這個(gè)設(shè)備可以決定下載相關(guān)的圖片或著視頻片段。 以防出現(xiàn)一個(gè)地區(qū)的閉錄電視被犯罪人員破壞而無法進(jìn)行連接的情況,然后發(fā)送一個(gè) consumer drone 遙控飛行器[12] 去檢查問題的源頭。
總的來說, LHC告訴我們?nèi)绾瓮ㄟ^少量的投資或者是廣泛的覆蓋面來快速建立一個(gè)有效的攝像監(jiān)控系統(tǒng)。 這個(gè)系統(tǒng)能夠被 – 在世界上的任何地方- 部署到現(xiàn)存的窄頻帶通信網(wǎng)絡(luò) – 包括GSM。它同樣也比集中存儲和處理所有信息的系統(tǒng)更加有彈性。并且它在電力中斷的時(shí)候也可以離線工作。
“With the tapping program code-named PRISM, the U.S. government has infringed on the privacy rights of people both at home and abroad” 由新華網(wǎng)在2014年2月28日發(fā)表,它解釋了美國人權(quán)的現(xiàn)狀[13]. 類似的項(xiàng)目在許多國家都實(shí)施了嚴(yán)格的隱私法律[27]. 65%的市場份額都貢獻(xiàn)給了監(jiān)控和背后強(qiáng)大的經(jīng)濟(jì)力量。如果不加以規(guī)范管理, 大數(shù)據(jù)是最容易侵犯隱私權(quán)的技術(shù)之一。
大數(shù)據(jù)的候選市場[14]
智能傳感器提供了一個(gè)可能的解決方案, 只要編碼能夠由獨(dú)立的負(fù)責(zé)隱私的權(quán)利機(jī)關(guān)審核。通過在傳感器中丟棄,加密并匿名化大多數(shù)的數(shù)據(jù), 并在產(chǎn)出地加強(qiáng)執(zhí)行隱私律法,濫用監(jiān)控系統(tǒng)的風(fēng)險(xiǎn)可以通過缺少原始數(shù)據(jù)的傳輸和缺少集中的存儲來降低。傳感器訪問記錄可以作為開源數(shù)據(jù)發(fā)布出來以確保審核的完成。
升級閉錄電視到智能攝像機(jī)僅在中國就代表了每年2千億元人民幣的市場。 一個(gè)國有的升級項(xiàng)目可以作為在智能攝像機(jī)內(nèi)建立”智慧城市” 核心功能的契機(jī):公共網(wǎng)絡(luò)的訪問, 網(wǎng)頁加速,微云,移動存儲卸載, 地理定位, 多重訪問mesh網(wǎng)絡(luò),無障礙收費(fèi)系統(tǒng)等等。 這些只是許多可以進(jìn)行開發(fā)應(yīng)用的一小部分,并且日后還可以在全球范圍內(nèi)推廣,因?yàn)?nbsp;中國是最大的閉錄電視系統(tǒng)的生產(chǎn)方并且已經(jīng)和許多外國國防工業(yè)有緊密的合作關(guān)系[15]。
到2020年,監(jiān)控系統(tǒng)將不再是大數(shù)據(jù)的首要市場了。 根據(jù)Gartner分析,260億個(gè)對象將會被連接到互聯(lián)網(wǎng)[16], 超出全球范圍的閉錄電視攝像機(jī)數(shù)量的100倍。連接的對象包含工廠,車,電子消費(fèi)品,工業(yè)傳感器,風(fēng)力發(fā)電機(jī),交通燈等使用的工業(yè)用傳感器。
通過故障預(yù)測進(jìn)行預(yù)防性維護(hù) —— 一個(gè)機(jī)器學(xué)習(xí)和大數(shù)據(jù)的直接應(yīng)用,以及其它的智慧功能都將會被內(nèi)嵌入對象中。低價(jià)系統(tǒng)芯片(SOC)里的GPU 將被用于實(shí)施低成本高速度的機(jī)器學(xué)習(xí)[17]。
中國工業(yè)已經(jīng)具有了一個(gè)連接物聯(lián)網(wǎng)及大數(shù)據(jù)的優(yōu)勢。 最近ARM, 展訊(Spreadtrum), 全志科技(Allwinner), 瑞芯微電子(Rockchip),華為以及其他公司的結(jié)盟[18]強(qiáng)調(diào)了中國設(shè)計(jì)的以ARM為基礎(chǔ)解決方案逐漸增長的重要性。我們可以想象, 在幾年的時(shí)間內(nèi),一個(gè)有GPU, 網(wǎng)絡(luò)及Linux操作系統(tǒng)的系統(tǒng)芯片價(jià)值將不超過1美元。用這個(gè)價(jià)錢,它將可以成為用來為智能設(shè)備實(shí)施機(jī)器學(xué)習(xí)運(yùn)算法則的標(biāo)準(zhǔn)組件。更高端一點(diǎn)來說, 一個(gè)大數(shù)據(jù)集群可以被設(shè)計(jì)成一個(gè)多核ARM 系統(tǒng)的系統(tǒng)芯片(SOC)以及固態(tài)硬盤(SSD)。首次,所有的組件都可以來自中國并且用比因特爾更低的成本提供相同質(zhì)量的性能。
中國移動計(jì)算聯(lián)盟(MCA) 于2014年4月在深圳正式成立(Credit. Bob Peng, ARM) [18]
現(xiàn)在所缺乏的是通過使用高效的分布式運(yùn)算法則來處理數(shù)據(jù)的軟件。考慮到最近在中國討論的”No ICE Policy [21]” 以及HADOOP對Java強(qiáng)烈的依賴性(一個(gè)現(xiàn)在被Oracle控制的產(chǎn)品)。這正是考慮為大數(shù)據(jù)使用另一種軟件解決方案的最佳時(shí)機(jī)。近期,許多社區(qū)都開始在 Python的Numpy 開源技術(shù)上整合他們的數(shù)據(jù)處理能力[20, 21] 另外一些則是在創(chuàng)建新的語言例如Julia [22]。需要解決的大挑戰(zhàn)之一是 “out-of-core” 數(shù)據(jù)處理,即超越可用存儲器的極限來處理數(shù)據(jù)。像Wendelin [23] 和Blaze [24] 這樣的項(xiàng)目已經(jīng)都在進(jìn)行中用來提供開源的解決方案。
總的來說,我們的猜測是”No ICE”的解決方法將會在中國的這些大數(shù)據(jù)項(xiàng)目中里被創(chuàng)造出來 – 例如 貴州[25]或著新疆 [26] – 由數(shù)以億計(jì)的人民幣預(yù)算作為強(qiáng)大的后盾,向純粹的科技創(chuàng)新敞開大門, 使其能夠處理由智能傳感器產(chǎn)生的艾字節(jié)或是zetabytes數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03