
大數(shù)據(jù)的小時(shí)代,沒(méi)有IOE也能玩轉(zhuǎn)智慧城市
如今一談到大數(shù)據(jù),人們就會(huì)聯(lián)想到數(shù)百TB以上且規(guī)模不斷增長(zhǎng)的Hadoop集群系統(tǒng),人們?yōu)檫^(guò)去兩年我們制造了超過(guò)人類歷史總和的數(shù)據(jù)量而感到顫抖,但實(shí)際上大數(shù)據(jù)可以很小,甚至在智能手機(jī)和筆記本上就能進(jìn)行分析處理,而聰明的機(jī)器學(xué)習(xí)算法能將大型強(qiáng)子對(duì)撞機(jī)數(shù)據(jù)分析工作量減少上萬(wàn)倍;后大數(shù)據(jù)時(shí)代,人們將更加關(guān)心如何讓大數(shù)據(jù)“大事化小”。
但在粒度更小,數(shù)據(jù)規(guī)模卻更大的智能傳感器時(shí)代,在一場(chǎng)官方色彩越來(lái)越濃的“去IOE運(yùn)動(dòng)”中,如何利用本土低成本技術(shù)資源,在Hadoop之外尋找一條新的開(kāi)源大數(shù)據(jù)處理技術(shù)方案?如何在大力開(kāi)展“智慧城市”等物聯(lián)網(wǎng)大數(shù)據(jù)項(xiàng)目的同時(shí)防止對(duì)個(gè)人隱私的侵犯?
在計(jì)算機(jī)科學(xué)中, 一個(gè)簡(jiǎn)單的真理可以預(yù)言一部分未來(lái): “正在CERN(歐洲粒子物理研究所)上演的將很快發(fā)生在世界上每個(gè)地方?!?我們還可以再加上第二個(gè)預(yù)言: “一切正在聚集的將最終以分散結(jié)尾。” 這與大數(shù)據(jù)應(yīng)用有何關(guān)系?
許多所謂的 “大數(shù)據(jù)” 問(wèn)題其實(shí)并不是那么大。一個(gè)中央銀行五年的交易數(shù)據(jù)量大概有100GB 大小。所以,中央銀行一年的交易數(shù)據(jù)是完全能夠被存儲(chǔ)在一部智能手機(jī)中的。 一所保險(xiǎn)公司關(guān)于一個(gè)國(guó)家的所有交易數(shù)據(jù)量不會(huì)超過(guò)4TB。 一個(gè)硬盤就可以儲(chǔ)存這些保險(xiǎn)數(shù)據(jù)。
那些由企業(yè)巨額投資的被標(biāo)記為時(shí)尚 “大數(shù)據(jù)”用來(lái)解決數(shù)據(jù)分析問(wèn)題的基礎(chǔ)結(jié)構(gòu),實(shí)際上完全可以通過(guò)一臺(tái)筆記本 —— 甚至是一部智能手機(jī) —— 和開(kāi)源軟件來(lái)替代。研究者們和全球金融機(jī)構(gòu)都用像 Scikit-Learn[1], Pandas[2]或NLTK[3] 這樣的開(kāi)源軟件來(lái)處理交易數(shù)據(jù)和客戶關(guān)系數(shù)據(jù)。如MariaDB[4]這樣傳統(tǒng)的數(shù)據(jù)庫(kù)現(xiàn)如今能夠處理差不多每秒1百萬(wàn)的錄入。MariaDB 10.0[5] 甚至還有來(lái)自淘寶的開(kāi)發(fā)人員開(kāi)發(fā)的一些可以被延伸的復(fù)制技術(shù)。
我建議在進(jìn)行昂貴的投資前:先購(gòu)買一個(gè)小型的含至少32 GB記憶卡的GNU/Linux 服務(wù)器, 一個(gè)大容量的SSD 盤(例如 1 TB)并學(xué)習(xí) Scikit-Learn 機(jī)器學(xué)習(xí)工具包102[30] (基于Andrew Ng吳恩達(dá),最近加入百度的機(jī)器學(xué)習(xí)之父[31]的課程)。在大多數(shù)情況下,這些已經(jīng)足夠解決您的問(wèn)題。 如果還不夠,您還可以設(shè)計(jì)一個(gè)稍后能夠延伸成一個(gè)大型基礎(chǔ)架構(gòu)的模型。Scikit-Learn 被許多谷歌工程師用作 “大數(shù)據(jù)” 問(wèn)題建模解決方案的工具包。
極端的挑戰(zhàn)由核物理及小微粒研究提出來(lái),不斷引導(dǎo)了新信息技術(shù)的創(chuàng)造。 HTML 是由在歐洲核子研究組織 – 也被稱為CERN 的Tim Berners Lee于1991 為解決大規(guī)模文檔管理的問(wèn)題而創(chuàng)造。CERN的大型強(qiáng)子對(duì)撞機(jī) (the Large Hadron Collider,簡(jiǎn)稱LHC)被設(shè)計(jì)用作處理每秒1 PB 的數(shù)據(jù)。它在2013年提供了第一個(gè)證明 希格斯玻色子 [6]存在的證據(jù), 這是一個(gè)在過(guò)去的50年里都沒(méi)有被解決的問(wèn)題。
讓我們來(lái)理解一下每秒1 PB 的數(shù)據(jù)意味著什么。 1 PB和1,000 TB, 1,000,000 GB 或者是13.3年的HD視頻容量一樣大。 能夠每秒處理1 PB的數(shù)據(jù)相當(dāng)于能夠處理419,428,800個(gè)(13.3*365*24*3600)HD攝像設(shè)備生成的數(shù)據(jù)。這比中國(guó)的閉錄電視攝像機(jī)[7]多15倍, 比英國(guó)的多100倍[8].
總的說(shuō)來(lái),在CERN里為小粒子創(chuàng)造的技術(shù)可以被應(yīng)用到實(shí)時(shí)收集和處理地球上每個(gè)人制造的以聲音,視頻,健康監(jiān)測(cè),智能材料日志等形式存在的數(shù)據(jù)。
大數(shù)據(jù)結(jié)構(gòu)成功的關(guān)鍵概念是它可以迅速丟棄收集的大部分?jǐn)?shù)據(jù)并最終只 儲(chǔ)存其中的一小部分[9]。 這是通過(guò)將大多數(shù)數(shù)據(jù)處理轉(zhuǎn)移到所謂的 “人工智能”的智能傳感器上來(lái)實(shí)現(xiàn),在現(xiàn)實(shí)的高級(jí)統(tǒng)計(jì)學(xué)中也被叫做機(jī)器學(xué)習(xí)。
大型強(qiáng)子對(duì)撞機(jī)的傳感器之一 ,叫做 緊湊μ子線圈 (CMS)[10] – 每秒中能夠收集3太字節(jié)代表小型粒子碰撞的圖像數(shù)據(jù)。然后它會(huì)自動(dòng)丟棄被認(rèn)為是無(wú)關(guān)的圖像并”只” 發(fā)送每秒100 Mb到LHC存儲(chǔ)結(jié)構(gòu)中,這比它收集的原始數(shù)據(jù)要少30,000倍。傳感器本身使用了FPGA, 一種能夠比一般處理器更快處理數(shù)據(jù)的可編程硬件, 來(lái)實(shí)施叫做 “clustering”[11]的機(jī)器學(xué)習(xí)運(yùn)算法則。
如果我們希望將大型強(qiáng)子對(duì)撞機(jī)的想法應(yīng)用到閉錄電視監(jiān)控, 我們可以在每個(gè)攝像機(jī)中存儲(chǔ)幾個(gè)小時(shí)的視頻并使用一個(gè)FPGA 或者一個(gè)GPU直接在攝影機(jī)中實(shí)時(shí)處理視頻數(shù)據(jù)。我們可以使用可改編程序的人工智能來(lái)偵查人群的數(shù)量,性別,尺寸, 行為(和平的, 暴力的, 偷偷摸摸的,迷路的,工作的等等),一個(gè)物品的存在(例如:一個(gè)手提箱)或一個(gè)物品的缺少(例如: 一個(gè)路燈)。 只有這些元數(shù)據(jù)才可以通過(guò)網(wǎng)絡(luò)被發(fā)送到一個(gè)中央處理設(shè)備。 如果有需要的話,這個(gè)設(shè)備可以決定下載相關(guān)的圖片或著視頻片段。 以防出現(xiàn)一個(gè)地區(qū)的閉錄電視被犯罪人員破壞而無(wú)法進(jìn)行連接的情況,然后發(fā)送一個(gè) consumer drone 遙控飛行器[12] 去檢查問(wèn)題的源頭。
總的來(lái)說(shuō), LHC告訴我們?nèi)绾瓮ㄟ^(guò)少量的投資或者是廣泛的覆蓋面來(lái)快速建立一個(gè)有效的攝像監(jiān)控系統(tǒng)。 這個(gè)系統(tǒng)能夠被 – 在世界上的任何地方- 部署到現(xiàn)存的窄頻帶通信網(wǎng)絡(luò) – 包括GSM。它同樣也比集中存儲(chǔ)和處理所有信息的系統(tǒng)更加有彈性。并且它在電力中斷的時(shí)候也可以離線工作。
“With the tapping program code-named PRISM, the U.S. government has infringed on the privacy rights of people both at home and abroad” 由新華網(wǎng)在2014年2月28日發(fā)表,它解釋了美國(guó)人權(quán)的現(xiàn)狀[13]. 類似的項(xiàng)目在許多國(guó)家都實(shí)施了嚴(yán)格的隱私法律[27]. 65%的市場(chǎng)份額都貢獻(xiàn)給了監(jiān)控和背后強(qiáng)大的經(jīng)濟(jì)力量。如果不加以規(guī)范管理, 大數(shù)據(jù)是最容易侵犯隱私權(quán)的技術(shù)之一。
大數(shù)據(jù)的候選市場(chǎng)[14]
智能傳感器提供了一個(gè)可能的解決方案, 只要編碼能夠由獨(dú)立的負(fù)責(zé)隱私的權(quán)利機(jī)關(guān)審核。通過(guò)在傳感器中丟棄,加密并匿名化大多數(shù)的數(shù)據(jù), 并在產(chǎn)出地加強(qiáng)執(zhí)行隱私律法,濫用監(jiān)控系統(tǒng)的風(fēng)險(xiǎn)可以通過(guò)缺少原始數(shù)據(jù)的傳輸和缺少集中的存儲(chǔ)來(lái)降低。傳感器訪問(wèn)記錄可以作為開(kāi)源數(shù)據(jù)發(fā)布出來(lái)以確保審核的完成。
升級(jí)閉錄電視到智能攝像機(jī)僅在中國(guó)就代表了每年2千億元人民幣的市場(chǎng)。 一個(gè)國(guó)有的升級(jí)項(xiàng)目可以作為在智能攝像機(jī)內(nèi)建立”智慧城市” 核心功能的契機(jī):公共網(wǎng)絡(luò)的訪問(wèn), 網(wǎng)頁(yè)加速,微云,移動(dòng)存儲(chǔ)卸載, 地理定位, 多重訪問(wèn)mesh網(wǎng)絡(luò),無(wú)障礙收費(fèi)系統(tǒng)等等。 這些只是許多可以進(jìn)行開(kāi)發(fā)應(yīng)用的一小部分,并且日后還可以在全球范圍內(nèi)推廣,因?yàn)?nbsp;中國(guó)是最大的閉錄電視系統(tǒng)的生產(chǎn)方并且已經(jīng)和許多外國(guó)國(guó)防工業(yè)有緊密的合作關(guān)系[15]。
到2020年,監(jiān)控系統(tǒng)將不再是大數(shù)據(jù)的首要市場(chǎng)了。 根據(jù)Gartner分析,260億個(gè)對(duì)象將會(huì)被連接到互聯(lián)網(wǎng)[16], 超出全球范圍的閉錄電視攝像機(jī)數(shù)量的100倍。連接的對(duì)象包含工廠,車,電子消費(fèi)品,工業(yè)傳感器,風(fēng)力發(fā)電機(jī),交通燈等使用的工業(yè)用傳感器。
通過(guò)故障預(yù)測(cè)進(jìn)行預(yù)防性維護(hù) —— 一個(gè)機(jī)器學(xué)習(xí)和大數(shù)據(jù)的直接應(yīng)用,以及其它的智慧功能都將會(huì)被內(nèi)嵌入對(duì)象中。低價(jià)系統(tǒng)芯片(SOC)里的GPU 將被用于實(shí)施低成本高速度的機(jī)器學(xué)習(xí)[17]。
中國(guó)工業(yè)已經(jīng)具有了一個(gè)連接物聯(lián)網(wǎng)及大數(shù)據(jù)的優(yōu)勢(shì)。 最近ARM, 展訊(Spreadtrum), 全志科技(Allwinner), 瑞芯微電子(Rockchip),華為以及其他公司的結(jié)盟[18]強(qiáng)調(diào)了中國(guó)設(shè)計(jì)的以ARM為基礎(chǔ)解決方案逐漸增長(zhǎng)的重要性。我們可以想象, 在幾年的時(shí)間內(nèi),一個(gè)有GPU, 網(wǎng)絡(luò)及Linux操作系統(tǒng)的系統(tǒng)芯片價(jià)值將不超過(guò)1美元。用這個(gè)價(jià)錢,它將可以成為用來(lái)為智能設(shè)備實(shí)施機(jī)器學(xué)習(xí)運(yùn)算法則的標(biāo)準(zhǔn)組件。更高端一點(diǎn)來(lái)說(shuō), 一個(gè)大數(shù)據(jù)集群可以被設(shè)計(jì)成一個(gè)多核ARM 系統(tǒng)的系統(tǒng)芯片(SOC)以及固態(tài)硬盤(SSD)。首次,所有的組件都可以來(lái)自中國(guó)并且用比因特爾更低的成本提供相同質(zhì)量的性能。
中國(guó)移動(dòng)計(jì)算聯(lián)盟(MCA) 于2014年4月在深圳正式成立(Credit. Bob Peng, ARM) [18]
現(xiàn)在所缺乏的是通過(guò)使用高效的分布式運(yùn)算法則來(lái)處理數(shù)據(jù)的軟件??紤]到最近在中國(guó)討論的”No ICE Policy [21]” 以及HADOOP對(duì)Java強(qiáng)烈的依賴性(一個(gè)現(xiàn)在被Oracle控制的產(chǎn)品)。這正是考慮為大數(shù)據(jù)使用另一種軟件解決方案的最佳時(shí)機(jī)。近期,許多社區(qū)都開(kāi)始在 Python的Numpy 開(kāi)源技術(shù)上整合他們的數(shù)據(jù)處理能力[20, 21] 另外一些則是在創(chuàng)建新的語(yǔ)言例如Julia [22]。需要解決的大挑戰(zhàn)之一是 “out-of-core” 數(shù)據(jù)處理,即超越可用存儲(chǔ)器的極限來(lái)處理數(shù)據(jù)。像Wendelin [23] 和Blaze [24] 這樣的項(xiàng)目已經(jīng)都在進(jìn)行中用來(lái)提供開(kāi)源的解決方案。
總的來(lái)說(shuō),我們的猜測(cè)是”No ICE”的解決方法將會(huì)在中國(guó)的這些大數(shù)據(jù)項(xiàng)目中里被創(chuàng)造出來(lái) – 例如 貴州[25]或著新疆 [26] – 由數(shù)以億計(jì)的人民幣預(yù)算作為強(qiáng)大的后盾,向純粹的科技創(chuàng)新敞開(kāi)大門, 使其能夠處理由智能傳感器產(chǎn)生的艾字節(jié)或是zetabytes數(shù)據(jù)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10