
大數(shù)據(jù)在美國 已完成從灰姑娘到公主的蛻變
大數(shù)據(jù)的老家在哪里?如果從血脈淵源來看,應該在美國。麥肯錫的報告、自然雜志的專刊,以及Gartner、IBM專家的演說都證明了這一點。今天我們就來聊一聊她和她的家鄉(xiāng)。
起初,她只是一位灰姑娘
要想富先修路,美國從上世紀50年代開始修路,建起了全美的高速公路網。修路不是一件簡單的事情,要人要錢要技術,不過這也正好解決了就業(yè)、刺激了經濟。路修好了又拉近了距離,人活了,貨活了,錢更活了,想去哪里去哪里。
上世紀90年代,風流倜儻的克林頓總統(tǒng)提出要將路修到互聯(lián)網去,隨后全美信息高速公路聲勢浩蕩地開建了。
20年后,這條路修好了,路上承載了更多信息,文字、圖片、影音… 類型越來越多,數(shù)量也越來越大,不僅如此,以前一年產生的量,如今一個月就生成了。不知不覺中,有人開始頭疼如何處理他們,有人開始關注如何挖掘他們,于是,大數(shù)據(jù)這位灰姑娘進入了人們的視野。
聯(lián)邦政府看上她
這位灰姑娘的出現(xiàn),引得越來越多人關注,終于有一天聯(lián)邦政府看上了她。2012年,奧巴馬政府正在籌劃修建另一條路,這條路隱于無形,聯(lián)系著萬事萬物,像神經一樣重要卻不可見。那么這次修路的工具和材料哪里來呢,“眾里尋他千百度,驀然回首,那人卻在燈火欄珊處”,他們的這次相遇注定將被載入史冊。
2012年3月,白宮發(fā)布了「大數(shù)據(jù)研究和發(fā)展倡議」(「Big Data Research and Development Initiative」),家里六個兄弟紛紛斥巨資同她合作,聽說加起來超過了2億美元??茖W基金(NSF)、衛(wèi)生研究院(NIH)、能源部(DOE)、國防部(DOD)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)這六個兄弟稟賦異常,與大數(shù)據(jù)聯(lián)合起來,簡直就是傳說中的葫蘆七兄妹。
他們的項目列表涵蓋了科研教學、環(huán)境保護、工程技術、國土安全、生物醫(yī)藥好多領域,半年后,美國再次公布了一批研究項目。至此,美國大數(shù)據(jù)戰(zhàn)略2.0版閃亮登場。
天使與惡魔只在一念間
水能載舟亦能覆舟,如何面對大數(shù)據(jù)的超能力,聯(lián)邦政府開始糾結了。2014年5月,白宮發(fā)布了白皮書「大數(shù)據(jù):抓住機遇,保存價值」(「Big data:seizing opportunities, preserving values」)
“抓住機遇,保存價值”—原以為是保存大數(shù)據(jù)妹妹的價值,通篇讀完才知道這是美國人的思維,他們關注的是大數(shù)據(jù)的超能力對美國價值觀的沖擊。
這一切源于奧巴馬對情報問題的關注。顧問團隊90天后提交了兩份報告,一份是白皮書,另一份是「從技術角度看待大數(shù)據(jù)與隱私保護」。(「Big Data and Privacy: A Technological Perspective」)。這讓我想到此前去上海電力調研的收獲,上海電力信息部門統(tǒng)管科技項目和信息化項目,他們第一年通過科技項目做可行性研究,條件具備的話第二年再上信息化項目。這種臺面上一杯水臺下一桶水的做法還是靠譜的
整份報告很糾結,也很讓人欣慰。
也許我們沒有想過大數(shù)據(jù)可能帶來不平等—連鎖超市通過數(shù)據(jù)分析選擇在不同區(qū)域差異定價造成價格歧視,不使用智能手機人群在打車軟件面世后更難打車。
也許我們沒有想過大數(shù)據(jù)可能帶來傷害–基因預測模型一旦出錯則會誤傷一片。
也許我們同樣沒有想過大數(shù)據(jù)可能對社會造成潛移默化的負面影響—過濾器泡泡正在孜孜不倦的構筑意識形態(tài)和文化的隔離,使每個人都沉浸在自己感興趣的信息當中,減少沖突體驗。時間長了,人們對熟悉領域的愿望和期待增強了,卻慢慢忘記了那潛伏在暗夜的,未知爪牙。
糾結完,接下來開始大干一場吧。
兄妹同心 其利斷金
大數(shù)據(jù)給美國政府裝上了動力外骨骼。以紐約為例,那里設立了市長數(shù)據(jù)分析辦公室(MODA),通過數(shù)據(jù)分析來提升政府日常運作水平、預防和處置緊急事件,MODA還和新企業(yè)加速服務團隊(NBAT)合作,利用量化分析手段評估政府決策。市政府出臺一個政策,他們就數(shù)據(jù)分析這個政策效果如何,好的話就推廣不好的話就砍掉。
大數(shù)據(jù)在美國的公共事業(yè)領域也大顯身手。美國教育和醫(yī)療的信息化一直都走在全球前列,有了大數(shù)據(jù),他們可以更進一步了。學校關注如何通過數(shù)據(jù)分析,來調整教學方法。衛(wèi)生研究院(NIH)、食品和藥物管理局(FDA)這些機構一方面力推生物醫(yī)學數(shù)據(jù)共享重用,另一方面著手研發(fā)大數(shù)據(jù)醫(yī)療神器,包括流行病預測的、重大疾病早期診斷的,還有像大白這樣實時個性化服務的。能源部(DOE)資助建設大數(shù)據(jù)平臺,鼓勵公眾高效利用能源。波士頓市和麻省理工學院合作利用大數(shù)據(jù)提供城市交通解決方案。
聯(lián)邦政府與大數(shù)據(jù)的這一次合作背后還有很多神秘人物默默支持,他們一方面通過特許協(xié)議、年度協(xié)議與政府保持聯(lián)系,另一方面以大咖身份投資最領先的大數(shù)據(jù)技術,In-Q-Tel(IQT)就是其中的一員,IQT投資了很多數(shù)據(jù)分析和數(shù)據(jù)管理的公司,而且主要進行早期投資,盡管投資總額小于紅杉、英特爾等大佬,但是參與的大數(shù)據(jù)領域早期投資數(shù)量位居全美第三。
腹有詩書氣質華
大數(shù)據(jù)在美國不是花瓶,她不僅天生麗質,而且勤奮努力,技術功底是相當?shù)脑鷮崱?/span>
美國是流行大數(shù)據(jù)計算框架的發(fā)源地。從Google說起,到Hadoop、Spark、Storm,這些框架都來自這里?;钴S的開源社區(qū)還匯集了全球大數(shù)據(jù)人才的頭腦。
美國還有一批像51區(qū)那樣神秘的研究機構,硅圖(SGI)是其中之一,誰也說不好這家公司目前正在發(fā)展怎樣的尖端超級計算能力。這些日常生活中鮮有接觸的重型裝備,在制造業(yè)、媒體、生命科學和地球科學這些數(shù)據(jù)密集型行業(yè)可是大有用處。
美國高校也正孕育著一群科學小狂人兒。伊利諾伊大學在Grainger基金會的資助下正在發(fā)展一門大數(shù)據(jù)的工程學科,并且把它當做其他跨學科創(chuàng)新活動的秘密武器。紐約大學、伯克利和華盛頓大學在摩爾和斯隆基金會支持下也在小黃人兒的幫助下開展秘密研究活動。
阿凡達中的靈魂樹
大數(shù)據(jù)已經滲透到美國生產生活的方方面面。這一次的工業(yè)對決中,德國工業(yè)4.0企圖從工業(yè)滲透到互聯(lián)網,美國則要從互聯(lián)網滲透到工業(yè)。美國建設國家制造業(yè)創(chuàng)新網絡(NNMI),其背后的殺手锏想必就是大數(shù)據(jù)了。
在零售領域,看看啤酒尿片經典案例誕生地沃爾瑪?shù)氖召徝麊尉鸵呀涀屓梭@嘆不已,Kosmix、SetDirection、OneRiot一大批數(shù)據(jù)分析和營銷應用的初創(chuàng)企業(yè)都赫然出現(xiàn)在名單上。農業(yè)方面,孟山都這類大型企業(yè)不用說了,就連家庭農場主也都將大數(shù)據(jù)運用得游刃有余,關鍵是還得到了豐厚的回報。
IBM、Oracle那一幫大佬自然不會落后。IBM將大數(shù)據(jù)列為企業(yè)戰(zhàn)略目標,將軟件、硬件、咨詢服務、研發(fā)各個領域的資源都整合起來,正在積蓄著發(fā)一個大招。甲骨文也強調垂直整合,早在2011年就推出了集成硬件、存儲和軟件的大數(shù)據(jù)機。微軟也推出了一體機和大數(shù)據(jù)產品,明確了普及計算和環(huán)境智能的發(fā)展戰(zhàn)略。英特爾推出Hadoop商業(yè)發(fā)行版,入股了很多公司。EMC也不斷加大并購和研發(fā)的投入。
美國最大的亮點的應該還是谷里風起云涌的初創(chuàng)企業(yè),像Cloudera、Hortonworks、MapR這些公司在Hadoop上深耕,Splunk把實時數(shù)據(jù)分析系統(tǒng)做得越來越強大,Databricks又稱為給力Spark,Pivotal提供了企業(yè)級大數(shù)據(jù)基礎平臺,Tableau的可視化萌萌噠,F(xiàn)latiron Health試圖利用大數(shù)據(jù)來治愈癌癥,人工智能公司Vicarious正在復制人類大腦皮層,還有像Palantir這種帥呆又神秘的大數(shù)據(jù)分析公司。
我們對她的了解還是太少
上面看起來熱鬧非凡的場景,放到20年后來看或許只是發(fā)動汽車的揚塵。她太神秘、太美麗、太強大,或許以相來求她是錯的,或許她終究是無處不在的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11