
“大數(shù)據(jù)”怎樣改變生活
大數(shù)據(jù),現(xiàn)在越來(lái)越成為了一個(gè)很時(shí)髦的詞匯。有人把大數(shù)據(jù)形容為未來(lái)世界的石油,有人宣稱(chēng)掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個(gè)世界,美國(guó)政府甚至已經(jīng)把對(duì)大數(shù)據(jù)的研究上升為國(guó)家戰(zhàn)略。日前,由中國(guó)科協(xié)舉辦的“科學(xué)家與媒體面對(duì)面——大數(shù)據(jù)離我們生活有多遠(yuǎn)”活動(dòng)中,有關(guān)專(zhuān)家為我們介紹了大數(shù)據(jù)對(duì)未來(lái)生活的影響。
我們生活在一個(gè)充滿“數(shù)據(jù)”的時(shí)代,這里的“數(shù)據(jù)”,并不僅僅指數(shù)字,理論上講,一切可以以文件形式儲(chǔ)存于計(jì)算機(jī)硬盤(pán)的東西,包括數(shù)字、文字、圖像、聲音、視頻等,均可稱(chēng)為“數(shù)據(jù)”。我們打電話,使用微博、QQ、博客等社交工具,都是在不斷增加著社會(huì)總體數(shù)據(jù)量。
據(jù)權(quán)威預(yù)測(cè),未來(lái)每隔18個(gè)月,整個(gè)世界的數(shù)據(jù)總量就會(huì)翻倍。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。
數(shù)據(jù),除了它第一次被使用時(shí)提供的價(jià)值以外,那些積累下來(lái)的數(shù)據(jù)海洋并不是無(wú)用的廢物,它還有著無(wú)窮無(wú)盡的“剩余價(jià)值”,關(guān)于這一點(diǎn),人們已經(jīng)有了越來(lái)越多的認(rèn)識(shí)。事實(shí)上,大數(shù)據(jù)已經(jīng)開(kāi)始并將繼續(xù)影響我們的生活,下面我們不妨試舉幾例。
精準(zhǔn)廣告投放已很普遍
很多女性可能有這樣的經(jīng)歷,使用某瀏覽器在淘寶、京東等購(gòu)物網(wǎng)站上購(gòu)買(mǎi)過(guò)一本關(guān)于懷孕的書(shū)籍后,在之后十個(gè)月左右的時(shí)間里,你的瀏覽器兩側(cè)的廣告欄里不斷出現(xiàn)懷孕所需要的東西,如營(yíng)養(yǎng)食品、對(duì)胎兒無(wú)影響的孕婦用藥、胎心監(jiān)測(cè)儀、體溫計(jì)、血壓計(jì)等產(chǎn)品廣告,登錄原來(lái)的購(gòu)物網(wǎng)站,也會(huì)在首頁(yè)向你推薦這類(lèi)產(chǎn)品。而且,在十個(gè)月之后,你會(huì)發(fā)現(xiàn),以上這些廣告開(kāi)始變成嬰兒用品了。
你以前可能對(duì)瀏覽器廣告非常討厭,但對(duì)這類(lèi)廣告,你卻欣然接受,因?yàn)樗扑]的產(chǎn)品正是你所需要的。這實(shí)際上就是大數(shù)據(jù)應(yīng)用的一個(gè)簡(jiǎn)單案例。你的瀏覽經(jīng)歷已經(jīng)被瀏覽器和電商所記錄,通過(guò)對(duì)用戶瀏覽記錄進(jìn)行大數(shù)據(jù)分析,就可以推測(cè)出你目前是一種什么狀態(tài),今后又將經(jīng)歷哪些狀態(tài),于是,專(zhuān)為你定制的廣告就在你需要的時(shí)候出現(xiàn)在你的眼前。
大數(shù)據(jù)最本質(zhì)的應(yīng)用就在于預(yù)測(cè),即從海量數(shù)據(jù)中分析出一定的特征,進(jìn)而預(yù)測(cè)未來(lái)可能會(huì)發(fā)生什么。實(shí)際上,上述例子僅僅是大數(shù)據(jù)應(yīng)用的最初級(jí)階段。因?yàn)樗婕暗臄?shù)據(jù)的范圍并不廣泛,其分析原理也非常簡(jiǎn)單。而如前言所述,大數(shù)據(jù)有數(shù)據(jù)量大、數(shù)據(jù)多樣性等特征,實(shí)際是將各個(gè)維度的數(shù)據(jù)進(jìn)行綜合分析進(jìn)而進(jìn)行一定的預(yù)測(cè)。當(dāng)不同的數(shù)據(jù)流被整合到大型數(shù)據(jù)庫(kù)中后,預(yù)測(cè)的廣度和精度都會(huì)大規(guī)模的提高。例如,當(dāng)一個(gè)數(shù)據(jù)庫(kù)從不同的數(shù)據(jù)來(lái)源獲得了你使用手機(jī)的時(shí)間和地點(diǎn)、信用卡購(gòu)物、銀行卡電子收費(fèi)系統(tǒng)、使用QQ等聊天工具的對(duì)象、你的QQ好友關(guān)系圖、你在新浪微博、騰訊微博的收聽(tīng)及被收聽(tīng)關(guān)系圖譜、你交納的水、電、燃?xì)赓M(fèi)等各方面的數(shù)據(jù),數(shù)據(jù)分析師就能通過(guò)匹配獲得你生活的不同側(cè)面。通過(guò)大數(shù)據(jù),數(shù)據(jù)分析可以發(fā)現(xiàn)各種各樣的關(guān)聯(lián)。通過(guò)分析,可以發(fā)現(xiàn)你多方面的需求,并不僅僅是諸如懷孕書(shū)籍和尿不濕之間的簡(jiǎn)單關(guān)聯(lián)了。在數(shù)據(jù)足夠“大”的情況下,你生活中幾乎所有的需求都可能會(huì)被預(yù)測(cè)出來(lái)。例如,從數(shù)據(jù)分析出你可能會(huì)約會(huì),于是會(huì)向你推薦衣服;從數(shù)據(jù)推測(cè)出你會(huì)出去旅游,于是向你推薦相關(guān)裝備及旅行方式等。
醫(yī)療衛(wèi)生體系會(huì)更加精密
通過(guò)分析大量用戶的搜索記錄,比如“咳嗽”、“發(fā)燒”等特定詞條,谷歌公司能準(zhǔn)確預(yù)測(cè)美國(guó)冬季流感傳播趨勢(shì)。和官方機(jī)構(gòu)相比,谷歌能提前一兩周預(yù)測(cè)流感爆發(fā),預(yù)測(cè)結(jié)果與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌的工程師們公開(kāi)發(fā)表了一篇論文,不僅預(yù)測(cè)流感即將爆發(fā),并且其預(yù)測(cè)還精確到美國(guó)特定的地區(qū)和州。這讓人們感到十分震驚。準(zhǔn)確預(yù)測(cè)流感疫情,說(shuō)起來(lái)并不復(fù)雜,谷歌一直致力于對(duì)用戶檢索數(shù)據(jù)的分析。用戶求醫(yī)問(wèn)藥等搜索數(shù)據(jù)可謂海量,把這些數(shù)據(jù)再拿來(lái)與美國(guó)疾控中心往年記錄的實(shí)際流感病例信息相比對(duì),就幫助谷歌作出了準(zhǔn)確預(yù)測(cè)。
在日本也有相似的應(yīng)用,日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的社交網(wǎng)站賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條社交網(wǎng)站記錄找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析,另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè)將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類(lèi)服務(wù)正在日本陸續(xù)展開(kāi)。
對(duì)個(gè)體而言,大數(shù)據(jù)可以為個(gè)人提供個(gè)性化的醫(yī)療服務(wù)。過(guò)去我們?nèi)タ床?,醫(yī)生只能對(duì)我們的當(dāng)下身體情況做出判斷,而在大數(shù)據(jù)的幫助下,將來(lái)的診療可以對(duì)一個(gè)患者的累計(jì)歷史數(shù)據(jù)進(jìn)行分析,并結(jié)合遺傳變異、對(duì)特定疾病的易感性和對(duì)特殊藥物的反應(yīng)等關(guān)系,實(shí)現(xiàn)個(gè)性化的醫(yī)療。還可以在患者發(fā)生疾病癥狀前,提供早期的檢測(cè)和診斷。早期發(fā)現(xiàn)和治療可以顯著降低肺癌給衛(wèi)生系統(tǒng)造成的負(fù)擔(dān),因?yàn)樵缙诘氖中g(shù)費(fèi)用是后期治療費(fèi)用的一半。
個(gè)性化教育可能真正實(shí)現(xiàn)
在傳統(tǒng)教育模式下,分?jǐn)?shù)就是一切,一個(gè)班上幾十個(gè)人,使用同樣的教材,同一個(gè)老師上課,課后布置同樣的作業(yè)。然而,學(xué)生是千差萬(wàn)別的,在這個(gè)模式下,不可能真正做到“因材施教”。
舉例來(lái)說(shuō),一個(gè)學(xué)生考試得了88分,這個(gè)分?jǐn)?shù)僅僅是一個(gè)數(shù)字,它能代表什么呢?88分背后是家庭背景、努力程度、學(xué)習(xí)態(tài)度、智力水平等,把它們和88分聯(lián)系在一起,這就成了“數(shù)據(jù)”。大數(shù)據(jù)因其數(shù)據(jù)來(lái)源的廣度,有能力去關(guān)注每一個(gè)個(gè)體學(xué)生的微觀表現(xiàn)——他在什么時(shí)候開(kāi)始看書(shū),在什么樣的講課方式下效果最好,在什么時(shí)候?qū)W習(xí)什么科目效果最好,在不同類(lèi)型的題目上停留多久等等。這些數(shù)據(jù)對(duì)其他個(gè)體都沒(méi)有意義,是高度個(gè)性化表現(xiàn)特征的體現(xiàn)。同時(shí),這些數(shù)據(jù)的產(chǎn)生完全是過(guò)程性的:課堂的過(guò)程,作業(yè)的過(guò)程,師生或同學(xué)的互動(dòng)過(guò)程……而最有價(jià)值的是,這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測(cè)技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此它的采集也非常的自然、真實(shí)。
在大數(shù)據(jù)的支持下,教育將呈現(xiàn)另外的特征:彈性學(xué)制、個(gè)性化輔導(dǎo)、社區(qū)和家庭學(xué)習(xí)、每個(gè)人的成功……大數(shù)據(jù)支撐下的教育,就是要根據(jù)每一個(gè)人的特點(diǎn),解放每一個(gè)人本來(lái)就有的學(xué)習(xí)能力和天分。
個(gè)人隱私保護(hù) 一道能邁過(guò)的坎
看了前面這些,讀者可能要擔(dān)心了,大數(shù)據(jù)包含有包羅萬(wàn)象的數(shù)據(jù),其中不少數(shù)據(jù)涉及個(gè)人的職位、年齡、身體狀況、消費(fèi)水平、旅行習(xí)慣等隱私,那么,在大數(shù)據(jù)時(shí)代,個(gè)人隱私能夠得到保護(hù)嗎?答案是,只要國(guó)家相關(guān)部門(mén)實(shí)時(shí)推進(jìn)隱私保護(hù),企業(yè)主動(dòng)落實(shí)隱私保護(hù)責(zé)任,大數(shù)據(jù)產(chǎn)業(yè)在飛速發(fā)展的同時(shí)并不會(huì)對(duì)民眾隱私產(chǎn)生威脅。
在大數(shù)據(jù)產(chǎn)業(yè)中,有兩個(gè)基本的作法,一是符號(hào)化。符號(hào)化是指識(shí)別用戶的時(shí)候,識(shí)別的僅僅是一個(gè)“符號(hào)”,這個(gè)符號(hào)與真實(shí)信息并不相關(guān),系統(tǒng)通過(guò)一定的算法能夠知道多次登錄的是同一個(gè)用戶,但并沒(méi)有辦法反推出這個(gè)人是誰(shuí),因此,電話、住址等信息都沒(méi)法與本人關(guān)聯(lián)起來(lái)。二是用戶特征。用戶特征意味著在大數(shù)據(jù)時(shí)代企業(yè)感興趣的往往是這個(gè)用戶的特征,而不是家庭地址、電話號(hào)碼等真正敏感的信息。例如,系統(tǒng)需要了解本科以上學(xué)歷、月收入10000元以上、已婚等這樣一個(gè)群體,只需要找出符合這些特征的人的特性,并不關(guān)心這個(gè)人是誰(shuí)。這樣也不會(huì)造成隱私的泄露。
當(dāng)然,這些原則性問(wèn)題有賴于政府推動(dòng)、企業(yè)自律。但我們相信,為大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展,相關(guān)部門(mén),相關(guān)企業(yè)一定會(huì)高度重視這一問(wèn)題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱(chēng)為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過(guò)程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見(jiàn)需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫(xiě)入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無(wú)論 ...
2025-07-16解析 MySQL Update 語(yǔ)句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫(kù)的日常運(yùn)維與開(kāi)發(fā)中,開(kāi)發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11