
“大數(shù)據(jù)”怎樣改變生活
大數(shù)據(jù),現(xiàn)在越來(lái)越成為了一個(gè)很時(shí)髦的詞匯。有人把大數(shù)據(jù)形容為未來(lái)世界的石油,有人宣稱掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個(gè)世界,美國(guó)政府甚至已經(jīng)把對(duì)大數(shù)據(jù)的研究上升為國(guó)家戰(zhàn)略。日前,由中國(guó)科協(xié)舉辦的“科學(xué)家與媒體面對(duì)面——大數(shù)據(jù)離我們生活有多遠(yuǎn)”活動(dòng)中,有關(guān)專家為我們介紹了大數(shù)據(jù)對(duì)未來(lái)生活的影響。
我們生活在一個(gè)充滿“數(shù)據(jù)”的時(shí)代,這里的“數(shù)據(jù)”,并不僅僅指數(shù)字,理論上講,一切可以以文件形式儲(chǔ)存于計(jì)算機(jī)硬盤(pán)的東西,包括數(shù)字、文字、圖像、聲音、視頻等,均可稱為“數(shù)據(jù)”。我們打電話,使用微博、QQ、博客等社交工具,都是在不斷增加著社會(huì)總體數(shù)據(jù)量。
據(jù)權(quán)威預(yù)測(cè),未來(lái)每隔18個(gè)月,整個(gè)世界的數(shù)據(jù)總量就會(huì)翻倍。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。
數(shù)據(jù),除了它第一次被使用時(shí)提供的價(jià)值以外,那些積累下來(lái)的數(shù)據(jù)海洋并不是無(wú)用的廢物,它還有著無(wú)窮無(wú)盡的“剩余價(jià)值”,關(guān)于這一點(diǎn),人們已經(jīng)有了越來(lái)越多的認(rèn)識(shí)。事實(shí)上,大數(shù)據(jù)已經(jīng)開(kāi)始并將繼續(xù)影響我們的生活,下面我們不妨試舉幾例。
精準(zhǔn)廣告投放已很普遍
很多女性可能有這樣的經(jīng)歷,使用某瀏覽器在淘寶、京東等購(gòu)物網(wǎng)站上購(gòu)買過(guò)一本關(guān)于懷孕的書(shū)籍后,在之后十個(gè)月左右的時(shí)間里,你的瀏覽器兩側(cè)的廣告欄里不斷出現(xiàn)懷孕所需要的東西,如營(yíng)養(yǎng)食品、對(duì)胎兒無(wú)影響的孕婦用藥、胎心監(jiān)測(cè)儀、體溫計(jì)、血壓計(jì)等產(chǎn)品廣告,登錄原來(lái)的購(gòu)物網(wǎng)站,也會(huì)在首頁(yè)向你推薦這類產(chǎn)品。而且,在十個(gè)月之后,你會(huì)發(fā)現(xiàn),以上這些廣告開(kāi)始變成嬰兒用品了。
你以前可能對(duì)瀏覽器廣告非常討厭,但對(duì)這類廣告,你卻欣然接受,因?yàn)樗扑]的產(chǎn)品正是你所需要的。這實(shí)際上就是大數(shù)據(jù)應(yīng)用的一個(gè)簡(jiǎn)單案例。你的瀏覽經(jīng)歷已經(jīng)被瀏覽器和電商所記錄,通過(guò)對(duì)用戶瀏覽記錄進(jìn)行大數(shù)據(jù)分析,就可以推測(cè)出你目前是一種什么狀態(tài),今后又將經(jīng)歷哪些狀態(tài),于是,專為你定制的廣告就在你需要的時(shí)候出現(xiàn)在你的眼前。
大數(shù)據(jù)最本質(zhì)的應(yīng)用就在于預(yù)測(cè),即從海量數(shù)據(jù)中分析出一定的特征,進(jìn)而預(yù)測(cè)未來(lái)可能會(huì)發(fā)生什么。實(shí)際上,上述例子僅僅是大數(shù)據(jù)應(yīng)用的最初級(jí)階段。因?yàn)樗婕暗臄?shù)據(jù)的范圍并不廣泛,其分析原理也非常簡(jiǎn)單。而如前言所述,大數(shù)據(jù)有數(shù)據(jù)量大、數(shù)據(jù)多樣性等特征,實(shí)際是將各個(gè)維度的數(shù)據(jù)進(jìn)行綜合分析進(jìn)而進(jìn)行一定的預(yù)測(cè)。當(dāng)不同的數(shù)據(jù)流被整合到大型數(shù)據(jù)庫(kù)中后,預(yù)測(cè)的廣度和精度都會(huì)大規(guī)模的提高。例如,當(dāng)一個(gè)數(shù)據(jù)庫(kù)從不同的數(shù)據(jù)來(lái)源獲得了你使用手機(jī)的時(shí)間和地點(diǎn)、信用卡購(gòu)物、銀行卡電子收費(fèi)系統(tǒng)、使用QQ等聊天工具的對(duì)象、你的QQ好友關(guān)系圖、你在新浪微博、騰訊微博的收聽(tīng)及被收聽(tīng)關(guān)系圖譜、你交納的水、電、燃?xì)赓M(fèi)等各方面的數(shù)據(jù),數(shù)據(jù)分析師就能通過(guò)匹配獲得你生活的不同側(cè)面。通過(guò)大數(shù)據(jù),數(shù)據(jù)分析可以發(fā)現(xiàn)各種各樣的關(guān)聯(lián)。通過(guò)分析,可以發(fā)現(xiàn)你多方面的需求,并不僅僅是諸如懷孕書(shū)籍和尿不濕之間的簡(jiǎn)單關(guān)聯(lián)了。在數(shù)據(jù)足夠“大”的情況下,你生活中幾乎所有的需求都可能會(huì)被預(yù)測(cè)出來(lái)。例如,從數(shù)據(jù)分析出你可能會(huì)約會(huì),于是會(huì)向你推薦衣服;從數(shù)據(jù)推測(cè)出你會(huì)出去旅游,于是向你推薦相關(guān)裝備及旅行方式等。
醫(yī)療衛(wèi)生體系會(huì)更加精密
通過(guò)分析大量用戶的搜索記錄,比如“咳嗽”、“發(fā)燒”等特定詞條,谷歌公司能準(zhǔn)確預(yù)測(cè)美國(guó)冬季流感傳播趨勢(shì)。和官方機(jī)構(gòu)相比,谷歌能提前一兩周預(yù)測(cè)流感爆發(fā),預(yù)測(cè)結(jié)果與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌的工程師們公開(kāi)發(fā)表了一篇論文,不僅預(yù)測(cè)流感即將爆發(fā),并且其預(yù)測(cè)還精確到美國(guó)特定的地區(qū)和州。這讓人們感到十分震驚。準(zhǔn)確預(yù)測(cè)流感疫情,說(shuō)起來(lái)并不復(fù)雜,谷歌一直致力于對(duì)用戶檢索數(shù)據(jù)的分析。用戶求醫(yī)問(wèn)藥等搜索數(shù)據(jù)可謂海量,把這些數(shù)據(jù)再拿來(lái)與美國(guó)疾控中心往年記錄的實(shí)際流感病例信息相比對(duì),就幫助谷歌作出了準(zhǔn)確預(yù)測(cè)。
在日本也有相似的應(yīng)用,日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的社交網(wǎng)站賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條社交網(wǎng)站記錄找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析,另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè)將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開(kāi)。
對(duì)個(gè)體而言,大數(shù)據(jù)可以為個(gè)人提供個(gè)性化的醫(yī)療服務(wù)。過(guò)去我們?nèi)タ床?,醫(yī)生只能對(duì)我們的當(dāng)下身體情況做出判斷,而在大數(shù)據(jù)的幫助下,將來(lái)的診療可以對(duì)一個(gè)患者的累計(jì)歷史數(shù)據(jù)進(jìn)行分析,并結(jié)合遺傳變異、對(duì)特定疾病的易感性和對(duì)特殊藥物的反應(yīng)等關(guān)系,實(shí)現(xiàn)個(gè)性化的醫(yī)療。還可以在患者發(fā)生疾病癥狀前,提供早期的檢測(cè)和診斷。早期發(fā)現(xiàn)和治療可以顯著降低肺癌給衛(wèi)生系統(tǒng)造成的負(fù)擔(dān),因?yàn)樵缙诘氖中g(shù)費(fèi)用是后期治療費(fèi)用的一半。
個(gè)性化教育可能真正實(shí)現(xiàn)
在傳統(tǒng)教育模式下,分?jǐn)?shù)就是一切,一個(gè)班上幾十個(gè)人,使用同樣的教材,同一個(gè)老師上課,課后布置同樣的作業(yè)。然而,學(xué)生是千差萬(wàn)別的,在這個(gè)模式下,不可能真正做到“因材施教”。
舉例來(lái)說(shuō),一個(gè)學(xué)生考試得了88分,這個(gè)分?jǐn)?shù)僅僅是一個(gè)數(shù)字,它能代表什么呢?88分背后是家庭背景、努力程度、學(xué)習(xí)態(tài)度、智力水平等,把它們和88分聯(lián)系在一起,這就成了“數(shù)據(jù)”。大數(shù)據(jù)因其數(shù)據(jù)來(lái)源的廣度,有能力去關(guān)注每一個(gè)個(gè)體學(xué)生的微觀表現(xiàn)——他在什么時(shí)候開(kāi)始看書(shū),在什么樣的講課方式下效果最好,在什么時(shí)候?qū)W習(xí)什么科目效果最好,在不同類型的題目上停留多久等等。這些數(shù)據(jù)對(duì)其他個(gè)體都沒(méi)有意義,是高度個(gè)性化表現(xiàn)特征的體現(xiàn)。同時(shí),這些數(shù)據(jù)的產(chǎn)生完全是過(guò)程性的:課堂的過(guò)程,作業(yè)的過(guò)程,師生或同學(xué)的互動(dòng)過(guò)程……而最有價(jià)值的是,這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測(cè)技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此它的采集也非常的自然、真實(shí)。
在大數(shù)據(jù)的支持下,教育將呈現(xiàn)另外的特征:彈性學(xué)制、個(gè)性化輔導(dǎo)、社區(qū)和家庭學(xué)習(xí)、每個(gè)人的成功……大數(shù)據(jù)支撐下的教育,就是要根據(jù)每一個(gè)人的特點(diǎn),解放每一個(gè)人本來(lái)就有的學(xué)習(xí)能力和天分。
個(gè)人隱私保護(hù) 一道能邁過(guò)的坎
看了前面這些,讀者可能要擔(dān)心了,大數(shù)據(jù)包含有包羅萬(wàn)象的數(shù)據(jù),其中不少數(shù)據(jù)涉及個(gè)人的職位、年齡、身體狀況、消費(fèi)水平、旅行習(xí)慣等隱私,那么,在大數(shù)據(jù)時(shí)代,個(gè)人隱私能夠得到保護(hù)嗎?答案是,只要國(guó)家相關(guān)部門(mén)實(shí)時(shí)推進(jìn)隱私保護(hù),企業(yè)主動(dòng)落實(shí)隱私保護(hù)責(zé)任,大數(shù)據(jù)產(chǎn)業(yè)在飛速發(fā)展的同時(shí)并不會(huì)對(duì)民眾隱私產(chǎn)生威脅。
在大數(shù)據(jù)產(chǎn)業(yè)中,有兩個(gè)基本的作法,一是符號(hào)化。符號(hào)化是指識(shí)別用戶的時(shí)候,識(shí)別的僅僅是一個(gè)“符號(hào)”,這個(gè)符號(hào)與真實(shí)信息并不相關(guān),系統(tǒng)通過(guò)一定的算法能夠知道多次登錄的是同一個(gè)用戶,但并沒(méi)有辦法反推出這個(gè)人是誰(shuí),因此,電話、住址等信息都沒(méi)法與本人關(guān)聯(lián)起來(lái)。二是用戶特征。用戶特征意味著在大數(shù)據(jù)時(shí)代企業(yè)感興趣的往往是這個(gè)用戶的特征,而不是家庭地址、電話號(hào)碼等真正敏感的信息。例如,系統(tǒng)需要了解本科以上學(xué)歷、月收入10000元以上、已婚等這樣一個(gè)群體,只需要找出符合這些特征的人的特性,并不關(guān)心這個(gè)人是誰(shuí)。這樣也不會(huì)造成隱私的泄露。
當(dāng)然,這些原則性問(wèn)題有賴于政府推動(dòng)、企業(yè)自律。但我們相信,為大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展,相關(guān)部門(mén),相關(guān)企業(yè)一定會(huì)高度重視這一問(wèn)題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11