
正確運(yùn)用大數(shù)據(jù) 避免走向誤區(qū)
“大數(shù)據(jù)”是當(dāng)今最熱的概念之一,有人把大數(shù)據(jù)形容為未來(lái)世界的石油,有人宣稱掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個(gè)世界,美國(guó)政府甚至已經(jīng)把對(duì)大數(shù)據(jù)的研究上升為國(guó)家戰(zhàn)略。喧嘩的背后,實(shí)際上,隨著信息與通訊技術(shù)的發(fā)展,“大數(shù)據(jù)”正進(jìn)入與我們息息相關(guān)的每一個(gè)角落。近日,記者參加中國(guó)科協(xié)主辦的第36期科學(xué)家與媒體面對(duì)面活動(dòng),采訪相關(guān)專家,請(qǐng)他們暢談了大數(shù)據(jù)時(shí)代的技術(shù)特色與隱私保護(hù)。
大數(shù)據(jù)是什么
故事一:無(wú)法完成的任務(wù)
大數(shù)據(jù)是一個(gè)時(shí)髦的新詞,也是一個(gè)古老的現(xiàn)象。因?yàn)?,?duì)某個(gè)時(shí)代來(lái)說(shuō),超出當(dāng)時(shí)社會(huì)信息處理能力的數(shù)據(jù),就可以說(shuō)是大數(shù)據(jù)。
以人類遇到的第一個(gè)大數(shù)據(jù)人口普查為例。中國(guó)在公元2年就有史書記載的人口普查數(shù)據(jù)(《漢書 地理志》):全國(guó)103個(gè)郡國(guó),人口是59594978人。對(duì)當(dāng)時(shí)的古代中國(guó)來(lái)說(shuō),近六千萬(wàn)人口的普查無(wú)疑就是一個(gè)難以處理的大數(shù)據(jù)。美國(guó)憲法曾規(guī)定,美國(guó)人口普查十年一次。1880年開始,美國(guó)人花8年完成了一次人口普查,并預(yù)計(jì)1890年做下一次人口普查大概需要13年時(shí)間。也就是說(shuō),人口普查成為當(dāng)時(shí)一項(xiàng)無(wú)法完成的任務(wù)。不過(guò),危機(jī)常常帶來(lái)新的技術(shù)革命。有人發(fā)明了穿孔卡片制表機(jī),使得這個(gè)任務(wù)僅用一年時(shí)間就可以完成。穿孔卡片制表機(jī)就是今天計(jì)算機(jī)的前身。
“大數(shù)據(jù)不是今天就出現(xiàn)的,你對(duì)付不了的就是大數(shù)據(jù)?!惫I(yè)和信息化部電信研究院互聯(lián)網(wǎng)中心主任何寶宏說(shuō):“今天所說(shuō)的大數(shù)據(jù)革命也是2008年之后,這5年來(lái)信息發(fā)生了翻天覆地的變化。大數(shù)據(jù)讓物質(zhì)世界變得可計(jì)算,這是整個(gè)人類的目標(biāo)。”
無(wú)法完成的任務(wù),帶來(lái)的是前所未有的技術(shù)突破。如今,移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、基因測(cè)序等采集數(shù)據(jù)的工具越來(lái)越多樣化,使我們對(duì)物質(zhì)世界的描述越來(lái)越精確,擁有的數(shù)據(jù)量越來(lái)越大;云計(jì)算等處理數(shù)據(jù)的工具越來(lái)越經(jīng)濟(jì),又使得大數(shù)據(jù)的應(yīng)用走入百姓身邊,對(duì)我們的生產(chǎn)和生活方式產(chǎn)生深遠(yuǎn)的影響。
目前大數(shù)據(jù)最成熟的應(yīng)用是互聯(lián)網(wǎng)廣告營(yíng)銷。近一年中,老百姓在搜索或者瀏覽網(wǎng)頁(yè)時(shí)會(huì)發(fā)現(xiàn),網(wǎng)上推出的廣告越來(lái)越精確。這是因?yàn)榛ヂ?lián)網(wǎng)廣告已經(jīng)進(jìn)入到完全自動(dòng)、實(shí)時(shí)競(jìng)價(jià)的狀態(tài),通過(guò)對(duì)個(gè)人上網(wǎng)行為的分析,推導(dǎo)出這個(gè)人的性格特征和可能需要,并有針對(duì)性地投放廣告。廣告請(qǐng)求、競(jìng)價(jià)邀請(qǐng)、受眾篩選、申請(qǐng)出價(jià)、中標(biāo)投放的全過(guò)程,僅需120毫秒也就是0.12秒即可完成,而在傳統(tǒng)媒體完成這樣的工作,很可能需要幾個(gè)月的時(shí)間。
互聯(lián)網(wǎng)金融也是近一年的大熱點(diǎn),根基就是由于大數(shù)據(jù)技術(shù)的成熟?;ヂ?lián)網(wǎng)金融在面對(duì)中小企業(yè)的貸款業(yè)務(wù)中,擁有獨(dú)特的優(yōu)勢(shì)。據(jù)一份對(duì)中國(guó)互聯(lián)網(wǎng)金融的調(diào)查報(bào)告顯示,互聯(lián)網(wǎng)金融對(duì)小微企業(yè)貸款時(shí),不良貸款率僅為1.02%,單筆放款成本為2.3元;而傳統(tǒng)銀行對(duì)小微企業(yè)的貸款不良率為5.5%至6%,單筆成本達(dá)800元至2000元。這種低成本、低壞賬率、全時(shí)服務(wù)(機(jī)器可以全天候開啟)的金融服務(wù),使廣大中小企業(yè)變成了互聯(lián)網(wǎng)金融的客戶,可以解決小微企業(yè)貸款難的問題——這其實(shí)也是一個(gè)過(guò)去無(wú)法完成的任務(wù)。
大數(shù)據(jù)怎么用
故事二:不懂外語(yǔ)的翻譯
百度公司發(fā)展研究中心副主任率鵬給記者講了一個(gè)有趣的故事。“百度翻譯”這個(gè)工具,目前已經(jīng)提供了24種語(yǔ)言的自動(dòng)翻譯服務(wù),翻譯質(zhì)量在行業(yè)中領(lǐng)先。“但這24種語(yǔ)言中有12種語(yǔ)言,整個(gè)百度翻譯的團(tuán)隊(duì)沒有人能懂。”率鵬說(shuō),“大數(shù)據(jù)的技術(shù)使我們完全在不了解、不懂得、不能夠理解這種語(yǔ)言的情況下,僅僅靠技術(shù)本身就開發(fā)出一個(gè)非常好的翻譯工具,這在以往的時(shí)代是難以想象的?!?br />
不懂外語(yǔ)的外語(yǔ)翻譯,這個(gè)聽起來(lái)很天方夜譚的故事,其實(shí)精準(zhǔn)反映了如今大數(shù)據(jù)技術(shù)的一大特點(diǎn)——不需要知道為什么,只需要知道是什么。
這個(gè)技術(shù)特點(diǎn),是由如今大數(shù)據(jù)本身的特點(diǎn)決定的。中國(guó)通信學(xué)會(huì)副理事長(zhǎng)兼秘書長(zhǎng)張新生表示,大數(shù)據(jù)有四大特點(diǎn):一是海量,大到“以目前的技術(shù)無(wú)法管理的數(shù)據(jù)量”;二是多樣,數(shù)據(jù)種類復(fù)雜,非結(jié)構(gòu)數(shù)據(jù)占到所存儲(chǔ)數(shù)據(jù)總量的75%—95%,這些非結(jié)構(gòu)數(shù)據(jù)無(wú)法以現(xiàn)在的技術(shù)手段與關(guān)系分析的數(shù)據(jù)庫(kù)來(lái)處理;三是速度,數(shù)據(jù)產(chǎn)生的頻率和傳送頻率非??欤枰M(jìn)行實(shí)時(shí)處理;四是價(jià)值密度低,需從大量的低質(zhì)量、低價(jià)值的數(shù)據(jù)中獲取知識(shí),猶如大海撈針,獲取數(shù)據(jù)成本很高。
事實(shí)上,大數(shù)據(jù)還將越來(lái)越大。在過(guò)去兩年中,全球產(chǎn)生的信息占到人類整體掌握信息總量的90%,現(xiàn)在每天全球產(chǎn)生的數(shù)據(jù)相當(dāng)于國(guó)家圖書館館藏總量的1500倍。而互聯(lián)網(wǎng)數(shù)據(jù)中心IDC預(yù)測(cè),到2020年全世界將有300億個(gè)物聯(lián)網(wǎng)終端。中國(guó)在這一市場(chǎng)上將占據(jù)至關(guān)重要地位,屆時(shí)中國(guó)普通家庭將擁有40個(gè)到50個(gè)智能設(shè)備或傳感器,每年創(chuàng)造出20TB的數(shù)據(jù)。而中國(guó)國(guó)家圖書館藏書是2631萬(wàn)冊(cè),信息量相當(dāng)于41TB。也就是說(shuō),屆時(shí)一個(gè)普通中國(guó)家庭每年產(chǎn)生的數(shù)據(jù),就相當(dāng)于半個(gè)國(guó)家圖書館。
我們?nèi)绾尾拍懿槐淮髷?shù)據(jù)所淹沒?
“大數(shù)據(jù)的核心重點(diǎn)在于深度挖掘,通過(guò)挖掘產(chǎn)生新的應(yīng)用?!睆埿律硎?,大數(shù)據(jù)的處理技術(shù)是一個(gè)工具,它有幾個(gè)新特色:不再是小樣本、隨機(jī)樣本,而要全體數(shù)據(jù);接收數(shù)據(jù)有混雜性,不再追求精確性;關(guān)注事物之間的相關(guān)性,可以只知道是什么,不知道為什么;對(duì)所獲數(shù)據(jù)可多次、反復(fù)利用,并可擴(kuò)展,具有互用性,也就是未來(lái)可能知道為什么。
大數(shù)據(jù)產(chǎn)業(yè)也在變得越來(lái)越大。大數(shù)據(jù)的采集和傳感、物聯(lián)網(wǎng)領(lǐng)域有很大關(guān)聯(lián)性;大數(shù)據(jù)的處理,又和云計(jì)算等產(chǎn)業(yè)相關(guān);大數(shù)據(jù)的應(yīng)用和醫(yī)療、金融等各個(gè)行業(yè)相關(guān)。未來(lái)將有越來(lái)越多企業(yè)發(fā)展成大數(shù)據(jù)企業(yè)。
“大數(shù)據(jù)應(yīng)該是我們的戰(zhàn)略性新興產(chǎn)業(yè)中新一代信息技術(shù)重要的產(chǎn)業(yè)部分,和互聯(lián)網(wǎng)產(chǎn)業(yè)、物聯(lián)網(wǎng)產(chǎn)業(yè)、電信產(chǎn)業(yè)都有很大關(guān)聯(lián)性?!敝袊?guó)聯(lián)通網(wǎng)絡(luò)技術(shù)研究院首席專家唐雄燕表示:“大數(shù)據(jù)本身和很多產(chǎn)業(yè)相關(guān),現(xiàn)在可能已經(jīng)有幾千億元的產(chǎn)業(yè)規(guī)模,將來(lái)會(huì)無(wú)處不在。大數(shù)據(jù)的從業(yè)者,未來(lái)也將不止是高科技人員,也會(huì)有很多藍(lán)領(lǐng)。大數(shù)據(jù)是一個(gè)材料,和石油、礦藏一樣,需要有采集數(shù)據(jù)的人員,需要有探礦的人員,各種各樣的人都需要?!?br />
大數(shù)據(jù)怎么管
故事三:應(yīng)該保護(hù)的隱私
我國(guó)大數(shù)據(jù)應(yīng)用面臨著數(shù)據(jù)資源難以開放共享、數(shù)據(jù)安全和隱私急需保護(hù)、大數(shù)據(jù)技術(shù)創(chuàng)新人才不足等諸多挑戰(zhàn),其中個(gè)人隱私如何保護(hù),是大眾最為關(guān)注的問題。
事實(shí)上,真正好用的大數(shù)據(jù)技術(shù),應(yīng)該是用加工實(shí)現(xiàn)增值,用分析來(lái)指導(dǎo)決策,而非販賣用戶個(gè)性化隱私這種原始數(shù)據(jù)信息本身的低層次濫用。
中興通訊首席架構(gòu)師、業(yè)務(wù)總工程師羅圣美表示:“使用這些數(shù)據(jù)的企業(yè),其實(shí)有兩大類,一類是互聯(lián)網(wǎng)企業(yè),第二類是電信企業(yè)。企業(yè)有安全保護(hù)措施,有技術(shù)解決方案,做只針對(duì)群體,而不針對(duì)個(gè)體的信息挖掘,這是應(yīng)遵循的基本原則?!?br />
率鵬認(rèn)為,在隱私保護(hù)問題上,大數(shù)據(jù)技術(shù)要重點(diǎn)強(qiáng)調(diào)符號(hào)化和用戶特征這兩個(gè)概念?!胺?hào)化,是當(dāng)我們?nèi)プR(shí)別一個(gè)用戶時(shí),用和他真實(shí)信息不相關(guān)的符號(hào)標(biāo)記這個(gè)用戶。符號(hào)通過(guò)算法來(lái)保證,是單向的識(shí)別,使我們能識(shí)別出兩次登錄的是同一個(gè)用戶,卻無(wú)法通過(guò)此符號(hào)反推出該用戶在真實(shí)生活中的姓名、電話和住址,這就基本享受了大數(shù)據(jù)帶來(lái)的優(yōu)勢(shì),同時(shí)又規(guī)避了信息安全的風(fēng)險(xiǎn)。用戶特征,是在大數(shù)據(jù)時(shí)代,企業(yè)感興趣的往往是這個(gè)用戶的特征,而不是家庭地址、電話號(hào)碼真正敏感的信息。比如說(shuō),我希望知道你是一個(gè)20歲到30歲年齡段,生育過(guò)子女,有高等教育學(xué)歷的女性,這些都是你的特征,但是我并不想知道你姓甚名誰(shuí),今年多大,有幾個(gè)小孩。如果在數(shù)據(jù)使用過(guò)程中嚴(yán)格遵循符號(hào)化和用戶特征原則,我們就能規(guī)避掉不良風(fēng)險(xiǎn)。”
除了技術(shù)以外,政策和立法才是大數(shù)據(jù)時(shí)代個(gè)人隱私保障的重要憑借。2012年12月28日,《全國(guó)人民代表大會(huì)常務(wù)委員會(huì)關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》審議通過(guò)。2013年,工信部根據(jù)全國(guó)人大的決定,出臺(tái)了關(guān)于互聯(lián)網(wǎng)和電信網(wǎng)個(gè)人信息保護(hù)的條例,提出了數(shù)據(jù)保護(hù)的一系列要求。
數(shù)據(jù)需要保護(hù),數(shù)據(jù)也需要交易。大數(shù)據(jù)的保護(hù)與交易需要遵循什么樣的標(biāo)準(zhǔn),是當(dāng)前政策制定者面臨的挑戰(zhàn)。
張新生說(shuō):“有價(jià)值的數(shù)據(jù)是非常重要的資源,但前提是要建立交易規(guī)則。我國(guó)的幾大互聯(lián)網(wǎng)運(yùn)營(yíng)企業(yè)都在做大數(shù)據(jù)分析,并且都想把數(shù)據(jù)作為可交易的產(chǎn)品,這需要我們盡快建立數(shù)據(jù)交易有關(guān)的法律法規(guī)?!?br />
何寶宏認(rèn)為,目前的大數(shù)據(jù)分為兩類。一類是公共數(shù)據(jù),比如政府所掌握的數(shù)據(jù),或者公益企業(yè)的數(shù)據(jù),公共數(shù)據(jù)面臨的是開放和共享的問題。一類是商業(yè)數(shù)據(jù),商業(yè)性數(shù)據(jù)需交易,因?yàn)檫@是資產(chǎn),交易產(chǎn)生新的價(jià)值?!皹?biāo)準(zhǔn)和政策的制定是不斷摸索的過(guò)程,需要隨著市場(chǎng)去探索,我們已經(jīng)深度地介入到關(guān)于目前國(guó)內(nèi)數(shù)據(jù)交易的活動(dòng)中,去探討這方面的政策、標(biāo)準(zhǔn)制定。”
對(duì)于用戶來(lái)說(shuō),提高信息安全意識(shí)、注意個(gè)人隱私保護(hù)也十分重要。不過(guò),鑒于大數(shù)據(jù)時(shí)代個(gè)人隱私保護(hù)的困難程度,已有專家提出了“遺忘”的必要性。牛津大學(xué)教授、大數(shù)據(jù)領(lǐng)域權(quán)威專家維克托就在他的著作《刪除》中表示,對(duì)于人類而言,遺忘一直是常態(tài),而記憶才是例外。然而,由于數(shù)字技術(shù)與全球網(wǎng)絡(luò)的發(fā)展,這種平衡已經(jīng)被打破了。大量數(shù)字化的私人信息不僅可能在今天被濫用,在幾年甚至幾十年后仍然可能被濫用。
羅圣美說(shuō):“在大數(shù)據(jù)時(shí)代,建議國(guó)家相關(guān)部門在制定產(chǎn)業(yè)政策時(shí),需要重點(diǎn)考慮涉及個(gè)人隱私的信息,采取刪除、鎖定,或者安全加密等多種級(jí)別的保密措施,避免個(gè)人隱私被檢索、發(fā)現(xiàn)、濫用和擴(kuò)散?!?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03