
大數(shù)據(jù)時代的技術與隱私_數(shù)據(jù)分析師培訓
“大數(shù)據(jù)”是當今最熱的概念之一,有人把大數(shù)據(jù)形容為未來世界的石油,有人宣稱掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個世界,美國政府甚至已經(jīng)把對大數(shù)據(jù)的研究上升為國家戰(zhàn)略。喧嘩的背后,實際上,隨著信息與通訊技術的發(fā)展,“大數(shù)據(jù)”正進入與我們息息相關的每一個角落。近日,記者參加中國科協(xié)主辦的第36期科學家與媒體面對面活動,采訪相關專家,請他們暢談了大數(shù)據(jù)時代的技術特色與隱私保護。
大數(shù)據(jù)是什么
故事一:無法完成的任務
大數(shù)據(jù)是一個時髦的新詞,也是一個古老的現(xiàn)象。因為,對某個時代來說,超出當時社會信息處理能力的數(shù)據(jù),就可以說是大數(shù)據(jù)。
以人類遇到的第一個大數(shù)據(jù)人口普查為例。中國在公元2年就有史書記載的人口普查數(shù)據(jù)(《漢書 地理志》):全國103個郡國,人口是59594978人。對當時的古代中國來說,近六千萬人口的普查無疑就是一個難以處理的大數(shù)據(jù)。美國憲法曾規(guī)定,美國人口普查十年一次。1880年開始,美國人花8年完成了一次人口普查,并預計1890年做下一次人口普查大概需要13年時間。也就是說,人口普查成為當時一項無法完成的任務。不過,危機常常帶來新的技術革命。有人發(fā)明了穿孔卡片制表機,使得這個任務僅用一年時間就可以完成。穿孔卡片制表機就是今天計算機的前身。
“大數(shù)據(jù)不是今天就出現(xiàn)的,你對付不了的就是大數(shù)據(jù)?!惫I(yè)和信息化部電信研究院互聯(lián)網(wǎng)中心主任何寶宏說:“今天所說的大數(shù)據(jù)革命也是2008年之后,這5年來信息發(fā)生了翻天覆地的變化。大數(shù)據(jù)讓物質(zhì)世界變得可計算,這是整個人類的目標?!?/span>
無法完成的任務,帶來的是前所未有的技術突破。如今,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、基因測序等采集數(shù)據(jù)的工具越來越多樣化,使我們對物質(zhì)世界的描述越來越精確,擁有的數(shù)據(jù)量越來越大;云計算等處理數(shù)據(jù)的工具越來越經(jīng)濟,又使得大數(shù)據(jù)的應用走入百姓身邊,對我們的生產(chǎn)和生活方式產(chǎn)生深遠的影響。
目前大數(shù)據(jù)最成熟的應用是互聯(lián)網(wǎng)廣告營銷。近一年中,老百姓在搜索或者瀏覽網(wǎng)頁時會發(fā)現(xiàn),網(wǎng)上推出的廣告越來越精確。這是因為互聯(lián)網(wǎng)廣告已經(jīng)進入到完全自動、實時競價的狀態(tài),通過對個人上網(wǎng)行為的分析,推導出這個人的性格特征和可能需要,并有針對性地投放廣告。廣告請求、競價邀請、受眾篩選、申請出價、中標投放的全過程,僅需120毫秒也就是0.12秒即可完成,而在傳統(tǒng)媒體完成這樣的工作,很可能需要幾個月的時間。
互聯(lián)網(wǎng)金融也是近一年的大熱點,根基就是由于大數(shù)據(jù)技術的成熟?;ヂ?lián)網(wǎng)金融在面對中小企業(yè)的貸款業(yè)務中,擁有獨特的優(yōu)勢。據(jù)一份對中國互聯(lián)網(wǎng)金融的調(diào)查報告顯示,互聯(lián)網(wǎng)金融對小微企業(yè)貸款時,不良貸款率僅為1.02%,單筆放款成本為2.3元;而傳統(tǒng)銀行對小微企業(yè)的貸款不良率為5.5%至6%,單筆成本達800元至2000元。這種低成本、低壞賬率、全時服務(機器可以全天候開啟)的金融服務,使廣大中小企業(yè)變成了互聯(lián)網(wǎng)金融的客戶,可以解決小微企業(yè)貸款難的問題——這其實也是一個過去無法完成的任務。
大數(shù)據(jù)怎么用
故事二:不懂外語的翻譯
百度公司發(fā)展研究中心副主任率鵬給記者講了一個有趣的故事?!鞍俣确g”這個工具,目前已經(jīng)提供了24種語言的自動翻譯服務,翻譯質(zhì)量在行業(yè)中領先?!暗@24種語言中有12種語言,整個百度翻譯的團隊沒有人能懂?!甭戍i說,“大數(shù)據(jù)的技術使我們完全在不了解、不懂得、不能夠理解這種語言的情況下,僅僅靠技術本身就開發(fā)出一個非常好的翻譯工具,這在以往的時代是難以想象的。”
不懂外語的外語翻譯,這個聽起來很天方夜譚的故事,其實精準反映了如今大數(shù)據(jù)技術的一大特點——不需要知道為什么,只需要知道是什么。
這個技術特點,是由如今大數(shù)據(jù)本身的特點決定的。中國通信學會副理事長兼秘書長張新生表示,大數(shù)據(jù)有四大特點:一是海量,大到“以目前的技術無法管理的數(shù)據(jù)量”;二是多樣,數(shù)據(jù)種類復雜,非結構數(shù)據(jù)占到所存儲數(shù)據(jù)總量的75%—95%,這些非結構數(shù)據(jù)無法以現(xiàn)在的技術手段與關系分析的數(shù)據(jù)庫來處理;三是速度,數(shù)據(jù)產(chǎn)生的頻率和傳送頻率非??欤枰M行實時處理;四是價值密度低,需從大量的低質(zhì)量、低價值的數(shù)據(jù)中獲取知識,猶如大海撈針,獲取數(shù)據(jù)成本很高。
事實上,大數(shù)據(jù)還將越來越大。在過去兩年中,全球產(chǎn)生的信息占到人類整體掌握信息總量的90%,現(xiàn)在每天全球產(chǎn)生的數(shù)據(jù)相當于國家圖書館館藏總量的1500倍。而互聯(lián)網(wǎng)數(shù)據(jù)中心IDC預測,到2020年全世界將有300億個物聯(lián)網(wǎng)終端。中國在這一市場上將占據(jù)至關重要地位,屆時中國普通家庭將擁有40個到50個智能設備或傳感器,每年創(chuàng)造出20TB的數(shù)據(jù)。而中國國家圖書館藏書是2631萬冊,信息量相當于41TB。也就是說,屆時一個普通中國家庭每年產(chǎn)生的數(shù)據(jù),就相當于半個國家圖書館。
我們?nèi)绾尾拍懿槐淮髷?shù)據(jù)所淹沒?
“大數(shù)據(jù)的核心重點在于深度挖掘,通過挖掘產(chǎn)生新的應用?!睆埿律硎荆髷?shù)據(jù)的處理技術是一個工具,它有幾個新特色:不再是小樣本、隨機樣本,而要全體數(shù)據(jù);接收數(shù)據(jù)有混雜性,不再追求精確性;關注事物之間的相關性,可以只知道是什么,不知道為什么;對所獲數(shù)據(jù)可多次、反復利用,并可擴展,具有互用性,也就是未來可能知道為什么。
大數(shù)據(jù)產(chǎn)業(yè)也在變得越來越大。大數(shù)據(jù)的采集和傳感、物聯(lián)網(wǎng)領域有很大關聯(lián)性;大數(shù)據(jù)的處理,又和云計算等產(chǎn)業(yè)相關;大數(shù)據(jù)的應用和醫(yī)療、金融等各個行業(yè)相關。未來將有越來越多企業(yè)發(fā)展成大數(shù)據(jù)企業(yè)。
“大數(shù)據(jù)應該是我們的戰(zhàn)略性新興產(chǎn)業(yè)中新一代信息技術重要的產(chǎn)業(yè)部分,和互聯(lián)網(wǎng)產(chǎn)業(yè)、物聯(lián)網(wǎng)產(chǎn)業(yè)、電信產(chǎn)業(yè)都有很大關聯(lián)性?!敝袊?lián)通網(wǎng)絡技術研究院首席專家唐雄燕表示:“大數(shù)據(jù)本身和很多產(chǎn)業(yè)相關,現(xiàn)在可能已經(jīng)有幾千億元的產(chǎn)業(yè)規(guī)模,將來會無處不在。大數(shù)據(jù)的從業(yè)者,未來也將不止是高科技人員,也會有很多藍領。大數(shù)據(jù)是一個材料,和石油、礦藏一樣,需要有采集數(shù)據(jù)的人員,需要有探礦的人員,各種各樣的人都需要。”文章來源:CDA數(shù)據(jù)分析師官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11