
大數(shù)據(jù)活力要靠規(guī)則保障_數(shù)據(jù)分析師培訓(xùn)
通過云計(jì)算,大數(shù)據(jù)在全球醫(yī)療、衛(wèi)生、保險(xiǎn)等領(lǐng)域得到廣泛運(yùn)用,它像土地、礦產(chǎn)一樣,成為一種能夠創(chuàng)造價(jià)值的資源。但因?yàn)槭腔趯?duì)人的信息的采集,大數(shù)據(jù)的利用也陷入了個(gè)人隱私的困境。如何在利用其價(jià)值的同時(shí),規(guī)避信息安全的風(fēng)險(xiǎn),專家認(rèn)為,最重要的是要制定法律,讓那些擁有大量數(shù)據(jù)的人,不去濫用數(shù)據(jù)。
“很多醫(yī)院醫(yī)療水平很高,但沒有數(shù)據(jù)庫,導(dǎo)致很多患者錯(cuò)過最佳治療時(shí)間”
英國鄧迪大學(xué)醫(yī)學(xué)院院長安德魯·莫里斯每天都要瀏覽自己建立的蘇格蘭糖尿病研究網(wǎng)。這個(gè)網(wǎng)站的登記用戶為來自蘇格蘭的23.9萬名糖尿病患者。通過瀏覽網(wǎng)站上的信息,莫里斯跟蹤患者病情,及時(shí)在患者病情加重前就拿出救治方案。經(jīng)過7年的努力,這個(gè)網(wǎng)站建立的數(shù)據(jù)庫已經(jīng)使蘇格蘭糖尿病患者的截肢率降低了40%。
莫里斯還給每位患者配了一個(gè)隨身攜帶的微型電子設(shè)備,以隨時(shí)采集患者的身體變化數(shù)據(jù),患者也可以24小時(shí)不間斷地觀察病情,這些設(shè)備被患者們親切地稱為“衣袋里的智能醫(yī)生”。
莫里斯說,在大數(shù)據(jù)時(shí)代,醫(yī)生的職責(zé)正在從過去的“給病人看病”轉(zhuǎn)為“預(yù)測和預(yù)防病情”。“很多醫(yī)院的醫(yī)療水平很高,但由于沒有建立數(shù)據(jù)庫,導(dǎo)致很多患者錯(cuò)過了最佳治療時(shí)間。”
國際商業(yè)機(jī)器公司(IBM)中國開發(fā)中心首席技術(shù)官毛新生在接受本報(bào)記者采訪時(shí)表示,大數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域可以比較便捷地獲得,比如,可穿戴設(shè)備測量血壓、心跳、血糖、血脂等指標(biāo),實(shí)時(shí)了解人體的運(yùn)行情況;而手機(jī)應(yīng)用程序可以收集飲食、作息等方面的數(shù)據(jù),匯集到云端。
日本廣島縣吳市是日本少子老齡化的典型,該市65歲以上人口占比高達(dá)28%,導(dǎo)致地方財(cái)政的70%用于支付醫(yī)療費(fèi)用。為了削減醫(yī)療費(fèi)用,吳市于2008年引進(jìn)了“健康管理促進(jìn)體系”,將醫(yī)院和藥房提交給醫(yī)保部門的處方、醫(yī)療費(fèi)用報(bào)銷單據(jù)等掃描輸入電腦后生成數(shù)據(jù),篩選出就診次數(shù)頻繁、醫(yī)療費(fèi)用異常的案例,醫(yī)保部門再對(duì)其進(jìn)行重點(diǎn)干預(yù)。比如,一位70歲老太太因?yàn)橄ドw疼痛在一個(gè)月內(nèi)去了15次醫(yī)院,醫(yī)保部門就派出護(hù)士對(duì)病人進(jìn)行上門指導(dǎo),幫助她改變生活方式,并改用療效相同的低價(jià)藥品。通過鼓勵(lì)使用低價(jià)藥品等手段,2011年,該市節(jié)省醫(yī)療費(fèi)用約1.5億日元(1元人民幣約合16.4日元)。
目前,日本政府已經(jīng)決定在全國推廣“吳市模式”,通過對(duì)醫(yī)療數(shù)據(jù)的大規(guī)模分析,確定合理的藥品和單病種診療價(jià)格,抑制過度醫(yī)療,控制醫(yī)療費(fèi)用。
“大數(shù)據(jù)就像一個(gè)上帝,無所不知,所有數(shù)據(jù)都可以加以利用”
大數(shù)據(jù)應(yīng)用的實(shí)質(zhì)是,通過云計(jì)算強(qiáng)大的計(jì)算和存儲(chǔ)能力,把所有數(shù)據(jù)都吸收進(jìn)來,分析現(xiàn)象之間的關(guān)聯(lián)度,尋找到重復(fù)性的規(guī)律。這也是為什么當(dāng)你打開淘寶、京東商城等網(wǎng)站,經(jīng)常會(huì)看到“瀏覽了該商品的用戶還購買了這些商品”的推薦,百度也會(huì)在同一頁面向不同用戶精準(zhǔn)地投放不同的廣告。毛新生解釋說,“這是利用大數(shù)據(jù)進(jìn)行的交叉銷售,即一件事情發(fā)生,另一件事情也很可能發(fā)生。交叉銷售有助于減少信息不對(duì)稱,用戶可以減少無關(guān)廣告的打擾,商家也可以降低廣告成本?!?/span>
“大數(shù)據(jù)就像一個(gè)上帝,無所不知,所有數(shù)據(jù)都可以加以利用。”毛新生說, “做一個(gè)大膽假設(shè):未來,如果你在微信上談情說愛,微信在分析了你們的聊天內(nèi)容后,就可能向你推薦一些適合情人的旅游勝地、餐廳、電影和音樂會(huì),甚至?xí)蚰阃扑]一些情歌和少女約會(huì)服飾等。”
毛新生還舉了大數(shù)據(jù)在生活中得到應(yīng)用的一個(gè)實(shí)例: “可以在京津冀地區(qū)大量鋪設(shè)用于監(jiān)測空氣質(zhì)量的傳感器,實(shí)時(shí)采集空氣數(shù)據(jù)進(jìn)行分析,就可以知道京津冀地區(qū)的空氣粉塵的傳播路徑。比如,北京的霧霾是輸入性的還是輸出性的?如果是前者,是由哪個(gè)地區(qū)輸入?在那個(gè)地區(qū),鋼鐵廠、石灰廠還是造紙廠是霧霾的原生制造者?”
毛新生認(rèn)為,大數(shù)據(jù)也正在重塑新聞行業(yè)的商業(yè)模式。他舉例說,“有網(wǎng)絡(luò)服務(wù)商以個(gè)性化信息推薦的方式推送新聞,提高了推薦精確度,比傳統(tǒng)媒體更善于利用目標(biāo)客戶的價(jià)值。以此類推,傳統(tǒng)媒體也可以利用大數(shù)據(jù)找出讀者最感興趣的新聞事件,然后馬上派出記者就此新聞采寫文章,并對(duì)熱點(diǎn)新聞稿件的轉(zhuǎn)載征收更高的費(fèi)用。”
在美國斯坦福大學(xué)助理教授賈斯廷看來,隨著大數(shù)據(jù)的應(yīng)用范圍日趨廣泛,許多研究領(lǐng)域正在一個(gè)個(gè)變成“數(shù)據(jù)密集型學(xué)科”,其中包括政治學(xué)。像賈斯廷這樣的政治學(xué)者,其日常工作模式已經(jīng)轉(zhuǎn)變?yōu)椋簩?duì)互聯(lián)網(wǎng)上的新聞報(bào)道、受眾留言、博客文章、政客演說等海量信息進(jìn)行搜集、統(tǒng)計(jì)、分析,從而預(yù)判一段時(shí)期的政治風(fēng)向和溫度。
“衡量大數(shù)據(jù)的成效,不是看創(chuàng)造了多少數(shù)據(jù),而在于創(chuàng)造了多少價(jià)值”
“正如火被發(fā)明后,既能用來煮食、照明、取暖,也可以用來縱火。大數(shù)據(jù)技術(shù)的應(yīng)用可以促進(jìn)經(jīng)濟(jì)增長與社會(huì)發(fā)展,但也可能適得其反?!敝袊畔踩珳y評(píng)中心顧問俞曉秋對(duì)本報(bào)記者說。
在大數(shù)據(jù)各種“先天缺陷”中,隱私泄漏是最令人擔(dān)心的?!霸谏缃痪W(wǎng)絡(luò)上,任何人都可以看到你的國籍、婚姻狀況、畢業(yè)學(xué)校、郵箱等個(gè)人信息,甚至可以翻看你發(fā)布的照片和生活感悟等。在陌生人面前你變得毫無隱私,這非??膳?。”巴西智庫瓦加斯基金會(huì)技術(shù)與社會(huì)中心研究員瑪里莉婭對(duì)本報(bào)記者感嘆說。
“您現(xiàn)在是不是正考慮買車輛保險(xiǎn)?”“我們向您介紹一款理財(cái)產(chǎn)品”……每天,巴西人何塞都會(huì)收到好幾通這樣莫名其妙的推銷電話,他的郵箱里也經(jīng)常堆滿了各類促銷郵件。
對(duì)大數(shù)據(jù)的精確分析,也可以使黑客更加精準(zhǔn)地進(jìn)行攻擊,或通過仿冒社交網(wǎng)站域名進(jìn)行病毒傳播等。南非人亞伯拉罕經(jīng)常在社交網(wǎng)站“臉譜”上炒股。最近,除了一個(gè)炒股賬戶以外,他的其它賬戶突然都拒絕訪問了?!昂髞砦也虐l(fā)現(xiàn),原來有人盜用了我的身份,已經(jīng)侵入我的賬戶長達(dá)兩周時(shí)間,他一直盯著我的賬戶呢!”
在大數(shù)據(jù)時(shí)代,關(guān)乎國計(jì)民生的國家重要信息數(shù)據(jù)系統(tǒng)同樣面臨著網(wǎng)絡(luò)恐怖主義的威脅。斯諾登揭露的美國“棱鏡門”項(xiàng)目就體現(xiàn)出“數(shù)據(jù)挖掘”技術(shù)在情報(bào)領(lǐng)域的應(yīng)用。
在毛新生看來,所有安全事故的根本原因主要在于人們自身對(duì)安全問題缺乏足夠重視,有意或無意地泄露了一些入口信息?!叭藗冃枰囵B(yǎng)保障個(gè)人數(shù)據(jù)安全的意識(shí),包括不在郵件里寫用戶名和密碼等個(gè)人信息。最重要的是制定法律,讓那些擁有大量數(shù)據(jù)的人,不能濫用數(shù)據(jù)?!?/span>
咨詢機(jī)構(gòu)畢馬威硅谷分部高級(jí)分析師維賈·佳卓對(duì)本報(bào)記者說,互聯(lián)網(wǎng)公司應(yīng)當(dāng)建立共同的隱私標(biāo)準(zhǔn),賦予用戶更多控制個(gè)人網(wǎng)上信息的權(quán)利。比如,科技企業(yè)在搜集、儲(chǔ)存用戶信息時(shí)應(yīng)當(dāng)充分尊重用戶知情權(quán),明確告知搜集了哪些信息、如何貯存以及如何利用這些信息,此外,還應(yīng)當(dāng)對(duì)企業(yè)和機(jī)構(gòu)可以采集的個(gè)人數(shù)據(jù)類型,作出明確、合理的限制。
中國社科院信息化研究中心秘書長姜奇平對(duì)本報(bào)記者表示,“大數(shù)據(jù)”作用的發(fā)揮,不僅有賴于數(shù)據(jù)收集、數(shù)據(jù)提純等多重技術(shù)要素,更關(guān)鍵的是,大數(shù)據(jù)的應(yīng)用要與人以及解決人的問題聯(lián)系起來。衡量大數(shù)據(jù)的成效,不是看創(chuàng)造了多少數(shù)據(jù),而應(yīng)是利用這些數(shù)據(jù),在滿足人們需求方面創(chuàng)造了多少價(jià)值。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11