
假如給你一天大數(shù)據(jù)的生活_數(shù)據(jù)分析師培訓(xùn)
百度在北京舉辦大數(shù)據(jù)引擎技術(shù)論壇。百度董事長兼CEO李彥宏難得一見出現(xiàn)在論壇上。他在十分鐘的演講里,最讓我印象深刻的是他提到一個(gè)觀點(diǎn),即互聯(lián)網(wǎng)在逐個(gè)改變傳統(tǒng)行業(yè),但誰來改變互聯(lián)網(wǎng)?他給出的答案是技術(shù)。那么這個(gè)技術(shù)會是什么?李彥宏的答案是大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)這個(gè)概念火了好幾年了。最早的時(shí)候我看過一本叫做《大數(shù)據(jù)時(shí)代》的書,里面列舉了一些大數(shù)據(jù)的應(yīng)用。印象中有這么一個(gè)例子,記得不是特別準(zhǔn)確,大致意思說的是,在美國,某個(gè)當(dāng)?shù)挠幸惶焓盏揭粋€(gè)電商公司寄來的關(guān)于嬰幼兒產(chǎn)品的廣告信息。他很憤怒地,覺得這種垃圾廣告騷擾到了自己。他甚至找到這個(gè)電商公司理論。結(jié)果幾個(gè)月之后,他知道自己的女兒未婚先孕,他要當(dāng)外公了。而電商公司之所以能提前預(yù)測到他對嬰幼兒產(chǎn)品的需求,是因?yàn)楦鶕?jù)他女兒此前的購物、搜索和社交網(wǎng)絡(luò)等信息所作出的猜測。
推薦購物。這是很多人對于大數(shù)據(jù)應(yīng)用的了解。那么幾年過去了,大數(shù)據(jù)技術(shù)的應(yīng)用到底發(fā)展到一個(gè)怎樣的層次和水平?今天新聞?dòng)^止就結(jié)合百度大叔就搜索引擎上幾個(gè)嘉賓提到的案例,通過虛擬一天的大數(shù)據(jù)生活,來讓大家對大數(shù)據(jù)這個(gè)技術(shù)有更多直觀的了解。
大家準(zhǔn)備好了嗎?來吧,大數(shù)據(jù)的一天開始了。
一早上,你被手機(jī)鬧鐘叫醒。昨晚你帶著一款小型可穿戴設(shè)備睡覺的。這個(gè)設(shè)備連接著你手機(jī)里的一款大數(shù)據(jù)的APP,你打開它。就可以看到昨晚你睡覺時(shí)候的身材狀況。比如你是什么時(shí)候晨勃的,勃起了幾次。另外你昨晚睡覺翻身了幾次,心跳和血壓狀況都有一個(gè)詳細(xì)的統(tǒng)計(jì)告訴你。最后這個(gè)軟件會告訴你,根據(jù)昨晚你的身體狀況,建議你今天出門之前喝點(diǎn)什么,或者回家的時(shí)候記得去藥店帶回點(diǎn)維生素之類的營養(yǎng)品。
現(xiàn)在已經(jīng)有很多可穿戴設(shè)備能夠24小時(shí)每天監(jiān)控我們的健康狀況,包括了我們的血壓、心跳、睡眠狀況、運(yùn)動(dòng)狀況。檢測我們汗液、血液,監(jiān)測我們身體情況。當(dāng)我們把24小時(shí)檢測數(shù)據(jù)上傳到大數(shù)據(jù)中心,跟醫(yī)院關(guān)聯(lián)以后,就會產(chǎn)生新的價(jià)值點(diǎn)出來。
用心臟病做一個(gè)例子,我們每年有幾百萬人得了心臟病,如果我們的大數(shù)據(jù)中心具有很好的計(jì)算能力,我們能夠從這幾百萬患者的24小時(shí)監(jiān)控?cái)?shù)據(jù)里頭找到它的共性。我們提前兩天給人發(fā)預(yù)警,如果你再這樣下去就有可能得心臟病,由醫(yī)院給人群發(fā)出警告。
在大數(shù)據(jù)時(shí)代,便攜式的可穿戴傳感器會越來越多,設(shè)備越來越多。原來在醫(yī)院做,現(xiàn)在都可以在家做。這個(gè)帶來的變化是你可以7*24小時(shí)對身體的進(jìn)行監(jiān)測。在西方有個(gè)非常時(shí)髦的術(shù)語叫量化自我,時(shí)刻想知道自己身體上的變化。在美國量化自我的先鋒們,每兩周做一次核磁共振,然后去做血的檢查。這些設(shè)備產(chǎn)生出來所有的數(shù)據(jù),全部都存儲在云端,它的數(shù)據(jù)慢慢在云端去積累,當(dāng)量達(dá)到一定階段就是數(shù)據(jù)的量變了。
大數(shù)據(jù)對于醫(yī)生和醫(yī)院都將帶來改變。百度搜索研發(fā)部副總監(jiān)高亮舉個(gè)了例子,他一個(gè)同學(xué)岳母,年輕時(shí)候一直在協(xié)和醫(yī)院看病,到今天為止已經(jīng)80歲了。到醫(yī)院慢慢積累這個(gè)病例,這個(gè)病例也就是牛皮紙這么厚,這么大一個(gè)袋子,大概250px厚,這是一個(gè)人一生的醫(yī)療數(shù)據(jù)。
現(xiàn)在這些紙質(zhì)的數(shù)據(jù)慢慢變成了電子化。但這個(gè)數(shù)據(jù)太大,大到你沒有傳統(tǒng)辦法去看,去分析,去識別。僅僅是三個(gè)月醫(yī)療數(shù)據(jù),讓醫(yī)生看一下,醫(yī)生可能都沒有辦法,也沒有時(shí)間看,他一定需要一些工具才把特征提取出來,輔助他做出診斷。
此外,對醫(yī)院來說,數(shù)據(jù)大了帶來兩個(gè)問題,醫(yī)院現(xiàn)有IT系統(tǒng)比較難存儲,試想一個(gè)人一生數(shù)據(jù)在幾個(gè)T的話,價(jià)錢最好的電腦可能也就只能存一部分。這個(gè)成本在醫(yī)院來說是比較高的。
所以,這些數(shù)據(jù)持續(xù)膨脹的問題給傳統(tǒng)行業(yè)帶來而來挑戰(zhàn)。這些挑戰(zhàn)大數(shù)據(jù)可以解決。比如百度就提供了百度開放云,百度數(shù)據(jù)工廠等數(shù)據(jù)解決方案。
洗漱完之后,你想起今天要帶一個(gè)來北京的朋友去逛逛故宮。你打開百度的大數(shù)據(jù)產(chǎn)品百度預(yù)測,看看北京故宮今天預(yù)計(jì)會有多少人。再看看北京今天的交通預(yù)測。百度預(yù)測通過每天幾十億次用戶向百度請求定位信息,計(jì)算出景區(qū)熱地圖。
百度的大數(shù)據(jù)產(chǎn)品百度大腦已經(jīng)能夠預(yù)測到兩個(gè)星期以內(nèi)的城市旅游熱度,這些旅游人會從哪一個(gè)城市過來,百度能提供兩星期的預(yù)測,如果把這個(gè)更細(xì)一點(diǎn),在城市景點(diǎn),百度能預(yù)測兩天景點(diǎn)擁擠程度。4月24日,玉淵潭和陶然亭哪個(gè)公園更擁擠,也可以運(yùn)用百度大腦計(jì)算出來。
到了單位后,如果你是個(gè)名人,估計(jì)想知道今天你昨天是否被人偷拍了。你用手機(jī)給自己拍了一張照片,上傳到百度搜圖網(wǎng)頁上,通過以圖搜圖和圖片識別技術(shù),就能把以前關(guān)于你的新聞圖片全部搜尋出來。
到了中午你到一個(gè)餐館用餐。大數(shù)據(jù)軟件,你可以告訴你餐館附近多少車位,算出你可能會遇到的擁堵時(shí)間,到了是否還有多少車位等可能性。你在用餐的時(shí)候,可以提前看到餐館的視頻環(huán)境??纯词欠袢硕?。大數(shù)據(jù)還可以把你臉的部分打成馬賽克,你不用擔(dān)心個(gè)人信息泄露。
吃完中飯,你收到催繳電話費(fèi)短信。你很好奇自己過去三年每個(gè)月的消費(fèi)記錄。但過去運(yùn)營商都是只能讓你查到六個(gè)月以內(nèi)的消費(fèi)信息。為什么?因?yàn)橹袊苿?dòng)至少有5億用戶,每天至少能產(chǎn)生10次以上計(jì)費(fèi)記錄。每天50億的計(jì)費(fèi)記錄,包括上短信,打電話之了,一年下來就是1800億條記錄。這是一個(gè)大大數(shù)據(jù)的存儲和歸納技術(shù)難題。在大數(shù)據(jù)時(shí)代,過去幾年的電話通訊信息都可以查到了。
下班回家的路上,你再也看不到路邊電線杠上貼的嫌疑犯通緝圖。警察叔叔們使用先進(jìn)的以圖搜圖功能,在海量監(jiān)控視頻中,就很快可以通過比對把嫌犯找到。最近嫌犯在哪個(gè)城市,哪條街道,哪個(gè)商店出現(xiàn)過,就不用上街貼照片。
看過美劇《疑犯追蹤》的人,應(yīng)該對于大數(shù)據(jù)對于阻止犯罪的作用印象深刻。這部美劇中,軟件天才Finch發(fā)明了一個(gè)程序,通過觀測已有的模式來識別有可能進(jìn)行暴力犯罪的罪犯,他雇用了一位被推定死亡的前美國特種部隊(duì)綠色貝雷帽隊(duì)員和前CIA探員Reese,二人使用國家級的監(jiān)測技術(shù),加以Reese的專業(yè)技能和Finch的無限財(cái)富,開始“法外執(zhí)法”,力圖在犯罪發(fā)生前就對其加以阻止。
當(dāng)你回到家的時(shí)候,你的可穿戴設(shè)備告訴你,今天你在室內(nèi)和室外的時(shí)間分別都是多少,你一天內(nèi)吸入了多少霧霾。
晚上睡覺的時(shí)候,你的孩子哭鬧起來。你把孩子的哭聲錄入一個(gè)大數(shù)據(jù)軟件中。軟件能告訴你孩子為什么哭。是餓了,還是哪里不舒服,還是說想撒撒嬌。文章來源:CDA數(shù)據(jù)分析師官網(wǎng)
為什么能做到這點(diǎn)?很簡單。百度大腦把海量的嬰兒聲紋,上傳到大數(shù)據(jù)中心提取特征學(xué)習(xí),從而幫助到年輕父母,錄下嬰兒哭聲上網(wǎng)比對,就知道孩子因?yàn)槭裁纯蓿寷]有帶孩子經(jīng)驗(yàn)的父母得到幫助。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10