
當(dāng)我們談?wù)摯髷?shù)據(jù)的時(shí)候,我們談?wù)撌裁?/strong>
在過(guò)去的周末,一年一度的美東華人創(chuàng)業(yè)狂歡 MIT-CHIEF年會(huì)在麻省理工落下帷幕,其中的幾場(chǎng)圓桌論壇干貨滿滿。今天為大家?guī)?lái)的是大數(shù)據(jù)行業(yè)的圓桌 Big Data Panel 的內(nèi)容,其嘉賓囊括了大數(shù)據(jù)幾個(gè)實(shí)際運(yùn)用領(lǐng)域的從業(yè)者和專家。以下為本場(chǎng)圓桌內(nèi)容摘錄整理,有刪節(jié)。
問(wèn)題一:在各自的大數(shù)據(jù)運(yùn)用領(lǐng)域,我們現(xiàn)在看到的數(shù)據(jù)究竟有哪些?
出門(mén)問(wèn)問(wèn)李媛媛:對(duì)于創(chuàng)業(yè)公司,因?yàn)槠涑鮿?chuàng)的性質(zhì),在數(shù)據(jù)采集的渠道上有其天生的短板。因此從數(shù)據(jù)的種類而言,我們只從一個(gè)垂直領(lǐng)域切入:地圖 POI,而且目前只聚焦普通話語(yǔ)音數(shù)據(jù)。對(duì)于數(shù)據(jù)獲取的渠道而言,我們?cè)诮衲晖瞥隽艘豢羁纱┐魇接布?Ticwatch,提供了數(shù)據(jù)的入口。除了數(shù)據(jù)獲取上的挑戰(zhàn),由于大量用戶的私人數(shù)據(jù)將會(huì)被收集,從我們開(kāi)始收集分析數(shù)據(jù)伊始,就注重?cái)?shù)據(jù)隱私的基礎(chǔ)建設(shè):于前端,我們會(huì)與用戶積極溝通并指出我們所收據(jù)的數(shù)據(jù)種類;于后端,我們致力于提供最完善的數(shù)據(jù)加密保護(hù)。
Procyon Ventures Drew Volpe:在企業(yè)級(jí)運(yùn)用時(shí),我們看到的不單單是數(shù)據(jù)的初始種類,而更多的是加上其它層級(jí)數(shù)據(jù)之后的意義和運(yùn)用。比如我之前創(chuàng)立的公司,同樣也是運(yùn)用傳感器與可穿戴設(shè)備收集用戶的車行數(shù)據(jù),但是我們通過(guò)算法分析之后可以推斷出用戶的駕駛能力和安全指數(shù),從而為保險(xiǎn)公司提供了計(jì)算保金的基礎(chǔ)。這也同時(shí)回到剛才提到的數(shù)據(jù)保密問(wèn)題,我認(rèn)為現(xiàn)在大數(shù)據(jù)面臨的挑戰(zhàn)之一就是建立一個(gè)有效的數(shù)據(jù)保密評(píng)定系統(tǒng)和基礎(chǔ)設(shè)施。因?yàn)楝F(xiàn)在越來(lái)越多的工具可以將表面看上去簡(jiǎn)單或者非敏感數(shù)據(jù)在一定得分析之后推導(dǎo)出隱私數(shù)據(jù),比如地圖數(shù)據(jù),表面看上去無(wú)害,但是當(dāng)我追蹤了你過(guò)去三年每天的出行記錄之后,我可以輕松得知道你的家庭、公司住址,消費(fèi)習(xí)慣,甚至是去醫(yī)院的次數(shù)等,因此我認(rèn)為大數(shù)據(jù)從業(yè)人員有義務(wù)和責(zé)任捍衛(wèi)好海量數(shù)據(jù)的私密性和安全性。
問(wèn)題二:在獲取數(shù)據(jù)方面有哪些挑戰(zhàn)?
波士頓市政府 Kelly Jin:在波士頓,我們看到的數(shù)據(jù)種類主要基于市民與政府各部門(mén)的 “觸點(diǎn)”:比如你的交通罰單、稅單、出入政府機(jī)關(guān)部門(mén)的人流數(shù)據(jù)、公立學(xué)校的各種紀(jì)錄等;大數(shù)據(jù)在公共領(lǐng)域運(yùn)用的很大難題,特別對(duì)于政府機(jī)關(guān)內(nèi)部的數(shù)據(jù)團(tuán)隊(duì)而言,為數(shù)據(jù)的質(zhì)量和采集。這個(gè)問(wèn)題首先來(lái)自于政府部門(mén)的自身的傳統(tǒng)運(yùn)行模式,許多部門(mén)仍然采用非電子化文檔管理,或者并不擅于建立電子檔案,于是作為政府內(nèi)部的數(shù)據(jù)科學(xué)家,我們做的首要工作是引導(dǎo),并轉(zhuǎn)化這些傳統(tǒng)紙質(zhì)數(shù)據(jù)變?yōu)殡娮訉?shí)時(shí)數(shù)據(jù),并在分析前進(jìn)行大量的清理和管理。同時(shí)政府內(nèi)部的數(shù)據(jù)雖然有十分巨大的潛力,但分析能力仍然有限,所以我也鼓勵(lì)創(chuàng)業(yè)團(tuán)隊(duì)與我們合作,共同研究開(kāi)發(fā)公共數(shù)據(jù)的實(shí)際運(yùn)用。
億可能源寧可 & Target 50 Matt Conway:我們看到的更多的是間歇數(shù)據(jù)(interval data),我們依賴不同的傳感器和智能電表為我們提供 5-15 分鐘間隔的能耗數(shù)據(jù)。如此海量的數(shù)據(jù),由于不同的電表/傳感器公司的生產(chǎn)標(biāo)準(zhǔn)不同, 儲(chǔ)存數(shù)據(jù)的格式也大相徑庭,于是我們?cè)诜治鰯?shù)據(jù)時(shí)往往不能采用標(biāo)準(zhǔn)化的算法進(jìn)行數(shù)據(jù)處理。更糟糕的情況是,當(dāng)我們和電力公司合作時(shí),由于現(xiàn)在市場(chǎng)上公司間并購(gòu)非常活躍,當(dāng)兩個(gè)電力公司合并后,數(shù)據(jù)往往無(wú)法調(diào)和,于是出現(xiàn)相當(dāng)大的錯(cuò)漏問(wèn)題。在能源領(lǐng)域,數(shù)據(jù)私密性也同樣是一個(gè)大難題,很多不相關(guān)的數(shù)據(jù)往往可以推導(dǎo)出一些企業(yè)并不想披露的信息。比如我們?cè)?jīng)為一個(gè)大型審計(jì)集團(tuán)的辦公樓宇進(jìn)行能耗分析,但是他們卻不愿披露相關(guān)信息接口,原因是一旦我們拿到相關(guān)每 5 分鐘的照明數(shù)據(jù),我們可以清楚得看到公司不同部門(mén)在稅務(wù)忙季的加班情況和與去年的對(duì)比,以此推斷企業(yè)的業(yè)績(jī)等。
問(wèn)題三:如何具體在大數(shù)據(jù)中挖掘商業(yè)價(jià)值,并分享一些你們現(xiàn)在正在運(yùn)用的比較創(chuàng)新的開(kāi)發(fā)模式
波士頓市政府 Kelly Jin:我們現(xiàn)在看到政府內(nèi)部大數(shù)據(jù)運(yùn)用最大的價(jià)值來(lái)自于對(duì)效率的大幅提升。舉最近的一個(gè)例子,稅收部門(mén)每年需要重點(diǎn)抽查和核定一定房屋和社區(qū)的房產(chǎn)稅?,F(xiàn)在的做法是,審計(jì)部門(mén)翻閱大量的報(bào)告,比如該家庭是否今年買了新房,是否翻修超過(guò)一定金額等,然后篩查出終點(diǎn)家庭,再進(jìn)行核查和重新評(píng)定。作為政府內(nèi)部的數(shù)據(jù)服務(wù)部門(mén),我們將這些傳統(tǒng)的篩查標(biāo)準(zhǔn)轉(zhuǎn)化為運(yùn)算法則,將整個(gè)人工密集的預(yù)篩工作從原來(lái)的 2 星期,10 人工作量,縮減到 7 分鐘的自動(dòng)操作,大大釋放了政府職能部門(mén)的效率,讓他們可以專注于真正應(yīng)該專注的工作領(lǐng)域。
Procyon Ventures Drew Volpe:我想要分享的是一個(gè)系統(tǒng)方法論。我覺(jué)得真正挖掘出價(jià)值的大數(shù)據(jù)企業(yè)都是從問(wèn)題出發(fā),而非數(shù)據(jù)本身出發(fā)。
第一步,判定你要解決或者是你針對(duì)客戶需要解決的問(wèn)題。在剛才的政府例子中,我們看到這個(gè)問(wèn)題很明顯,就是解決政府效率的問(wèn)題,讓一些重復(fù)的工作自動(dòng)化。
第二步,觀察你手上握有的數(shù)據(jù),是否足夠解決你定義的問(wèn)題。如果不夠,是否可以運(yùn)用已有數(shù)據(jù)直接推導(dǎo),如果不行,定義你額外需要的數(shù)據(jù)種類。
第三步,定義了額外需要的種類之后,才是確定如何采集這些現(xiàn)在并沒(méi)有的數(shù)據(jù), 如果采集不到,是否有其它的方式可以獲得。
問(wèn)題四:大數(shù)據(jù)類型的初創(chuàng)企業(yè)往往有一個(gè)”Cold Start” 問(wèn)題,即,用戶數(shù)量太小導(dǎo)致數(shù)據(jù)不夠,而用戶數(shù)據(jù)越是不夠越是無(wú)法優(yōu)化機(jī)器學(xué)習(xí)和算法,這個(gè)問(wèn)題如何解決?
Procyon Ventures Drew Volpe:
我從自身創(chuàng)業(yè)經(jīng)歷說(shuō)一下好了,我之前創(chuàng)立的公司 locately 是一家基于位置數(shù)據(jù)的大數(shù)據(jù)信息服務(wù)公司。創(chuàng)業(yè)的一開(kāi)始其實(shí)就是 bootstrap,有點(diǎn)草船借箭的意思。我們最開(kāi)始的數(shù)據(jù)都是人為手工輸入的,基于 20 個(gè)種子用戶的全天 24 小時(shí)原始位置數(shù)據(jù)。明顯這樣做并不能規(guī)?;?,但是卻可以讓你至少有一個(gè)起點(diǎn),然后我們用這些數(shù)據(jù)和算法向潛在客戶和投資人證明我們可以在這個(gè)基礎(chǔ)上挖掘的商業(yè)價(jià)值和產(chǎn)品功能,然后我們開(kāi)始積累更多的種子用戶,做更多的示范項(xiàng)目,以此獲得更多數(shù)據(jù)。的確一開(kāi)始我們的機(jī)器學(xué)習(xí)模型比較簡(jiǎn)單,但是隨著數(shù)據(jù)量的增加,我們更好得迭代了算法。我覺(jué)得重點(diǎn)還是要放在如何展現(xiàn)你可以挖掘的價(jià)值,而非你的模型有多么多么完美。另外比較常見(jiàn)的方法就是爬蟲(chóng),當(dāng)你定義完你需要的數(shù)據(jù)之后,看看有哪些是可以通過(guò)爬網(wǎng)獲取的,如果再不行,就看看哪些可以通過(guò)第三方數(shù)據(jù)訂購(gòu)獲得??傆幸恍┓椒梢宰屇銖?0 跑起來(lái)。
問(wèn)題五:大數(shù)據(jù)未來(lái)的趨勢(shì)是什么?今后的熱門(mén)應(yīng)用領(lǐng)域有哪些?
Procyon Ventures Drew Volpe:
我覺(jué)得大數(shù)據(jù)的運(yùn)用前景因?yàn)橛布瘋鞲衅鞯某杀敬蠓档投会尫帕烁嗟臐摿??;仡欉^(guò)去十年,我們看到物聯(lián)網(wǎng)傳感器的成本以百倍速度降低,大大降低了原來(lái)因?yàn)橛布杀具^(guò)高,而造成數(shù)據(jù)獲取過(guò)高而無(wú)法進(jìn)入的領(lǐng)域。除了我們現(xiàn)在看到的消費(fèi)者數(shù)據(jù)和信息,我認(rèn)為以后的大數(shù)據(jù)趨勢(shì)將會(huì)集中在” 工業(yè) 4.0” – 特別是物流、基建和能源三塊。在美國(guó),物流代表了 GDP 的 9%,這是一個(gè)超百億美元的量級(jí);在中國(guó),物流占 GDP 的近 1/5。以我最近投資的一個(gè)公司 WEFT 為例子,這是一家做船運(yùn)物流的大數(shù)據(jù)服務(wù)提供商。以往,每件商品植入 GPS 追蹤系統(tǒng)是非常高昂的,但是現(xiàn)在我們可以通過(guò)成本低廉的傳感器用來(lái)捕捉實(shí)時(shí)運(yùn)輸數(shù)據(jù),并綜合大量外部數(shù)據(jù),通過(guò)深度學(xué)習(xí)技術(shù)給予最精準(zhǔn)的貨品物流時(shí)間和可能的風(fēng)險(xiǎn)預(yù)判。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10