
當(dāng)我們談?wù)摯髷?shù)據(jù)的時候,我們談?wù)撌裁?/strong>
在過去的周末,一年一度的美東華人創(chuàng)業(yè)狂歡 MIT-CHIEF年會在麻省理工落下帷幕,其中的幾場圓桌論壇干貨滿滿。今天為大家?guī)淼氖谴髷?shù)據(jù)行業(yè)的圓桌 Big Data Panel 的內(nèi)容,其嘉賓囊括了大數(shù)據(jù)幾個實(shí)際運(yùn)用領(lǐng)域的從業(yè)者和專家。以下為本場圓桌內(nèi)容摘錄整理,有刪節(jié)。
問題一:在各自的大數(shù)據(jù)運(yùn)用領(lǐng)域,我們現(xiàn)在看到的數(shù)據(jù)究竟有哪些?
出門問問李媛媛:對于創(chuàng)業(yè)公司,因為其初創(chuàng)的性質(zhì),在數(shù)據(jù)采集的渠道上有其天生的短板。因此從數(shù)據(jù)的種類而言,我們只從一個垂直領(lǐng)域切入:地圖 POI,而且目前只聚焦普通話語音數(shù)據(jù)。對于數(shù)據(jù)獲取的渠道而言,我們在今年推出了一款可穿戴式硬件 Ticwatch,提供了數(shù)據(jù)的入口。除了數(shù)據(jù)獲取上的挑戰(zhàn),由于大量用戶的私人數(shù)據(jù)將會被收集,從我們開始收集分析數(shù)據(jù)伊始,就注重數(shù)據(jù)隱私的基礎(chǔ)建設(shè):于前端,我們會與用戶積極溝通并指出我們所收據(jù)的數(shù)據(jù)種類;于后端,我們致力于提供最完善的數(shù)據(jù)加密保護(hù)。
Procyon Ventures Drew Volpe:在企業(yè)級運(yùn)用時,我們看到的不單單是數(shù)據(jù)的初始種類,而更多的是加上其它層級數(shù)據(jù)之后的意義和運(yùn)用。比如我之前創(chuàng)立的公司,同樣也是運(yùn)用傳感器與可穿戴設(shè)備收集用戶的車行數(shù)據(jù),但是我們通過算法分析之后可以推斷出用戶的駕駛能力和安全指數(shù),從而為保險公司提供了計算保金的基礎(chǔ)。這也同時回到剛才提到的數(shù)據(jù)保密問題,我認(rèn)為現(xiàn)在大數(shù)據(jù)面臨的挑戰(zhàn)之一就是建立一個有效的數(shù)據(jù)保密評定系統(tǒng)和基礎(chǔ)設(shè)施。因為現(xiàn)在越來越多的工具可以將表面看上去簡單或者非敏感數(shù)據(jù)在一定得分析之后推導(dǎo)出隱私數(shù)據(jù),比如地圖數(shù)據(jù),表面看上去無害,但是當(dāng)我追蹤了你過去三年每天的出行記錄之后,我可以輕松得知道你的家庭、公司住址,消費(fèi)習(xí)慣,甚至是去醫(yī)院的次數(shù)等,因此我認(rèn)為大數(shù)據(jù)從業(yè)人員有義務(wù)和責(zé)任捍衛(wèi)好海量數(shù)據(jù)的私密性和安全性。
問題二:在獲取數(shù)據(jù)方面有哪些挑戰(zhàn)?
波士頓市政府 Kelly Jin:在波士頓,我們看到的數(shù)據(jù)種類主要基于市民與政府各部門的 “觸點(diǎn)”:比如你的交通罰單、稅單、出入政府機(jī)關(guān)部門的人流數(shù)據(jù)、公立學(xué)校的各種紀(jì)錄等;大數(shù)據(jù)在公共領(lǐng)域運(yùn)用的很大難題,特別對于政府機(jī)關(guān)內(nèi)部的數(shù)據(jù)團(tuán)隊而言,為數(shù)據(jù)的質(zhì)量和采集。這個問題首先來自于政府部門的自身的傳統(tǒng)運(yùn)行模式,許多部門仍然采用非電子化文檔管理,或者并不擅于建立電子檔案,于是作為政府內(nèi)部的數(shù)據(jù)科學(xué)家,我們做的首要工作是引導(dǎo),并轉(zhuǎn)化這些傳統(tǒng)紙質(zhì)數(shù)據(jù)變?yōu)殡娮訉?shí)時數(shù)據(jù),并在分析前進(jìn)行大量的清理和管理。同時政府內(nèi)部的數(shù)據(jù)雖然有十分巨大的潛力,但分析能力仍然有限,所以我也鼓勵創(chuàng)業(yè)團(tuán)隊與我們合作,共同研究開發(fā)公共數(shù)據(jù)的實(shí)際運(yùn)用。
億可能源寧可 & Target 50 Matt Conway:我們看到的更多的是間歇數(shù)據(jù)(interval data),我們依賴不同的傳感器和智能電表為我們提供 5-15 分鐘間隔的能耗數(shù)據(jù)。如此海量的數(shù)據(jù),由于不同的電表/傳感器公司的生產(chǎn)標(biāo)準(zhǔn)不同, 儲存數(shù)據(jù)的格式也大相徑庭,于是我們在分析數(shù)據(jù)時往往不能采用標(biāo)準(zhǔn)化的算法進(jìn)行數(shù)據(jù)處理。更糟糕的情況是,當(dāng)我們和電力公司合作時,由于現(xiàn)在市場上公司間并購非?;钴S,當(dāng)兩個電力公司合并后,數(shù)據(jù)往往無法調(diào)和,于是出現(xiàn)相當(dāng)大的錯漏問題。在能源領(lǐng)域,數(shù)據(jù)私密性也同樣是一個大難題,很多不相關(guān)的數(shù)據(jù)往往可以推導(dǎo)出一些企業(yè)并不想披露的信息。比如我們曾經(jīng)為一個大型審計集團(tuán)的辦公樓宇進(jìn)行能耗分析,但是他們卻不愿披露相關(guān)信息接口,原因是一旦我們拿到相關(guān)每 5 分鐘的照明數(shù)據(jù),我們可以清楚得看到公司不同部門在稅務(wù)忙季的加班情況和與去年的對比,以此推斷企業(yè)的業(yè)績等。
問題三:如何具體在大數(shù)據(jù)中挖掘商業(yè)價值,并分享一些你們現(xiàn)在正在運(yùn)用的比較創(chuàng)新的開發(fā)模式
波士頓市政府 Kelly Jin:我們現(xiàn)在看到政府內(nèi)部大數(shù)據(jù)運(yùn)用最大的價值來自于對效率的大幅提升。舉最近的一個例子,稅收部門每年需要重點(diǎn)抽查和核定一定房屋和社區(qū)的房產(chǎn)稅?,F(xiàn)在的做法是,審計部門翻閱大量的報告,比如該家庭是否今年買了新房,是否翻修超過一定金額等,然后篩查出終點(diǎn)家庭,再進(jìn)行核查和重新評定。作為政府內(nèi)部的數(shù)據(jù)服務(wù)部門,我們將這些傳統(tǒng)的篩查標(biāo)準(zhǔn)轉(zhuǎn)化為運(yùn)算法則,將整個人工密集的預(yù)篩工作從原來的 2 星期,10 人工作量,縮減到 7 分鐘的自動操作,大大釋放了政府職能部門的效率,讓他們可以專注于真正應(yīng)該專注的工作領(lǐng)域。
Procyon Ventures Drew Volpe:我想要分享的是一個系統(tǒng)方法論。我覺得真正挖掘出價值的大數(shù)據(jù)企業(yè)都是從問題出發(fā),而非數(shù)據(jù)本身出發(fā)。
第一步,判定你要解決或者是你針對客戶需要解決的問題。在剛才的政府例子中,我們看到這個問題很明顯,就是解決政府效率的問題,讓一些重復(fù)的工作自動化。
第二步,觀察你手上握有的數(shù)據(jù),是否足夠解決你定義的問題。如果不夠,是否可以運(yùn)用已有數(shù)據(jù)直接推導(dǎo),如果不行,定義你額外需要的數(shù)據(jù)種類。
第三步,定義了額外需要的種類之后,才是確定如何采集這些現(xiàn)在并沒有的數(shù)據(jù), 如果采集不到,是否有其它的方式可以獲得。
問題四:大數(shù)據(jù)類型的初創(chuàng)企業(yè)往往有一個”Cold Start” 問題,即,用戶數(shù)量太小導(dǎo)致數(shù)據(jù)不夠,而用戶數(shù)據(jù)越是不夠越是無法優(yōu)化機(jī)器學(xué)習(xí)和算法,這個問題如何解決?
Procyon Ventures Drew Volpe:
我從自身創(chuàng)業(yè)經(jīng)歷說一下好了,我之前創(chuàng)立的公司 locately 是一家基于位置數(shù)據(jù)的大數(shù)據(jù)信息服務(wù)公司。創(chuàng)業(yè)的一開始其實(shí)就是 bootstrap,有點(diǎn)草船借箭的意思。我們最開始的數(shù)據(jù)都是人為手工輸入的,基于 20 個種子用戶的全天 24 小時原始位置數(shù)據(jù)。明顯這樣做并不能規(guī)模化,但是卻可以讓你至少有一個起點(diǎn),然后我們用這些數(shù)據(jù)和算法向潛在客戶和投資人證明我們可以在這個基礎(chǔ)上挖掘的商業(yè)價值和產(chǎn)品功能,然后我們開始積累更多的種子用戶,做更多的示范項目,以此獲得更多數(shù)據(jù)。的確一開始我們的機(jī)器學(xué)習(xí)模型比較簡單,但是隨著數(shù)據(jù)量的增加,我們更好得迭代了算法。我覺得重點(diǎn)還是要放在如何展現(xiàn)你可以挖掘的價值,而非你的模型有多么多么完美。另外比較常見的方法就是爬蟲,當(dāng)你定義完你需要的數(shù)據(jù)之后,看看有哪些是可以通過爬網(wǎng)獲取的,如果再不行,就看看哪些可以通過第三方數(shù)據(jù)訂購獲得??傆幸恍┓椒梢宰屇銖?0 跑起來。
問題五:大數(shù)據(jù)未來的趨勢是什么?今后的熱門應(yīng)用領(lǐng)域有哪些?
Procyon Ventures Drew Volpe:
我覺得大數(shù)據(jù)的運(yùn)用前景因為硬件/傳感器的成本大幅降低而被釋放了更多的潛力?;仡欉^去十年,我們看到物聯(lián)網(wǎng)傳感器的成本以百倍速度降低,大大降低了原來因為硬件成本過高,而造成數(shù)據(jù)獲取過高而無法進(jìn)入的領(lǐng)域。除了我們現(xiàn)在看到的消費(fèi)者數(shù)據(jù)和信息,我認(rèn)為以后的大數(shù)據(jù)趨勢將會集中在” 工業(yè) 4.0” – 特別是物流、基建和能源三塊。在美國,物流代表了 GDP 的 9%,這是一個超百億美元的量級;在中國,物流占 GDP 的近 1/5。以我最近投資的一個公司 WEFT 為例子,這是一家做船運(yùn)物流的大數(shù)據(jù)服務(wù)提供商。以往,每件商品植入 GPS 追蹤系統(tǒng)是非常高昂的,但是現(xiàn)在我們可以通過成本低廉的傳感器用來捕捉實(shí)時運(yùn)輸數(shù)據(jù),并綜合大量外部數(shù)據(jù),通過深度學(xué)習(xí)技術(shù)給予最精準(zhǔn)的貨品物流時間和可能的風(fēng)險預(yù)判。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03