
12.12中關(guān)村大數(shù)據(jù)日暨CDA數(shù)據(jù)數(shù)據(jù)分析人才培養(yǎng)分論壇演講嘉賓——SenzC創(chuàng)始人 馮小平
演講實(shí)錄如下:
大家好,各位領(lǐng)導(dǎo)、各位專家數(shù)據(jù)分析師們下午好。
這是我個人的簡歷,我叫馮小平,之前做信息安全,做一些工程、搜索,后來去了一家NGO,也是做技術(shù),現(xiàn)在我們做的產(chǎn)品叫做情境感知技術(shù),在國內(nèi)是第一家,在國際上也差不多是兩三年,即使在硅谷也是。
我請問大家有沒有看過這個美劇,中文叫《疑犯追蹤》,強(qiáng)烈推薦,不光是它評分特別高,它講的就是大數(shù)據(jù)時(shí)代的社會的情況。我喜歡它的幾點(diǎn),我認(rèn)為它真的是現(xiàn)實(shí)板的Matrix,我覺得這是非?,F(xiàn)實(shí),甚至有可能在當(dāng)下發(fā)生的大數(shù)據(jù)故事。大家都說有些集表現(xiàn)上來說已經(jīng)在日常生活中發(fā)生了,有人成立了POI教。它基本的故事是有一個AI通過收集大量的數(shù)據(jù)來控制整個社會發(fā)展,比如誰競選、社會往哪邊發(fā)展的故事。
里面有一句話講,對于AI來說,人類社會最大的一個弱點(diǎn)就是人跟人之間的關(guān)系。這個趨勢不可避免,大家想不到,我們先把自己煉化下來,看我能分析出什么,這是我當(dāng)時(shí)的一個很小的想法,之后我創(chuàng)業(yè)的時(shí)候也是它的本源和初心就是這樣。
剛才曹老師說Hadoop是這個數(shù)據(jù)的關(guān)鍵,我認(rèn)為這都是工程師造出一堆堆的工具,反而不是數(shù)據(jù)分析師應(yīng)該掌握的核心技能,數(shù)據(jù)分析師應(yīng)該是用工具幫助你越來越高層地訪問到這些數(shù)據(jù)、操作這些數(shù)據(jù),不用管底層數(shù)據(jù)怎么存儲、怎么擴(kuò)展,所以你以后拿到的數(shù)據(jù)會越來越高層,你不知道從哪拿到,你輸入一句話就可以拿到這樣的數(shù)據(jù)了,我覺得數(shù)據(jù)分析師應(yīng)該更多地了解工業(yè)界對數(shù)據(jù)分析的需求,就像剛才說造面包,數(shù)據(jù)分析師需要知道人類需要造什么,這些人需要買什么,除了面包之外,是不是我還要買起司、蛋撻之類的。我第一個方向的就是多玩Gadget,大家看到京東智能的一些小玩意,我覺得這是數(shù)據(jù)分析師的玩具。
這是我平時(shí)會隨身攜帶收集數(shù)據(jù)用的東西,包括Kinect大家都很熟悉,Kinect windows你可以用的系統(tǒng),包括iBeacon都是寫幾個代碼就可以拿到數(shù)據(jù);EyeX是一個民用級別的眼動移,這兩個MotoX是我平時(shí)都會帶的,錄音記錄,還有Nexus7是每天帶在包里,你可以搜周圍的信息。
Kinect for windows
比如說Kinect windows,這個是我擺在客廳、辦公室里說這里什么時(shí)候有一個人在這邊,這個東西持續(xù)記下來了,我們現(xiàn)在還不知道能分析什么,一旦有一天我們的算法更牛了,就可以算出來東西了。但是如果算法牛了,你沒有這些數(shù)據(jù)就完了。
iBeacon
這是iBeacon,這個東西造價(jià)很便宜,如果你想知道你跟哪個東西距離多遠(yuǎn),你就可以把這個貼到那個里面,你的手機(jī)如果接近這個東西,你就可以持續(xù)知道我離它1米、我離它3米,它是可以記錄很多數(shù)據(jù),比如你跟你的書包一天接觸多久,當(dāng)然你也可以做室內(nèi)定位,比如說你在這個屋子里哪個位置待了多久。
MYO
MYO是一個綁在你手臂的機(jī)器,你通過幾個代碼就可以知道每一天手臂肌肉的數(shù)據(jù)。
Mindwave
這個是一個記錄腦波的數(shù)據(jù),它可以簡單地記錄出你一天的注意力的值,當(dāng)然可能學(xué)過大腦神經(jīng)的人知道各種波對人的精神狀態(tài)是什么作用,它又做了一層,你可以知道這個人注意力多高,你有沒有眨眼,你有沒有很冷靜。這個東西可以用來干嘛呢,我們后面會講到。
NarrativeClip
這個NarrativeClip,這個是我戴在胸前的,它每隔幾秒會拍一張照片,大家可能會說會不會侵犯隱私,如果數(shù)據(jù)分析師考慮隱私的話就沒法做了。這個想象空間非常大,比如說前兩天就是一個人記錄了6個月的數(shù)據(jù)可以分析出這個人每一分鐘在干什么。當(dāng)然我戴這個也戴了一年半了,硬盤都堆了幾個硬盤的數(shù)據(jù),我也就是分析分析我每天接觸什么東西。最后我分析的結(jié)果是我一天40%的時(shí)間都在看消息,我那一天只有5%的時(shí)間視角里有人。
EyeX
EyeX這個是放在筆記本上就可以看屏幕的區(qū)域,你什么時(shí)候在看哪,基本上每秒鐘幾十赫茲。
剛才那些設(shè)備都是市面上能買到的,你從中能拿到的數(shù)據(jù),如果你自己做是基本上你要花幾年,甚至十幾年才可以做出的東西,這些Gadget給我們帶來的好處就是我們可以站在它的肩膀上拿到很高級的數(shù)據(jù),做深度的數(shù)據(jù)。
另外分享多去hackathon,我認(rèn)為hackathon是一個線下同性交友社區(qū),當(dāng)然不一定同性。在hackathon一般大家花兩天周末的時(shí)間一塊去琢磨出一個小點(diǎn)子,然后把這個點(diǎn)子用兩天的時(shí)間,有程序員,有設(shè)計(jì)師,能夠?qū)崿F(xiàn)出來,并且給大家展示出來。
比如說之前我們參加hackathon的時(shí)候,像MYO可以檢測電流,后面紫色的燈也是可以通過API訪問的,我們通過擺手的動作改變燈的顏色,我邊擺手邊聽歌這個燈就可以變顏色,這個就是hackathon做的東西。
另外一個hackathon就是我們做了一個人到哪個屏幕旁邊,內(nèi)容就顯示在那個屏幕旁邊的一個簡單的模式。我錄了我寫代碼時(shí)候的腦波的情況,我注意力的值,我可以拿我注意力的值來評估我不同區(qū)域代碼出BUG的幾率,概率低的我就可以過去,高概率的地方我就仔細(xì)檢查一下。
第三個分享就是多用API。
Mashup這個概念很早就提出來了,大家認(rèn)為以后各種的技術(shù)都是堆占型的,大家都要基于別人的API做出自己的產(chǎn)品,其實(shí)現(xiàn)在已經(jīng)這樣了,你創(chuàng)業(yè)服務(wù)器肯定不用自己的,都用阿里云,都不用搭自己的后端服務(wù),圖象識別有,聲音識別有迅飛,都有各種各樣的服務(wù)。當(dāng)時(shí)有一段時(shí)間很疏于技術(shù),我花三十天時(shí)間去接觸一些API,這些API都是我搜的最新的美國的創(chuàng)業(yè)項(xiàng)目他在用什么樣的API做。
比如爬蟲、圖象識別、情緒識別,像剛才說的物體的其實(shí)都有在線的獨(dú)立第三方提供API,如果你不知道這些API的話,你需要想我需要這樣一個功能來實(shí)現(xiàn)我的想法的時(shí)候,你就不知道到底應(yīng)該怎么做,難道圖象識別、人臉識別我要重新做嗎?那不可能的,去了解這些可以幫助你的API能夠提升你效率和開拓眼界。我不知道大家在這里面能看到幾個眼熟的東西。
最后一個分享就是多開腦洞。
因?yàn)橛洃?、情緒,大家現(xiàn)在越來越多地被證明是可以被機(jī)器替代的。我們就想到底人有什么可以不被機(jī)器替代的。谷歌有一個人說2020年可以實(shí)現(xiàn)人腦連入互聯(lián)網(wǎng),我覺得腦洞是人類殘留的不可解的核心價(jià)值,我歡迎大家來我們私下組織的小團(tuán)體搞了一個小節(jié)目,《說好的腦洞呢》,基于現(xiàn)在基礎(chǔ)的技術(shù),未來能夠?qū)崿F(xiàn)什么樣很好的想法。比如說發(fā)光二維碼,如果我們墓地放二維碼,就可以看到死去的這些人的情況。這些都是腦洞,但是這些腦洞本身就代表著你思維的邊界和你對現(xiàn)在技術(shù)的一些了解的體現(xiàn)。
精彩問答
我想問一下像這一類設(shè)備技術(shù)下一步會有哪些新的突破。
馮小平:這些設(shè)備肯定是越來越小型化,越來越接近人的穿戴,比如說腦波有人說拿腦波做環(huán)境的改善,比如說智能大廈會根據(jù)你身體的情況自動調(diào)節(jié)你所處的環(huán)境的溫度、光照,更往前就是這些東西足夠小型化,可以看到很多會越來越小,越來越讓你感知不到它的存在,包括各種可穿戴設(shè)備也是這個趨勢,就是不斷地把你各種維度的數(shù)據(jù)以你舒適的方式收集下來,收集下來以后,就是他們怎么賣錢的問題了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11