
大數(shù)據(jù)背后的價(jià)值和隱憂_數(shù)據(jù)分析師考試
有人曾調(diào)侃,人活幾十年,用一張表格竟然就能概括。這話雖然不完全中肯,但也道出了信息數(shù)據(jù)的奧秘。最近在2015年夏季世界O2O 博覽會上,騰訊宣布QQ錢包下一步要將服務(wù)延伸至線下支付場景,如洗衣、洗車、美甲等。而這一招棋,騰訊其實(shí)要挖掘的正是消費(fèi)者每一筆支付背后的數(shù)據(jù)信息價(jià)值?;ヂ?lián)網(wǎng)的飛速發(fā)展,加速了各類數(shù)據(jù)、信息的匯集融合,大數(shù)據(jù)時(shí)代撲面而來。刷臉記考勤、數(shù)據(jù)找商機(jī)、數(shù)據(jù)保健康……這些變革如今都已現(xiàn)端倪。但同時(shí),大數(shù)據(jù)時(shí)代也給個(gè)人信息保護(hù)帶來了莫大挑戰(zhàn)。
大數(shù)據(jù)構(gòu)建的未來
你的一天可能是這樣子
在強(qiáng)大數(shù)據(jù)的構(gòu)建下,你未來的一天可能是這樣子:早晨7點(diǎn),你被身下的智能床溫柔叫醒,“主人主人起床啦”;如果還想賴床,它可能會動粗,左右搖晃或者上下顛簸,直到你揉著惺忪睡眼離開臥室。洗漱完畢之后,你的某一樣穿戴設(shè)備,比如手表、項(xiàng)鏈、眼鏡等,會將昨晚記錄的睡眠、心跳、血壓等數(shù)據(jù)報(bào)告給你,并給出科學(xué)的早餐建議。接下來該準(zhǔn)備上班了,今天周一,下雨,早上8點(diǎn)路況怎么樣?問問手機(jī)APP就知道了,包括接下來幾小時(shí)方圓2公里內(nèi)的天氣、中午吃什么營養(yǎng)又美味,你都可以咨詢它。下班回家路上,順便逛逛超市,最近皮膚干燥該用什么洗浴用品呢?只要在機(jī)器上輸入會員號,設(shè)備便會根據(jù)你所在城市的氣候、會員年齡性別消費(fèi)歷史等信息,給出合理的商品類型和導(dǎo)購位置,下單支付,就有專人配送到家……
是不是很神奇?而這還僅僅是個(gè)人生活中的一個(gè)小碎片,可以想見,在醫(yī)療、交通、科技、社會治安、政府管理等各行各業(yè),數(shù)據(jù)都將發(fā)揮出神奇的點(diǎn)化功能。
如醫(yī)生可以通過參考平臺數(shù)據(jù)庫,調(diào)取相似基因、年齡、人種、身體狀況相同的有效治療方案,快速制定出適合病人的治療方案;科學(xué)家將數(shù)據(jù)技術(shù)應(yīng)用于基因分析上,讓父母對未出生寶寶的健康狀況了如指掌,幫助人類預(yù)測和戰(zhàn)勝未來疾病等;政府機(jī)構(gòu)甚至能夠利用數(shù)據(jù)來更準(zhǔn)確地了解各地經(jīng)濟(jì)發(fā)展?fàn)顩r,實(shí)現(xiàn)科學(xué)決策、數(shù)據(jù)治國。
“水這個(gè)東西大家都見過。當(dāng)你有一杯水的時(shí)候,你可以喝它。當(dāng)你有一盆水的時(shí)候,你可以用它洗臉。當(dāng)你有一浴缸水的時(shí)候,你可以用它泡澡。當(dāng)你有一游泳池水的時(shí)候,你可以用它游泳。當(dāng)你有一西湖水的時(shí)候,你可以用它劃船泡妹子。當(dāng)你有一運(yùn)河水的時(shí)候,你可以用它運(yùn)糧食。當(dāng)你有一長江水的時(shí)候,你可以來往于中國的西部和東部。當(dāng)你有一大西洋水的時(shí)候,你就可以發(fā)現(xiàn)新大陸了!”
明道副總裁許維曾用水來比喻數(shù)據(jù)能夠帶來的效應(yīng),這段評論亦得到了廣泛認(rèn)同。輿論公認(rèn),隨著互聯(lián)網(wǎng)云時(shí)代的到來,數(shù)據(jù)將更深入地浸透生活的方方面面,數(shù)據(jù)之上的生活必將更加私人、個(gè)性、智能。
考勤刷個(gè)臉就可以搞定
今年三月,馬云在德國的一場“刷臉支付”秀讓人臉識別著實(shí)火熱了一把,不過,一些業(yè)內(nèi)人士告訴記者,其實(shí)“看臉的時(shí)代”早就來了。而這背后所依托的正是神奇的數(shù)據(jù)采集與建模。
在蘇州某家專門從事生物智能分析與識別技術(shù)研發(fā)生產(chǎn)的企業(yè)門口,右側(cè)約1米高的位置,安裝著一臺黑色機(jī)器,運(yùn)營總監(jiān)湯嘯峰走到離機(jī)器約50厘米的地方站定,微微俯下上身,讓臉龐出現(xiàn)在機(jī)器平面正中3.5英寸的顯示屏上,很快屏幕上就亮起綠燈,并跳出幾個(gè)字“識別結(jié)束”,與此同時(shí),可以聽到噠的一聲輕響,門鎖已經(jīng)打開。整個(gè)過程前后不到一秒。
湯嘯峰所演示的就是一臺智能三維人臉識別門禁考勤機(jī)。每天早晨和下午,他所在公司的員工都要向這臺機(jī)器“報(bào)到”。在這里,刷臉早就取代了一般的打卡簽到。
“當(dāng)員工選擇人臉識別進(jìn)入大門的方式時(shí),站在人臉識別門禁終端機(jī)前,采集盒開始對人的臉部及特定骨骼曲率差進(jìn)行臉部特征數(shù)據(jù)采集,采集成功則建模完畢。下次同一員工站在識別儀前時(shí),系統(tǒng)就會自動核實(shí)當(dāng)前人臉特征是否存在數(shù)據(jù)庫中。若存在,則識別成功,觸發(fā)現(xiàn)場控制器,門將自動打開。若有陌生人強(qiáng)行進(jìn)入裝有人臉識別門禁系統(tǒng)的大門時(shí),現(xiàn)場控制器可觸發(fā)人臉識別安防系統(tǒng)自動報(bào)警?!?/span>
湯嘯峰介紹,因?yàn)楫a(chǎn)品采集的是人臉和骨骼輪廓的主要參數(shù),形成三維立體模型,不受膚色、性別影響,一般的面部表情、發(fā)型、胡須、化妝等變化也不會影響識別精度,除非是削骨;相反,這套系統(tǒng)具有智能自學(xué)功能,能隨著發(fā)型、膚色、年齡等變化動態(tài)更新人臉數(shù)據(jù)庫存,保證數(shù)據(jù)庫的模板始終為用戶最近信息資料。
“一般人在成年前后臉部骨骼可能會逐步發(fā)生變化,這時(shí)儀器在捕捉你的臉部特征,比對認(rèn)證為同一個(gè)人后更新為新的模板,這樣數(shù)據(jù)庫就會一點(diǎn)點(diǎn)地進(jìn)行微調(diào)。另外,如果你刷臉的次數(shù)越多,系統(tǒng)就會對你越熟悉,識別的速度也就越快”。當(dāng)然,拿著照片或視頻等二維圖像企圖蒙混過關(guān),也是會被系統(tǒng)拒之門外的。
據(jù)了解,這套系統(tǒng)采用近紅外線雙攝像頭捕獲人臉,應(yīng)用最新的“Face Image+V4.0”人臉識別算法,用戶容量最高達(dá)到5000人,記錄容量25萬條,驗(yàn)證速度小于1秒,其價(jià)格也相對較高,約在4000多元。
在湯看來,輿論熱烈關(guān)注的掃臉支付僅僅是小試牛刀,人臉識別技術(shù)真正的應(yīng)用范圍非常之廣,諸如公安刑偵、門禁考勤、網(wǎng)絡(luò)應(yīng)用都在其中。僅就該公司而言,除這套門禁考勤系統(tǒng)外,公司研發(fā)的“人臉”系列還包括有人臉二代身份證識別認(rèn)證系統(tǒng)、智能樓宇人臉識別對講系統(tǒng)、學(xué)生人臉識別宿管系統(tǒng)等等。而不管哪個(gè)系統(tǒng),其核心原理都是一致的,那就是數(shù)據(jù)采集、建模與分析比對。
大數(shù)據(jù)的背后
創(chuàng)業(yè)商機(jī)就看你能否抓住
對于在互聯(lián)網(wǎng)電商平臺摸爬滾打的大小店主來說,數(shù)據(jù)是他們窺探商機(jī)、賺取利益的基本法寶。
余洛,是吳江一家廣告設(shè)計(jì)公司的員工,年收入約八九萬。去年,在朋友的攛掇下,在阿里旗下的速賣通平臺開了一家網(wǎng)店,小生意做得紅紅火火,每個(gè)月都有三四千的收益?!八儋u通是專門面向海外客戶的,全英文界面。”余洛告訴記者,“我做的主要是‘倒’活,客戶下了單,我再去淘寶上訂貨、發(fā)貨,賺個(gè)差價(jià),所以基本無虧損?!?/span>
每天空余時(shí)看看網(wǎng)店,下下單發(fā)發(fā)貨,一個(gè)月還穩(wěn)賺三四千,這樣的好事誰都想摻乎。當(dāng)記者詢問余洛的商機(jī)訣竅時(shí),他顯得很大方,“其實(shí),只要多關(guān)注下平臺提供的數(shù)據(jù),自己好好分析下,就能有收獲?!?/span>
談起他如何發(fā)現(xiàn)商機(jī)創(chuàng)業(yè),余洛打開了話匣子?!霸S多電商平臺都有搜索關(guān)鍵詞,關(guān)鍵詞后面的搜索數(shù)據(jù)可以關(guān)注下?!庇嗦逭f。在速賣通平臺上,只要輸入關(guān)鍵詞,就會出現(xiàn)一系列的數(shù)據(jù),店家可以檢測有意愿售賣的產(chǎn)品搜索率是否高,產(chǎn)品銷售競爭是否激烈,市場空間是否還存在。甚至是某種產(chǎn)品的某個(gè)款式,用關(guān)鍵詞搜索也能獲得相關(guān)數(shù)據(jù)信息,從而判斷流行趨勢。
而這只是入門級別的商機(jī)判斷,平臺后臺提供的各類商機(jī)數(shù)據(jù)更詳盡。利用余洛的賬號,記者在其指導(dǎo)下打開了速賣通后臺。在“數(shù)據(jù)縱橫”下,后臺提供了“商機(jī)發(fā)現(xiàn)”的數(shù)據(jù)。據(jù)余洛介紹,只要店家選擇搜索某個(gè)行業(yè),該行業(yè)的訪客數(shù)量、瀏覽量、成交額、成交訂單等占比以及供需指數(shù)立馬會有圖表伴隨著趨勢圖清晰顯示。而該行業(yè)的客戶群體主要來自哪些國家,后臺也會給予圖表分析以供參考?!跋冉Y(jié)合自己情況選擇行業(yè),然后再利用平臺提供的數(shù)據(jù)精細(xì)選品類。”余洛說。
記者發(fā)現(xiàn),對于某個(gè)行業(yè)中的大小品類,后臺也給予了充足精細(xì)的數(shù)據(jù)。拿家居用品行業(yè)為例,不論是棉的、天鵝絨的、絲綢的,還是枕頭、靠墊或四件套。平臺數(shù)據(jù)都清晰地用圓圈大小及不同的顏色,顯示該品類的銷售量大小以及競爭激烈程度?!斑x擇哪個(gè)品類,往往都要在銷售熱度和競爭激烈度中取一個(gè)平衡。”余洛說。“有時(shí)候平臺還會發(fā)布些其他數(shù)據(jù)供參考,比如哪個(gè)國家的注冊人數(shù)上升迅猛,比如夏天到了,某些產(chǎn)品的需求量上升等。”
“其實(shí),網(wǎng)店看著很光鮮,但那么多賣家,能真正賺錢的有幾個(gè)?要想店鋪保證不虧還能賺錢,需要用好后臺幫你統(tǒng)計(jì)好的相關(guān)數(shù)據(jù),查缺補(bǔ)漏,好好經(jīng)營店鋪?!庇嗦逭f。他指向了后臺的“經(jīng)營分析”一項(xiàng)。據(jù)介紹,該模塊的數(shù)據(jù)分為“實(shí)時(shí)風(fēng)暴”、“商鋪概況”、“商鋪流量來源”、“商鋪裝修”及“商品分析”五大類。記者既能從數(shù)據(jù)中發(fā)現(xiàn)每天店鋪的訪客數(shù)、瀏覽量、店鋪排名等,還可以精確鎖定商鋪流量的來源,是直接訪問、站內(nèi)搜索、收藏夾還是直通車等廣告。
“‘商品分析’是最重要的?!庇嗦灞硎?。記者驚奇發(fā)現(xiàn),在該項(xiàng)數(shù)據(jù)下,該店鋪內(nèi)的每一件產(chǎn)品都有專屬的數(shù)據(jù)分析。搜索曝光量多少、瀏覽量多少、訪客數(shù)多少、支付訂單數(shù)多少、成交轉(zhuǎn)化率多少以及流量的來源都有數(shù)據(jù)及圖表顯示?!耙粋€(gè)商品賣的不好,是在哪個(gè)環(huán)節(jié)出了問題,這些數(shù)據(jù)都能告訴你。是商品搜索圖片不夠醒目還是內(nèi)部信息完善度不夠,哪些方面需要改進(jìn),通過數(shù)據(jù)也許就能看出端倪?!庇嗦逭f。
警惕大數(shù)據(jù)泄露
個(gè)人隱私保護(hù)更要注意
互聯(lián)網(wǎng)時(shí)代下,數(shù)據(jù)信息爆炸式地膨脹,每個(gè)人都能享受數(shù)據(jù)富足帶來的紅利。可是,在歆享數(shù)據(jù)帶來利益的同時(shí),每一個(gè)體的信息也無疑被曝露。
晨玉是一位新媽媽,剛出院沒幾天,正在娘家坐月子??墒沁@些天接連收到短信電話,不是問她寶寶是否要拍滿月照,就是邀請她來體驗(yàn)寶寶游泳與撫觸?!斑B我叫什么名字,寶寶什么時(shí)候哪家醫(yī)院出生的,出生時(shí)幾斤幾兩都清清楚楚?!背坑裼悬c(diǎn)無奈。而這樣由于信息泄露造成的困擾,相信絕大多數(shù)的人都碰到過。如今的詐騙越來越難防范,也與個(gè)人信息的泄露相關(guān)。一個(gè)詐騙電話,往往那頭能準(zhǔn)確叫出你的名字,說出你的信息以及現(xiàn)階段的需求,當(dāng)你頭腦一熱,放松警惕后,上鉤便不再是難事。如果說以上這些都已見怪不怪,那你是否知道,只要有人愿意搜集與分析,識別一個(gè)人只需要33個(gè)字節(jié)的信息量。
如果有專業(yè)公司搜集,那淘寶網(wǎng)就能曝露人們的購物習(xí)慣,百度、360可能會曝露人們的網(wǎng)頁瀏覽習(xí)慣,微信、陌陌、微博似乎都能窺見我們的社交關(guān)系,直指我們內(nèi)心。比如你的搜索引擎中的瀏覽記錄,就會記錄下連自己都已忘掉的過往。你曾經(jīng)在什么時(shí)間去過哪個(gè)地方,你某段時(shí)間最為關(guān)心的事情是什么,這些記錄將展露無遺。即使是不涉及內(nèi)容的元數(shù)據(jù)也可能會辨識定位到個(gè)人。以電話元數(shù)據(jù)為例,甚至不需要監(jiān)聽到個(gè)人打電話時(shí)說的具體內(nèi)容,只需要根據(jù)談話的時(shí)機(jī)、長度、頻率與對象,就能推算出談話人之間的密切程度以及個(gè)人信息。
在互聯(lián)網(wǎng)發(fā)展迅速,不小心就會泄密的時(shí)代,我們能如何保護(hù)自己的隱私少泄露呢?據(jù)了解,目前我國針對個(gè)人信息安全保護(hù)的立法和修法進(jìn)程進(jìn)展緩慢,而在監(jiān)管層面也缺少相應(yīng)的專門監(jiān)管機(jī)構(gòu),即使有市民的個(gè)人隱私被扭曲、惡化,嚴(yán)重影響生活,實(shí)施者一方也很難受到嚴(yán)厲懲罰。
那么作為市民個(gè)人,應(yīng)該怎樣保護(hù)自己的隱私呢。專業(yè)人士提醒:個(gè)人信息被泄露、盜用與濫用,往往和個(gè)人信息保護(hù)意識不強(qiáng)有關(guān)。市民在辦理一些必須提供自己信息的事務(wù)時(shí),應(yīng)盡量與對方約定保密責(zé)任。而在網(wǎng)絡(luò)上,個(gè)人更是不應(yīng)該隨意輸入自己的關(guān)鍵信息,注意保護(hù)和刪除。一旦發(fā)現(xiàn)自己的隱私泄露造成不良后果時(shí),應(yīng)當(dāng)積極維權(quán),作出反擊。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11