
企業(yè)依靠大數(shù)據(jù)挖掘能力制勝
人類社會全面數(shù)字化引發(fā)了數(shù)據(jù)量爆炸式增長。人、資金、商品的流動都以數(shù)據(jù)化方式呈現(xiàn)。當(dāng)前,每天在全球各行各業(yè)產(chǎn)生的數(shù)據(jù)已經(jīng)足以填滿超過2億張DVD光盤——在這些看似雜亂無章的數(shù)據(jù)中,蘊(yùn)藏著無限的金礦。
近年,伴隨著存儲能力、計算能力和傳輸能力的進(jìn)步,人們開采這些金礦成為可能。數(shù)據(jù)不僅成為推動行業(yè)融合兼并、企業(yè)做大做強(qiáng)的戰(zhàn)略性資產(chǎn),更是體現(xiàn)一個國家綜合國力的重要組成部分,成為陸、海、空權(quán)益之外的另一種國家核心資產(chǎn)。
當(dāng)前,大數(shù)據(jù)時代無可爭議地來臨了。它源自全球數(shù)十年的技術(shù)積累,但僅用了最近兩三年時間,便迅速滲透到各個行業(yè)。中國并不例外,百度、阿里巴巴、新浪微博、騰訊微信等最核心的資產(chǎn)便是大數(shù)據(jù);眾多行業(yè)、企業(yè)開始使用并利用大數(shù)據(jù)作出變革;中國6億多網(wǎng)民的上網(wǎng)記錄等正成為大數(shù)據(jù)的核心內(nèi)容。
在財新記者采訪的諸多業(yè)內(nèi)人士看來,大數(shù)據(jù)來臨的勢頭甚至比十幾年前互聯(lián)網(wǎng)泡沫時期還要迅猛。大數(shù)據(jù)更加實際、更容易落地、盈利模式更清晰。由大數(shù)據(jù)推動的行業(yè)變革,將會對整個世界格局產(chǎn)生顛覆性的影響。
而對于普通公眾來說,雖處于大數(shù)據(jù)時代,但對大數(shù)據(jù)仍是陌生的。大數(shù)據(jù)在中國正在做些什么?一家企業(yè)或一個個人可以得到何種便利,又或可能遇到何種“壞處”?了解大數(shù)據(jù),是解惑的開始。
“國家核心資產(chǎn)”
2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略。奧巴馬政府將大數(shù)據(jù)定義為“未來的新石油”,并表示一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心資產(chǎn)。
美國的這一舉動,是繼1993年克林頓政府的“信息高速公路”計劃后的又一次“狂飆突進(jìn)”。在以中國為代表的新興國家日益對美國的經(jīng)濟(jì)、政治影響力構(gòu)成挑戰(zhàn)的時候,通過大數(shù)據(jù)研究提高美國對數(shù)據(jù)資產(chǎn)的掌控能力,有助于美國搶占新的國際戰(zhàn)略制高點(diǎn)。
但是什么是大數(shù)據(jù),迄今為止,在產(chǎn)業(yè)界、學(xué)術(shù)界并沒有形成一個公認(rèn)的科學(xué)定義。上海軟件產(chǎn)業(yè)促進(jìn)中心主任唐全榮接受財新記者采訪時說,他曾經(jīng)和倫敦帝國理工大學(xué)一位華裔教授討論,什么是大數(shù)據(jù)?而這位教授認(rèn)為,能夠處理的數(shù)據(jù)都不能稱為大數(shù)據(jù)。
首先提出大數(shù)據(jù)概念的國際咨詢公司麥肯錫,認(rèn)為大數(shù)據(jù)就是大小超出常規(guī)數(shù)據(jù)庫工具處理能力的數(shù)據(jù)。國際數(shù)據(jù)公司IDC則用“大體量(volume)”“多樣性(variety)”“快速處理(velocity)”和“高價值(value)”來定義大數(shù)據(jù)。
正是由于大數(shù)據(jù)的這些特性,使得傳統(tǒng)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)處理手段都不再適用。社會需要為動態(tài)、高維、復(fù)雜的大數(shù)據(jù)建立形式化、結(jié)構(gòu)化的描述方法,進(jìn)而在此基礎(chǔ)上發(fā)展大數(shù)據(jù)處理技術(shù)。
唐全榮說,跟云計算開始的時候一樣,許多人在爭論定義,而在IT基礎(chǔ)設(shè)施從帶寬到存儲能力的發(fā)展讓云計算真正走向應(yīng)用的時候,就沒有人再關(guān)心它的定義了。而大數(shù)據(jù)概念也是一樣,它也是伴隨著數(shù)據(jù)的處理、存儲和分享能力的提升而出現(xiàn)的,從這個角度上看,大數(shù)據(jù)不僅是指需要處理的數(shù)據(jù)對象,也包括了處理的技術(shù)。
如果說云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么數(shù)據(jù)才是真正有價值的資產(chǎn)。隨著人類活動和資源環(huán)境信息的數(shù)字化,更伴隨著存儲和處理能力的提升,讓我們能夠從包括文檔、圖片、視頻乃至大量來自物聯(lián)網(wǎng)的傳感數(shù)據(jù)中獲取有價值的信息。
雖然處理難度大,但是可能獲取的價值更高。在美國,利用大數(shù)據(jù)可以幫助零售商增加60%的利潤,幫助制造業(yè)減少50%的裝配成本,基于大數(shù)據(jù)的智慧醫(yī)療,產(chǎn)值高達(dá)3000億美元。
中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書長顏陽對財新記者說,現(xiàn)在的趨勢就是數(shù)據(jù)要成資產(chǎn)。而這從Facebook上市獲得的估值就可以看出來,它并沒有多少實物資產(chǎn),它上市后擁有的1000多億美元的市值,都來自無形資產(chǎn),最重要的無形資產(chǎn)就是它的數(shù)據(jù)。
從中國的BAT(百度、阿里巴巴、騰訊)三大網(wǎng)絡(luò)巨頭來說,他們各自擁有不同的大數(shù)據(jù),都是無價的資產(chǎn)。百度擁有用戶搜索數(shù)據(jù)和公共網(wǎng)頁數(shù)據(jù)。實際上百度、谷歌本身就是一個大數(shù)據(jù)公司,它們通過對全球網(wǎng)頁數(shù)據(jù)的抓取和解析,幫助用戶從海量數(shù)據(jù)中找出搜索結(jié)果,實質(zhì)就是對數(shù)據(jù)的獲取、組織、分析和挖掘的過程。
阿里巴巴擁有交易數(shù)據(jù)和信用數(shù)據(jù)。這兩種數(shù)據(jù)更容易變現(xiàn),挖掘出商業(yè)價值。騰訊擁有用戶關(guān)系數(shù)據(jù)和基于此產(chǎn)生的社交數(shù)據(jù)。這些數(shù)據(jù)可以分析人們的生活和行為,從里面挖掘出政治、社會、文化、商業(yè)、健康等領(lǐng)域的信息,甚至預(yù)測未來。
業(yè)內(nèi)人士透露,也正是看到了用戶數(shù)據(jù)的巨大價值,微博網(wǎng)站現(xiàn)在已經(jīng)拒絕網(wǎng)絡(luò)爬蟲訪問微博內(nèi)容,這就讓搜索引擎很難搜索到微博的內(nèi)容,而微博自己則把這些數(shù)據(jù)打包出售。
專門從事大數(shù)據(jù)分析的文思海輝技術(shù)有限公司首席技術(shù)官芮祥麟說,不久后,數(shù)據(jù)也將像技術(shù)、設(shè)備、人力資源那樣,成為企業(yè)重要的資產(chǎn)。與其他資產(chǎn)不同的是,大數(shù)據(jù)資產(chǎn)越是開放,越是共享,越對整個產(chǎn)業(yè)和社會民生有利。
他認(rèn)為,大數(shù)據(jù)的本質(zhì),將是把數(shù)據(jù)從應(yīng)用中解放出來,獨(dú)立形成價值鏈。今后將是數(shù)據(jù)定義應(yīng)用,定義軟件、定義網(wǎng)絡(luò)、定義數(shù)據(jù)中心、定義一切。
據(jù)IDC預(yù)測,到2020年全球?qū)⒖偣矒碛?5ZB(1ZB=1萬億GB)的數(shù)據(jù)量。麥肯錫預(yù)測,未來大數(shù)據(jù)產(chǎn)品在個人位置服務(wù)市場的應(yīng)用就將產(chǎn)生8000億美元的價值,未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達(dá)到1.57萬億元人民幣,不僅將給IT行業(yè)開拓一個新的黃金時代,更將顛覆各行各業(yè)的競爭格局。
掘金大數(shù)據(jù)
“我們就是挖礦的?!痹?月21日大連舉行的大數(shù)據(jù)技術(shù)領(lǐng)袖峰會上,金電聯(lián)行執(zhí)行副總裁艾小繽對財新記者說,他們就是通過挖掘小微企業(yè)的財務(wù)數(shù)據(jù),分析企業(yè)的信用等級,進(jìn)而幫助他們拿到貸款。
對于廣大中小企業(yè)來說,在中國缺乏信用體系的情況下,只能通過聯(lián)?;ケD玫劫J款,而這實質(zhì)上還是抵押質(zhì)押。而這對銀行來說,抵押品也并不安全。在經(jīng)濟(jì)下行的時候,一切擔(dān)保的手段都會失效。
“在國外,有一個完整的體系去抑制失信情況的發(fā)生,但是我們沒有。”艾小繽說。所以他們就想到了另外一個方法,就是讓企業(yè)證明創(chuàng)造價值的能力,而這可以作為銀行放款的必要條件。
這就用到了大數(shù)據(jù)。他們可以使用大數(shù)據(jù)技術(shù)描繪企業(yè)的賺錢能力。這些數(shù)據(jù)的來源,包括企業(yè)的采購情況、訂單情況、庫存情況,有多少應(yīng)收賬款、有多少現(xiàn)金、發(fā)了多少工資、交了多少稅,甚至能耗的情況。
“我們不相信財務(wù)報表,而是看企業(yè)生產(chǎn)經(jīng)營的真實數(shù)據(jù),不看合計數(shù),而是看明細(xì)數(shù),因為合計數(shù)往往掩蓋了真實的規(guī)律?!卑±_說。例如在報表中,企業(yè)可以通過一筆過橋貸款而實現(xiàn)當(dāng)季的贏利,但是在原始數(shù)據(jù)中,這筆突然而來的現(xiàn)金就會被發(fā)現(xiàn)。
從至少兩年的原始數(shù)據(jù)中,可以還原這個企業(yè)創(chuàng)造財富的過程,判斷企業(yè)是否有足夠的賺錢能力。2010年,民生銀行根據(jù)他們的信用報告,為一家企業(yè)發(fā)放了第一筆純信用貸款。到現(xiàn)在他們已經(jīng)幫助800多家企業(yè)拿到了40多億元的貸款,最大一筆單筆貸款為6800萬元。
艾小繽自豪地說,在這800多家企業(yè)中,還沒有出現(xiàn)一筆不良貸款。而且他們的大數(shù)據(jù)技術(shù)還可以幫助銀行對這些企業(yè)進(jìn)行貸后監(jiān)管,相當(dāng)于給企業(yè)穿上了可穿戴設(shè)備,隨時監(jiān)控企業(yè)的健康狀態(tài),企業(yè)的增長性、穩(wěn)定性、活躍度,都可以從大數(shù)據(jù)反映出來。
利用大數(shù)據(jù)為企業(yè)做體檢,是大數(shù)據(jù)應(yīng)用中比較另類的一個。而為個人做體檢,讓2011年從美國硅谷回來的糜萬軍,帶回來了第一桶金。
2000年在美國第一次創(chuàng)業(yè)時,在斯坦福剛剛完成計算機(jī)和金融學(xué)業(yè)的糜萬軍拿到了軍方的一個實時翻譯系統(tǒng)的研究項目,在完成這一項目之后,他開的第二家公司就是希望利用個人的醫(yī)療信息預(yù)測其醫(yī)療費(fèi)用,給保險公司做參考。
“這在技術(shù)上實際比第一個項目簡單多了?!彼f。利用數(shù)據(jù)挖掘技術(shù),他們把斯坦福全校員工的體檢記錄和就診記錄綜合分析,然后對所有人每年的醫(yī)療費(fèi)用進(jìn)行預(yù)測,這樣可以讓保險公司知道在誰身上掙錢,在誰身上賠錢。
但是這個項目做到后來,大的企業(yè)代替保險公司成了他們最主要的客戶。因為在美國很多大企業(yè)是自己承擔(dān)員工的醫(yī)療費(fèi)用,他們在幫助企業(yè)預(yù)測了每個員工可能的醫(yī)療支出后,再幫助企業(yè)制定員工的個性化健身計劃,提前幫助員工改善健康狀況,反而省下了醫(yī)療的開支。
這樣既幫企業(yè)省了錢,員工的工作效率也提高了,員工的幸福感也提高了。所以這項業(yè)務(wù)受到了美國許多大企業(yè)的歡迎,現(xiàn)在從斯坦福大學(xué)到思科、蘋果等大公司,都是他們的客戶。“這個項目既有經(jīng)濟(jì)效益,又有社會價值?!泵尤f軍說。
2013年8月,糜萬軍從北京來到上海,成立了經(jīng)爾緯數(shù)據(jù)技術(shù)有限公司,專注于做大數(shù)據(jù)平臺的垂直應(yīng)用,包括廣告營銷,計算社會學(xué)和金融應(yīng)用。在金融方面,他們本來想利用分析各種公開數(shù)據(jù)得到一些投資建議,為對沖基金服務(wù)。但是后來他們發(fā)現(xiàn)這種分析方法的效果非常好,于是他們不想賣了,自己成立了一家對沖基金。
“這是一個萬億級別的機(jī)會。”他對財新記者說,現(xiàn)在的這波大數(shù)據(jù)的熱潮,勢頭一點(diǎn)也不亞于本世紀(jì)初互聯(lián)網(wǎng)泡沫時期,而且勢頭更猛,落地更快,盈利模式更加清晰。在他看來,數(shù)據(jù)挖掘可以和各個行業(yè)結(jié)合創(chuàng)造價值。他現(xiàn)在也是寬帶資本的投資合伙人,主要負(fù)責(zé)大數(shù)據(jù)實驗室,專門投資利用大數(shù)據(jù)開發(fā)行業(yè)應(yīng)用的公司。
上海星紅桉數(shù)據(jù)科技有限公司就是糜萬軍來到上海后投資的一家利用大數(shù)據(jù)技術(shù)進(jìn)行傳媒分析的初創(chuàng)企業(yè)。
這家公司的創(chuàng)始團(tuán)隊,是從一家收視率調(diào)查公司分拆出來的。在中國,收視率數(shù)據(jù)是巨額電視廣告投放的基礎(chǔ),但是過去收視率調(diào)查都是通過樣本戶調(diào)查的形式,即便是在北京、上海這樣的大城市,也只有500戶-600戶樣本,這樣就很容易造假,只要搞定幾個樣本戶,讓他們專門看某個臺或某個節(jié)目,就會對收視率產(chǎn)生很大的影響,涉及到巨大的經(jīng)濟(jì)利益。
而隨著電視的大規(guī)模數(shù)字化,從后臺采集全部用戶的播放數(shù)據(jù)就成為可能,這樣就避免了抽樣調(diào)查帶來的波動性和不確定性。上海星紅桉數(shù)據(jù)科技有限公司總經(jīng)理李馥岑說,利用這些數(shù)據(jù),不僅能夠提供收視率分析,還可以對用戶的播放行為進(jìn)行深度分析,讓廣告投放更加精準(zhǔn)、效果評估更加清晰。
而在新媒體時代,他們可以對包括機(jī)頂盒、智能電視、平板電腦、手機(jī)等各類終端上的收視行為進(jìn)行采集,完成收視數(shù)據(jù)的分析與挖掘,廣告和節(jié)目的價值評估,此外他們還可以利用這些數(shù)據(jù)進(jìn)行智能導(dǎo)視推薦、影視劇風(fēng)險評估、用戶流失率分析、植入廣告分析等眾多場景應(yīng)用。
可以說,阻止大數(shù)據(jù)滲透到每個行業(yè)應(yīng)用的惟一障礙,就是人們的想象力。研究者總結(jié)了九個價值非常高的大數(shù)據(jù)的應(yīng)用,包括理解客戶、滿足客戶服務(wù)需求;業(yè)務(wù)流程優(yōu)化;個人生活服務(wù);個性化醫(yī)療;運(yùn)動員狀態(tài)監(jiān)測;優(yōu)化機(jī)器和設(shè)備性能;提高公共服務(wù)能力;實時交通優(yōu)化;利用社交媒體和網(wǎng)絡(luò)新聞的高頻股票交易。
挖掘能力制勝
目前,在全球500強(qiáng)企業(yè)中90%以上的重要投資和經(jīng)營決策都取決于深入的數(shù)據(jù)分析和挖掘支持。IDC中國區(qū)助理副總裁武連峰此前表示,大數(shù)據(jù)的應(yīng)用前景十分廣闊,并將逐步走入傳統(tǒng)行業(yè)。中國今后五年大數(shù)據(jù)市場復(fù)合增長率將達(dá)51.4%。
顏陽說,技術(shù)改變一切這個說法一點(diǎn)也不夸張,可以說現(xiàn)在沒有解決不了的問題,只有想象不到的需求,惟一的區(qū)別可能是用戶體驗的不同。而在大數(shù)據(jù)時代,誰擁有了高超的數(shù)據(jù)挖掘技術(shù),就意味著擁有了打開金庫的鑰匙。在數(shù)據(jù)多樣時代,數(shù)據(jù)有結(jié)構(gòu)化的,但更多是非結(jié)構(gòu)化的,更新頻率也不一樣,數(shù)據(jù)來源也越來越多。
過去人們嘗試使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來處理非結(jié)構(gòu)化數(shù)據(jù),但結(jié)果是力不從心。直到谷歌在研發(fā)頁面檢索服務(wù)的過程中,解決了網(wǎng)頁、文檔這類數(shù)據(jù)的快速訪問難題,成為大數(shù)據(jù)技術(shù)的先驅(qū)。此后雅虎的一個開發(fā)小組,把谷歌的成果開發(fā)出大數(shù)據(jù)處理的一套程序框架,就是眾所周知的Hadoop。
這些公司的實踐,讓大家對各類非結(jié)構(gòu)化數(shù)據(jù)的處理難題重拾信心,對于圖像、視頻、音頻等數(shù)據(jù)的處理技術(shù)也駛上了快車道。
面對大量非結(jié)構(gòu)化數(shù)據(jù),首先要給這些數(shù)據(jù)建模,從傳統(tǒng)的分析手段,加上小波分析、協(xié)同過濾、機(jī)器學(xué)習(xí)等大量的復(fù)雜分析手段,為這些數(shù)據(jù)建立一個好的回歸模型,這樣才能根據(jù)這些數(shù)據(jù)進(jìn)行預(yù)測,幫助企業(yè)優(yōu)化商業(yè)解決方案,幫助銀行進(jìn)行客戶風(fēng)險管理,幫助廣告商進(jìn)行精準(zhǔn)營銷。
谷歌公司首席經(jīng)濟(jì)學(xué)家哈爾?范里安(Hal Varian)曾“不開玩笑”地表示,在這個幾乎一切都能被監(jiān)控和測算的年代,“未來十年里,統(tǒng)計學(xué)家將會是最性感的職業(yè)。”
芮祥麟說,他們現(xiàn)在已經(jīng)可以幫助銀行對于特定客戶制作360度視圖,讓銀行全面了解這一客戶的狀態(tài)。他們還為一家亞洲較大的股票交易所建立了復(fù)雜事件處理模型,通過實時分析交易數(shù)據(jù),預(yù)測可能發(fā)生的問題,為制造企業(yè)進(jìn)行預(yù)測性維修,通過分析設(shè)備的歷史數(shù)據(jù),分析可能出現(xiàn)的問題的部位,還可以為醫(yī)生進(jìn)行快速CT診斷。
在芮祥麟看來,其實大數(shù)據(jù)并不神秘,只是由于過去許多知識、經(jīng)驗的積累到了今天,讓人們具有了利用這些數(shù)據(jù)進(jìn)行預(yù)測的能力。當(dāng)然也不必迷信大數(shù)據(jù),它所能提供的,更多的是一種趨勢的預(yù)測,是一種幾率。
數(shù)據(jù)分析的及時性,在很多情況下比精確性更加重要。關(guān)鍵是“預(yù)測趨勢”。沃爾瑪?shù)睦麧櫤托l(wèi)星圖片有什么關(guān)系?正是因為瑞銀需要更準(zhǔn)確的預(yù)判企業(yè)的盈利狀態(tài),除了傳統(tǒng)的方法,瑞銀還購買了衛(wèi)星圖片數(shù)據(jù),從中獲得沃爾瑪停車場的數(shù)據(jù),以此作為模型的一個維度。
可以說大數(shù)據(jù)的關(guān)鍵價值,就是獲取信息優(yōu)勢。大數(shù)據(jù)的核心能力,就是發(fā)現(xiàn)規(guī)律、預(yù)測未來。
對于從事地理信息系統(tǒng)的超圖軟件來說,他們所針對的地理信息本身就是由大量的非結(jié)構(gòu)化數(shù)據(jù)組成。超圖軟件副總裁王康泓告訴財新記者,地理信息越來越廣義化,包括衛(wèi)星信息、無人機(jī)測繪信息、雷達(dá)遙感信息等,而不是局限于傳統(tǒng)的測繪信息,這在技術(shù)上提出了更高的要求,需要云計算技術(shù)、移動計算技術(shù)。
當(dāng)然大量的信息也帶來了商業(yè)模式的創(chuàng)新。目前地理空間分析成了空間規(guī)劃選址必不可少的部分,地理因子、氣象因子映射到農(nóng)產(chǎn)品價格、期貨價格上,也要借助地理空間分析。目前流行的GBI(地理商業(yè)智能)概念,也是借助于地理空間大數(shù)據(jù)。
“孕育的產(chǎn)業(yè)太多了。”王康泓說,包括產(chǎn)品和服務(wù)保障、咨詢和決策支持,業(yè)內(nèi)都在積極探索,進(jìn)行技術(shù)儲備。
IBM大中華區(qū)電信行業(yè)事業(yè)部總監(jiān)丁佐治博士對財新記者說,目前網(wǎng)絡(luò)的大數(shù)據(jù)采集已經(jīng)精細(xì)到了用戶觀看視頻的等待時間、等待次數(shù),來自電信運(yùn)營商的位置信息已經(jīng)被保險公司用于評估司機(jī)的風(fēng)險,可以說現(xiàn)在各行各業(yè)沒有不被大數(shù)據(jù)映射的,關(guān)鍵在于要倒著想問題,以用戶為中心,而不再是以生產(chǎn)者為中心。
誰來規(guī)范大數(shù)據(jù)
伴隨著大數(shù)據(jù)時代來臨,數(shù)字化生存才會真正實現(xiàn)。網(wǎng)絡(luò)和數(shù)字化生活一方面給人帶來方便,也使得犯罪分子更容易獲得關(guān)于人的信息,也有了更多不易被追蹤和防范的犯罪手段,可能會出現(xiàn)更高明的騙局,也就是說大數(shù)據(jù)已經(jīng)把你出賣了。
能否避免“被大數(shù)據(jù)”,恐怕很難。糜萬軍介紹,在美國AOL曾經(jīng)做過一次實驗,只根據(jù)某個人的搜索記錄,就可以把這個人叫什么名字,住在哪都找出來??梢哉f只要上網(wǎng)就會留下痕跡,只要留下的痕跡足夠多,大數(shù)據(jù)技術(shù)對這個人的描述就足夠清晰。
顏陽說,大數(shù)據(jù)時代,完全的隱私是不存在的。一旦進(jìn)入了互聯(lián)網(wǎng),解決隱私問題就有相當(dāng)?shù)碾y度,如果不進(jìn)互聯(lián)網(wǎng),又容易被邊緣化。
一位網(wǎng)上商城的技術(shù)負(fù)責(zé)人告訴財新記者,為了進(jìn)行精準(zhǔn)營銷,他們不僅要分析用戶在網(wǎng)站內(nèi)的活動,還需要用戶的站外活動信息,而這些信息可以從各大門戶網(wǎng)站買到。
中關(guān)村大數(shù)據(jù)交易平臺技術(shù)副總監(jiān)徐將對財新記者說,只要用戶使用網(wǎng)絡(luò),就沒有絕對的隱私。而只要數(shù)據(jù)有價值,就有買賣。在北京,每年房地產(chǎn)數(shù)據(jù)的地下交易額高達(dá)6億元,20G的在線支付網(wǎng)站數(shù)據(jù),標(biāo)價數(shù)十萬元到上百萬元。
但問題是,這些數(shù)據(jù)的所有權(quán)到底屬于誰。還有一個更極端的例子,是各大網(wǎng)站都在為用戶提供免費(fèi)的“網(wǎng)盤”,用戶可以儲存各種資料,“網(wǎng)盤”容量可以達(dá)到100G。對于用戶來說,可以說省下了一塊硬盤的幾百元錢,更給資料的訪問和分享提供了方便,但是這些資料,也成為這些網(wǎng)站的核心資產(chǎn)。
如何界定數(shù)據(jù)資產(chǎn)的歸屬權(quán)和使用權(quán),如何維護(hù)用戶的隱私,如何保證用戶的數(shù)據(jù)不被壞人利用,都是擺在大數(shù)據(jù)面前必須明確的問題,而這些問題,可能不是技術(shù)可以解決的,需要法律人士的參與,需要國家的頂層設(shè)計。
顏陽說,大數(shù)據(jù)的價值,一方面在于使用價值,一方面在于交換價值,數(shù)據(jù)可能對擁有者沒有用,但是對別的行業(yè)很有用。當(dāng)然這種交換要符合法律。
交換價值實際上可以從過去頻繁出現(xiàn)的倒賣個人信息的案件中體現(xiàn)出來。大量的快遞單、車主信息被擁有者以非常便宜的價格賣給別人,卻為后者創(chuàng)造了大量非法的收入。他說,將來會形成一個數(shù)據(jù)交易市場,通過這個交易市場數(shù)據(jù)可以做標(biāo)準(zhǔn)化交易。
要杜絕數(shù)據(jù)信息被倒賣,最直接的方式是建立一個陽光化的交易平臺,讓數(shù)據(jù)提供方、分析能力提供方、需求方能夠面對面交易。徐將介紹,目前國外已有大數(shù)據(jù)交易市場,例如微軟2010年發(fā)布的針對開發(fā)者的ANYPOINT平臺,日本富士通2013年推出的企業(yè)電子信息交易平臺“Data plaza”。
在“Data plaza”上,可以買到的數(shù)據(jù)包括購物網(wǎng)站的交易記錄、智能手機(jī)的位置信息、社交網(wǎng)站(SNS)的帖子等。但是這些數(shù)據(jù)在被交易前需要對全部個人信息進(jìn)行匿名化處理,這就在滿足大數(shù)據(jù)分析需要的同時,杜絕了隱私的泄露。
據(jù)日本市場研究協(xié)會(JMRA)統(tǒng)計顯示,企業(yè)參與的日本數(shù)據(jù)交易的市場規(guī)模每年約為2200億日元。
唐全榮認(rèn)為,一方面通過交易平臺的建立,可以通過公開掛牌戰(zhàn)勝地下交易、引入第三方的監(jiān)督。另一方面還需要增加泄露隱私的犯罪成本,讓用戶隱私被濫用的時候,泄露用戶隱私的一方也需要承擔(dān)連帶責(zé)任,這就要求他們在出售數(shù)據(jù)信息的時候,屏蔽掉個人信息。
徐將說,中國目前在大數(shù)據(jù)交易上比較落后,關(guān)鍵是用戶比較擔(dān)心交易合法有效性,雖然目前國家還并未出臺大數(shù)據(jù)國家戰(zhàn)略,但是應(yīng)該盡快明確大數(shù)據(jù)交易立法,推動大數(shù)據(jù)的定價機(jī)制,進(jìn)而實現(xiàn)資產(chǎn)化、證券化?!斑@看似比較遙遠(yuǎn),但時間不會很長?!?/span>
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03