
大數(shù)據(jù)行業(yè)四大困惑
2017年5月末,大數(shù)據(jù)行業(yè)被媒體貼上“監(jiān)管趨緊”“大洗牌”“灰色數(shù)據(jù)交易”的標(biāo)簽,并稱多家大數(shù)據(jù)公司被列入監(jiān)管的調(diào)查名單之中。
“被調(diào)查”風(fēng)波
數(shù)據(jù)堂被某媒體報(bào)道“中槍”后的第4天,在全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板)網(wǎng)站上發(fā)布臨時(shí)公告稱:“公司某一客戶存在被公安機(jī)關(guān)調(diào)查的情況,公安機(jī)關(guān)為進(jìn)一步了解具體情況,向公司個(gè)別業(yè)務(wù)人員及財(cái)務(wù)人員進(jìn)行情況了解,不存在傳聞‘公司高管被抓’的情形?!?
“對于多家大數(shù)據(jù)公司被調(diào)查的報(bào)道目前還無法證實(shí)?!卑⒗飻?shù)據(jù)經(jīng)濟(jì)研究中心秘書長潘永花告訴《經(jīng)濟(jì)》記者,但從側(cè)面來看,個(gè)人信息保護(hù)受到監(jiān)管層的重視。“被監(jiān)管查出問題的企業(yè)在數(shù)據(jù)交易方面,或多或少存在違規(guī)現(xiàn)象?!敝?,“數(shù)據(jù)灰色地帶或許被行業(yè)或監(jiān)管部門所容忍。但2017年6月1日《網(wǎng)絡(luò)安全法》正式實(shí)施以后,清理不規(guī)范企業(yè)對整個(gè)產(chǎn)業(yè)規(guī)范化發(fā)展是有利的?!?
在大數(shù)據(jù)行業(yè)15年之久的貝格大數(shù)據(jù)總裁李常青告訴《經(jīng)濟(jì)》記者,它出現(xiàn)的背景是《網(wǎng)絡(luò)安全法》,將來無論是對不合規(guī)企業(yè)約談還是處罰,都會(huì)促進(jìn)行業(yè)的健康發(fā)展。
“一直以來,國家對數(shù)據(jù)的灰色交易打擊很嚴(yán)厲,該抓的抓,但不能說是針對大數(shù)據(jù)行業(yè)進(jìn)行的?!本糯畏酱髷?shù)據(jù)創(chuàng)始人王叁壽對《經(jīng)濟(jì)》記者表示,對于打擊灰色數(shù)據(jù)交易,首先要從打擊內(nèi)鬼開始,我們經(jīng)常看到手機(jī)號碼泄密或各種賬戶泄密問題,“很多數(shù)據(jù)外流都是因?yàn)閮?nèi)鬼?!?
《最高人民法院、最高人民檢察院關(guān)于辦理侵犯公民個(gè)人信息刑事案件適用法律若干問題的解釋》規(guī)定了非法獲取或出售50條以上個(gè)人信息,以及違法所得5000元以上等均可入罪。潘永花指出,法律填補(bǔ)了我國個(gè)人信息保護(hù)的空白,是對打擊非法數(shù)據(jù)交易的重要依據(jù)。
數(shù)據(jù)確權(quán)之困
“過去我們也有過困惑,非法交易數(shù)據(jù)很容易賺錢,但通過正常的技術(shù)采集、清洗、加工的大數(shù)據(jù)公司卻賺錢不易。這很不正常。”九次方大數(shù)據(jù)創(chuàng)始人王叁壽說。
“幾個(gè)人或幾十個(gè)人的團(tuán)隊(duì)攢點(diǎn)數(shù)據(jù)就去賣錢,這些底層數(shù)據(jù)的價(jià)格便宜,很容易產(chǎn)生暴利,也激活了很多公司的內(nèi)鬼。”王叁壽指出,這種行為對合法的數(shù)據(jù)流通會(huì)造成負(fù)面影響。
“一個(gè)人買了別人偷來的手機(jī),這是什么性質(zhì)?”王叁壽向《經(jīng)濟(jì)》記者透露,采購數(shù)據(jù)機(jī)構(gòu)不乏保險(xiǎn)公司和銀行,包括小貸公司、互聯(lián)網(wǎng)金融公司,他們交易的數(shù)據(jù)的確不是他們偷的,但是他們買了小偷的數(shù)據(jù)?!昂弦?guī)的金融機(jī)構(gòu)不應(yīng)該去采購沒有經(jīng)過確權(quán)的數(shù)據(jù)?!?
“令我們最為困惑的是數(shù)據(jù)確權(quán)問題。比如,政府的數(shù)據(jù)就應(yīng)該是政府,醫(yī)院、電信運(yùn)營商的數(shù)據(jù)也應(yīng)該屬于他們自己。”淘寶上的購物數(shù)據(jù)到底屬于誰的,國家一直沒有明確規(guī)定。王叁壽認(rèn)為,國家應(yīng)該盡快出臺(tái)關(guān)于數(shù)據(jù)確權(quán)的法律,也有利于打擊灰色數(shù)據(jù)交易。
“數(shù)據(jù)作為一種新的資產(chǎn)類型,哪些數(shù)據(jù)是屬于個(gè)人的,哪些是屬于企業(yè)的,哪些是可以交易的,未來都會(huì)有一個(gè)界定?!崩畛G啾硎?,現(xiàn)在除了國家安全、個(gè)人信息等數(shù)據(jù)不能交易,其他數(shù)據(jù)仍是混沌狀態(tài)。他建議,數(shù)據(jù)交易可以先從公開渠道披露的數(shù)據(jù)入手,比如上市公司披露的報(bào)表、行情、價(jià)格等數(shù)據(jù)進(jìn)行加工整合,給客戶一些預(yù)測性意見。再如,淘寶等電商積累的消費(fèi)數(shù)據(jù)雖然不能交易,但由此形成的快消品報(bào)告是可以銷售的。
“在產(chǎn)業(yè)界,非個(gè)人數(shù)據(jù)交易也很多?!蹦持髷?shù)據(jù)交易平臺(tái)CTO陳逸云告訴《經(jīng)濟(jì)》記者,我們自己采集、加工的數(shù)據(jù),不涉及具體的人或物,甚至沒有特定物體的標(biāo)識(shí),像人工智能、無人駕駛等企業(yè)對這些數(shù)據(jù)的需求量大?!暗珨?shù)據(jù)的版權(quán)問題至今無解。我們提供的數(shù)據(jù)被用戶買走后再復(fù)制傳播,我們毫無辦法,唯一的生存之道就是不斷地做新數(shù)據(jù)。”
數(shù)據(jù)交易之困
未來需要數(shù)據(jù)化、智能化的事物無窮無盡。張涵誠指出,產(chǎn)業(yè)尚未形成規(guī)模,“未來企業(yè)在數(shù)據(jù)生態(tài)中的競爭也是無窮無盡的。”
“大數(shù)據(jù)的行業(yè)規(guī)則仍不明晰,只在細(xì)分領(lǐng)域有所突破?!弊?012年開始關(guān)注大數(shù)據(jù)行業(yè)的騰訊研究院首席經(jīng)濟(jì)學(xué)家、產(chǎn)業(yè)與經(jīng)濟(jì)研究中心主任孟昭莉?qū)Α督?jīng)濟(jì)》記者表示,整體產(chǎn)業(yè)沒有規(guī)范化,目前還沒有成熟或被大家所認(rèn)可的商業(yè)模式出現(xiàn),市場還沒有發(fā)展起來。行業(yè)較為關(guān)注的大數(shù)據(jù)交易,其交易規(guī)則、定價(jià)、數(shù)據(jù)所有權(quán)以及數(shù)據(jù)盈利如何分配等問題仍在探索之中。
“如果賣給你不需要的數(shù)據(jù),你1分錢都不會(huì)出。如果是你需要的數(shù)據(jù),100元你也愿意出?!蓖跞壅J(rèn)為,定價(jià)不是問題,也不是影響數(shù)據(jù)交易產(chǎn)業(yè)發(fā)展的主因?!拔覀冏罱诳紤]數(shù)據(jù)拍賣的事情。一組脫敏的數(shù)據(jù),某家公司比其他十家出的價(jià)格高,就可以獨(dú)享這些數(shù)據(jù)?!?
中國電子信息產(chǎn)業(yè)發(fā)展研究院互聯(lián)網(wǎng)研究所副所長陸峰告訴《經(jīng)濟(jì)》記者,應(yīng)該鼓勵(lì)發(fā)展大數(shù)據(jù)交易,健全數(shù)據(jù)開放、共享、流通、交易、使用相關(guān)規(guī)章制度,以及加強(qiáng)對數(shù)據(jù)采集、存儲(chǔ)、傳輸、交易、流通、使用等過程中數(shù)據(jù)保護(hù)技術(shù)的研究,提高技術(shù)自主可控能力。
數(shù)據(jù)交易所是一個(gè)很好的探索。張涵誠認(rèn)為,但目前仍處在發(fā)展初期?!澳壳皵?shù)據(jù)交易所仍采取傳統(tǒng)的會(huì)員制?!彼鼪]有進(jìn)一步解決數(shù)據(jù)存儲(chǔ)、確權(quán)、脫敏等問題。
脫敏是實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)的一種技術(shù)?!?a href='/map/shujutuomin/' style='color:#000;font-size:inherit;'>數(shù)據(jù)脫敏本身不是技術(shù)難題,但問題是數(shù)據(jù)到底要脫敏到什么程度?”李常青指出,企業(yè)拿到工商局網(wǎng)站上的數(shù)據(jù)做了MD5的身份驗(yàn)證,但很容易通過身份證號來推導(dǎo),這種脫敏的意義就不大。
“底層數(shù)據(jù)好比泉水,脫敏以后可以把它變成農(nóng)夫山泉或依云礦泉水?!蓖跞郾硎?,脫敏肯定會(huì)增加成本,數(shù)據(jù)的采集、清洗、脫敏的程序,類似大數(shù)據(jù)領(lǐng)域的“富士康”,要依靠大量的人工成本支撐,這也是大數(shù)據(jù)分析師的由來。
“做數(shù)據(jù)生意的人丟單率比較高?!睆埡\指出,“業(yè)務(wù)談了一段時(shí)間,談著談著就崩了?!?
“客戶買不到想要的數(shù)據(jù),這是買方市場最大的困惑。”數(shù)據(jù)公司提供的往往不是買方真正的需求,或者能夠支撐起業(yè)務(wù)的數(shù)據(jù)。賣方也很難按照買方的邏輯加工數(shù)據(jù)?!皵?shù)據(jù)是多重要的資源,哪能你想要啥就給你啥?”很多數(shù)據(jù)都是在業(yè)務(wù)過程中產(chǎn)生的?!拔覀兌甲鐾瑯拥纳猓以趺丛敢獍炎约旱臄?shù)據(jù)給你呢?所以,真正有價(jià)值的數(shù)據(jù),別人是不愿意出售的。”
“客戶的確對大數(shù)據(jù)很挑剔。”陳逸云表示,“我們在數(shù)據(jù)質(zhì)量、模式、交付方式以及后期數(shù)據(jù)質(zhì)保等一系列流程都要考量加工完的數(shù)據(jù)是否是最終用戶需要的東西,并按照他們的標(biāo)準(zhǔn)去交付?!?
應(yīng)用之困
“目前非盈利、匿名化,不涉及個(gè)人信息的大數(shù)據(jù)應(yīng)用是公眾比較接受的?!?
大家越來越多地意識(shí)到,政府部門擁有很多有價(jià)值的數(shù)據(jù)。政府也意識(shí)到這一點(diǎn)。孟昭莉指出,政府?dāng)?shù)據(jù)在某些公共服務(wù)領(lǐng)域凸顯出數(shù)據(jù)的應(yīng)用價(jià)值。比如,通過地理位置、熱地圖等信息判斷某地的交通狀況、出行狀況。去年武漢的那場暴雨,受災(zāi)面積廣泛?!敖衲陝t不同,比如一個(gè)人發(fā)布某地鐵站進(jìn)水較深,當(dāng)這些數(shù)據(jù)通過眾包的模式收集起來,政府利用這些信息進(jìn)行提前預(yù)警?!?
“利用人臉識(shí)別技術(shù)尋找丟失小孩的應(yīng)用也有價(jià)值?!泵险牙虮硎?,當(dāng)前人臉識(shí)別率已達(dá)到98%的精準(zhǔn)度,正是通過大數(shù)據(jù)、人工智能技術(shù)來尋找失聯(lián)的孩子。
“很多時(shí)候,我們拿到的數(shù)據(jù)需要進(jìn)行二次加工?!崩畛G啾硎?,數(shù)據(jù)在使用的過程中需要通過它們之間的關(guān)聯(lián)性發(fā)掘一些有價(jià)值的東西。譬如,某機(jī)械加工廠得知螺紋鋼漲價(jià)了,過去他會(huì)覺得生產(chǎn)升本增加了得趕緊購買原材料。但現(xiàn)在他可以通過歷史數(shù)據(jù)去了解行業(yè)下游的需求?!斑@才是大數(shù)據(jù)應(yīng)用的意義?!?
“好的數(shù)據(jù)產(chǎn)品會(huì)說話?!睆埡\指出,隨著醫(yī)保、社保、交通、水電煤氣等政務(wù)數(shù)據(jù)不斷地被政府釋放出來,應(yīng)該開發(fā)更有價(jià)值的數(shù)據(jù)產(chǎn)品。“像查詢企業(yè)信用的數(shù)據(jù)產(chǎn)品在銷售環(huán)節(jié)既有章可循,也可以產(chǎn)生一定的經(jīng)濟(jì)效益?!?
“我們很早就使用大數(shù)據(jù)、云計(jì)算為客戶提供服務(wù)了?!蹦炒髷?shù)據(jù)企業(yè)創(chuàng)始人沈立勤對《經(jīng)濟(jì)》記者表示,“但目前我更關(guān)注的是AI(人工智能)?!?
“大數(shù)據(jù)是AI的基礎(chǔ)?!泵险牙虮硎荆拔覀冎辽傩枰罅康臄?shù)據(jù)來喂養(yǎng)一個(gè)AI?!盜BM的AI機(jī)器人(19.84 -1.49%,診股)沃森可以學(xué)習(xí)各種病例,比人類學(xué)得快,積累得多。谷歌的AlphaGo也是通過大數(shù)據(jù)學(xué)習(xí),戰(zhàn)勝了李世石和柯杰?!皼]有數(shù)據(jù),AI很難實(shí)現(xiàn)。可以預(yù)見,未來3-5年,大數(shù)據(jù)和AI將是高熱投資區(qū)域?!?
監(jiān)管之困
目前數(shù)據(jù)非法交易的監(jiān)管難度較大。陸峰告訴《經(jīng)濟(jì)》記者,一方面非法數(shù)據(jù)交易信息互聯(lián)網(wǎng)傳播渠道尚未被及時(shí)、有效切斷,多部門協(xié)同打擊的常態(tài)化機(jī)制尚未建立。另一方面,非法數(shù)據(jù)交易傳統(tǒng)打擊手段難以有效應(yīng)對,網(wǎng)絡(luò)化和平臺(tái)化監(jiān)管治理模式尚未建立。
“貴陽大數(shù)據(jù)交易所探索了兩年多,交易量才突破1億元,但是黑市交易的數(shù)據(jù)量至少是我們的99倍!”王叁壽的另一個(gè)身份是貴陽大數(shù)據(jù)交易所執(zhí)行總裁。他認(rèn)為,區(qū)塊鏈技術(shù)可以有效打擊數(shù)據(jù)非法流通問題?!澳壳敖灰姿筒捎昧藚^(qū)塊鏈技術(shù),相當(dāng)于給數(shù)據(jù)加了一個(gè)GPS,可以對交易的數(shù)據(jù)進(jìn)行追蹤。”但目前它并沒有真正發(fā)揮出實(shí)力?!爸挥写蠹叶加脜^(qū)塊鏈技術(shù),才能真正解決黑市交易問題?!?
“打擊大數(shù)據(jù)灰產(chǎn)交易,如果采用新的技術(shù),監(jiān)管的效果也會(huì)有明顯提升。”孟昭莉表示,當(dāng)短信詐騙、微信詐騙形成一定的規(guī)模時(shí),我們也積累了打擊它們的辦法和技術(shù)。
如果有人把偽基站放進(jìn)雙肩包,然后繞著國貿(mào)大廈附近走動(dòng),偽基站的信號會(huì)覆蓋大廈四周,樓內(nèi)的人會(huì)收到偽偽基站推送的信息,并信以為真。如果反詐騙能力或技術(shù)的不斷提高,對大數(shù)據(jù)行業(yè)的困局也會(huì)有所改變。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10