99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀北大沈艷:警惕大數(shù)據(jù)神話,大數(shù)據(jù)分析有其門檻
北大沈艷:警惕大數(shù)據(jù)神話,大數(shù)據(jù)分析有其門檻
2016-05-06
收藏

北大沈艷:警惕大數(shù)據(jù)神話,大數(shù)據(jù)分析有其門檻

大數(shù)據(jù)是近幾年最熱門的IT概念之一,并已在許多領(lǐng)域?qū)崿F(xiàn)落地。從淘寶利用平臺(tái)數(shù)據(jù)解讀中國(guó)消費(fèi)趨勢(shì)和地區(qū)差異到出行類APP在擁塞的城市中為用戶提供快速的車輛調(diào)度,從數(shù)據(jù)分析團(tuán)隊(duì)在奧巴馬連任競(jìng)選中發(fā)揮巨大作用到谷歌智能系統(tǒng)AlphaGo在人機(jī)圍棋大戰(zhàn)中獲勝,呼喊大數(shù)據(jù)力量神奇的聲音從未停歇。

然而人們也不得不承認(rèn)大數(shù)據(jù)應(yīng)用喜憂參半的事實(shí),特別是曾作為大數(shù)據(jù)具備革命性潛力證明的谷歌流感趨勢(shì)近幾年的預(yù)測(cè)結(jié)果并不盡如人意。大數(shù)據(jù)是否被過度熱炒和不恰當(dāng)運(yùn)用?現(xiàn)行大數(shù)據(jù)分析是否科學(xué)可靠?疑問接踵而至。

如今,大數(shù)據(jù)已作為我國(guó)的國(guó)家戰(zhàn)略被寫進(jìn)“十三五”規(guī)劃綱要,被期助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新,對(duì)于大數(shù)據(jù)相關(guān)疑問的思考尤為重要。海外網(wǎng)財(cái)經(jīng)對(duì)話北京大學(xué)國(guó)家發(fā)展研究院教授沈艷,探討大數(shù)據(jù)應(yīng)用的陷阱和門檻,以期為“十三五”藍(lán)圖中大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展建言獻(xiàn)策。

大數(shù)據(jù)不能替代小數(shù)據(jù)

海外網(wǎng):大數(shù)據(jù)是這幾年提出來(lái)的一個(gè)概念,但對(duì)海量數(shù)據(jù)的處理早已存在。大數(shù)據(jù)與從前對(duì)數(shù)據(jù)的采集分析有哪些不同?

沈艷:我們可以先梳理一下數(shù)據(jù)使用的變遷。早期,人們用統(tǒng)計(jì)方法來(lái)觀察和研究世界探求規(guī)律時(shí),認(rèn)為數(shù)據(jù)量越大越好。到了近一百年前,英國(guó)統(tǒng)計(jì)學(xué)家開始將抽樣技術(shù)用于社會(huì)調(diào)查中。抽樣技術(shù)的使用基于這樣的認(rèn)知:如果界定出清晰的總體,那么通過隨機(jī)抽樣技術(shù),只要能把關(guān)鍵節(jié)點(diǎn)描摹出來(lái),就能用有限的樣本去推斷人們關(guān)心的總體。在科學(xué)抽樣概念的基礎(chǔ)之上,數(shù)據(jù)調(diào)查產(chǎn)業(yè)、以及很多分析行業(yè)就發(fā)展起來(lái)。到了21世紀(jì),隨著計(jì)算機(jī)技術(shù)的發(fā)展,比過去大得多的數(shù)據(jù)量出現(xiàn)了。

一種對(duì)于大數(shù)據(jù)優(yōu)越性的看法是,有了大數(shù)據(jù)就有了總體,就不再需要抽樣了。這種看法的邏輯似乎是,只要數(shù)據(jù)量足夠大,那么通常利用有限信息來(lái)推測(cè)真實(shí)狀況的不確定性就可以迎刃而解。這一觀點(diǎn)似是而非。 首先大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)最主要的不同在于,大數(shù)據(jù)的采集過程更多是生產(chǎn)經(jīng)營(yíng)等各類活動(dòng)的未經(jīng)處理的附屬產(chǎn)品。傳統(tǒng)的數(shù)據(jù)收集模式,或者通過問卷調(diào)查;或者即便是經(jīng)營(yíng)活動(dòng)留下的數(shù)據(jù),往往也有比較規(guī)范的標(biāo)準(zhǔn),使得數(shù)據(jù)的含義前后盡可能可比。由于收集的信息只是經(jīng)營(yíng)活動(dòng)的附屬產(chǎn)品,數(shù)據(jù)反映的信息可能只是總體的一部分,其他部分是缺失的。另一方面,何為總體取決于人們關(guān)心的問題,而隨著時(shí)間的變化,總體可能還會(huì)發(fā)生變化,因?yàn)橛幸恍┬滦畔⒃跁r(shí)間推移中才能夠出現(xiàn)。例如,谷歌有其所有用戶的瀏覽點(diǎn)擊記錄,如果將總體就定義為“谷歌所有用戶的瀏覽行為”,那么谷歌數(shù)據(jù)可以被看作總體;但是如果總體是“互聯(lián)網(wǎng)所有用戶的瀏覽行為”,那么顯然谷歌數(shù)據(jù)只是其中一部分;再如,“使用谷歌搜索流感相關(guān)信息的用戶” 和“美國(guó)流感人群”這個(gè)總體之間,恐怕只有一部分重合,因此用后者預(yù)測(cè)流感趨勢(shì),存在先天不足。

事實(shí)上,大數(shù)據(jù)相比過往的數(shù)據(jù)處理給我們帶來(lái)了更多挑戰(zhàn):算法不同帶來(lái)數(shù)據(jù)生成機(jī)制的不同;時(shí)間頻率增大、顆粒度變小之后噪音也越大等。

海外網(wǎng):如今大數(shù)據(jù)已被提升到國(guó)家戰(zhàn)略的地位,數(shù)據(jù)正在成為我們戰(zhàn)略性的基礎(chǔ)資源,甚至被稱為“新的石油”、“類似貨幣或黃金的新型經(jīng)濟(jì)資產(chǎn)”,您如何評(píng)價(jià)這些說(shuō)法?

沈艷:數(shù)據(jù)的確已經(jīng)開始成為新的戰(zhàn)略性基礎(chǔ)資源。在大數(shù)據(jù)被提升到國(guó)家戰(zhàn)略地位時(shí),數(shù)據(jù)資源的歸屬、開發(fā)、轉(zhuǎn)讓等規(guī)則,需要盡快明確。例如,在研究中我們常常發(fā)現(xiàn),其他國(guó)家可以免費(fèi)獲取的一些基本公共數(shù)據(jù),在我國(guó)往往難以獲取?;蛘呤菙?shù)據(jù)獲取渠道不清晰,或者即便找到了獲取渠道,往往也不得不支付高昂的費(fèi)用來(lái)獲取在其他國(guó)家可以免費(fèi)獲得的資料。另外還存在這樣的情形,就是有關(guān)部門公布了一部分?jǐn)?shù)據(jù)之后,發(fā)現(xiàn)這些數(shù)據(jù)引發(fā)了質(zhì)疑、爭(zhēng)論,之后就索性不再更新相關(guān)數(shù)據(jù),導(dǎo)致無(wú)法及時(shí)厘清信息真相的局面?!皩?shí)事求是”,首先要能對(duì)“實(shí)事”給出基本描述,不然就會(huì)產(chǎn)生具有煽動(dòng)性的、不準(zhǔn)確的信息在民間流傳,而希望分析可靠數(shù)據(jù)、澄清錯(cuò)誤觀念的努力又因?yàn)槿狈?shù)據(jù)而無(wú)法有效實(shí)現(xiàn)的局面。在“十三五”規(guī)劃中,很高興可以看到“加快建設(shè)國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái),推動(dòng)政府信息系統(tǒng)和公共數(shù)據(jù)互聯(lián)開放共享。制定政府?dāng)?shù)據(jù)共享開放目錄,依法推進(jìn)數(shù)據(jù)資源向社會(huì)開放”這樣的內(nèi)容,盼望可以盡快落到實(shí)處,避免一旦認(rèn)定數(shù)據(jù)成為戰(zhàn)略性基礎(chǔ)資源,就迅速成為政府新的壟斷資源,政府何時(shí)公開、對(duì)誰(shuí)公開都由有關(guān)部門自行把握的局面。

海外網(wǎng):如何理解大數(shù)據(jù)成為國(guó)家戰(zhàn)略的經(jīng)濟(jì)和社會(huì)背景?它在產(chǎn)業(yè)轉(zhuǎn)型和社會(huì)治理方面能夠產(chǎn)生怎樣的助推力?

沈艷:大數(shù)據(jù)被放到了一個(gè)非常重要的位置,表明我們國(guó)家在推動(dòng)創(chuàng)新這方面有很大的決心。這背后還有一個(gè)大的背景,就是在全球需求疲軟的情形當(dāng)中,傳統(tǒng)出口導(dǎo)向的經(jīng)濟(jì)模式已經(jīng)難以繼續(xù)支撐中國(guó)經(jīng)濟(jì)的增長(zhǎng),我們的經(jīng)濟(jì)迫切需要轉(zhuǎn)型;而在尋找新的增長(zhǎng)點(diǎn)的時(shí)候,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)在新興行業(yè)中的重要性越來(lái)越顯著。合理使用數(shù)據(jù),對(duì)未來(lái)中國(guó)經(jīng)濟(jì)成長(zhǎng)具有重要意義。

如果運(yùn)用得當(dāng),大數(shù)據(jù)能夠幫助我們快速刻畫新舊經(jīng)濟(jì)的更替和發(fā)展趨勢(shì),發(fā)現(xiàn)新的增長(zhǎng)點(diǎn)。拿我們做的一個(gè)課題新經(jīng)濟(jì)指數(shù)為例,我們的目標(biāo)是用該指數(shù)來(lái)刻畫中國(guó)經(jīng)濟(jì)轉(zhuǎn)型過程中新經(jīng)濟(jì)的成長(zhǎng)與變遷。由于新經(jīng)濟(jì)是新概念,現(xiàn)有的統(tǒng)計(jì)還沒有對(duì)相應(yīng)內(nèi)涵的界定和度量,因此依靠傳統(tǒng)數(shù)據(jù),我們無(wú)法對(duì)于新經(jīng)濟(jì)的成長(zhǎng)和變遷得出及時(shí)的描繪。 這里,大數(shù)據(jù)給我們提供了在短時(shí)間內(nèi)刻畫國(guó)家新經(jīng)濟(jì)基本狀況的可能性。因此你可以想象很多嶄新的機(jī)會(huì),比如刻畫一個(gè)地區(qū)的產(chǎn)業(yè)布局以及與其他地區(qū)產(chǎn)業(yè)布局相比的高下特征,這將給當(dāng)?shù)禺a(chǎn)業(yè)的發(fā)展方向提供可視化指導(dǎo),也可以為政府決策提供一定參考。

比如在北京,交通擁堵問題非常受關(guān)注。過去提供給決策者的數(shù)據(jù)往往來(lái)自抽樣調(diào)查,到了現(xiàn)在大數(shù)據(jù)已經(jīng)可以實(shí)時(shí)記錄路面狀況,記錄具體流向,記錄交通高峰和低谷。如果充分利用這些信息,那么在解決交通擁堵這一問題上,也許可以采取一些措施, 考慮鼓勵(lì)或不鼓勵(lì)人們?cè)谀承r(shí)段走某些路段,而不是不管人們的實(shí)際需要,簡(jiǎn)單采取限號(hào)措施、甚至采用單雙號(hào)限行。恰當(dāng)運(yùn)用大數(shù)據(jù)為更低成本地、更精準(zhǔn)地管理城市提供了可能。

海外網(wǎng):“大數(shù)據(jù)+”被認(rèn)為有助于許多行業(yè)的創(chuàng)新發(fā)展。在您看來(lái),大數(shù)據(jù)更可能給哪些行業(yè)帶來(lái)變革性的影響?

沈艷:我想是新經(jīng)濟(jì)指數(shù)中的新經(jīng)濟(jì)行業(yè),它們?cè)谖磥?lái)決策中可能需要使用更多的數(shù)據(jù)。我們說(shuō)的新經(jīng)濟(jì)行業(yè)是指那些高技術(shù)投入、高人力資本、輕資產(chǎn)的行業(yè);最近幾年有持續(xù)增長(zhǎng)的行業(yè),以及符合國(guó)家產(chǎn)業(yè)政策方向的行業(yè)。例如電子信息行業(yè)、科研和技術(shù)服務(wù)行業(yè)、金融和法律服務(wù)相關(guān)行業(yè)等。不過大數(shù)據(jù)在行業(yè)中的應(yīng)用還是會(huì)有一個(gè)逐步推進(jìn)的過程,其中一個(gè)原因是會(huì)牽涉到既定的行業(yè)標(biāo)準(zhǔn)。例如在美國(guó),大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用就相對(duì)要慢一些。所以雖然大數(shù)據(jù)成為我們的國(guó)家戰(zhàn)略,但這并不意味著每一個(gè)行業(yè)都該去做大數(shù)據(jù)分析。

海外網(wǎng):傳統(tǒng)企業(yè)如果希望建立自己的大數(shù)據(jù)戰(zhàn)略,應(yīng)該從哪些方面考慮戰(zhàn)略實(shí)施的可行性?

沈艷:不是所有的行業(yè)、企業(yè)都必須考慮大數(shù)據(jù)戰(zhàn)略,因?yàn)榇?/span>數(shù)據(jù)分析有其門檻。成立時(shí)間比較久、規(guī)模比較大但又有能力快速革新的企業(yè),可以考慮梳理自身已有的數(shù)據(jù)(無(wú)論大?。缓罂紤]大數(shù)據(jù)和小數(shù)據(jù)相結(jié)合,逐步推進(jìn)。如果身處傳統(tǒng)行業(yè)但是規(guī)模不夠大的企業(yè),可以考慮購(gòu)買相應(yīng)的服務(wù)。

最重要的是要防止一哄而上、不管是否適合自己都要趕上潮流。大數(shù)據(jù)的適用應(yīng)當(dāng)審慎、漸進(jìn)。這主要是因?yàn)閿?shù)據(jù)分析很有挑戰(zhàn),需要一段時(shí)間來(lái)驗(yàn)證其效果。

海外網(wǎng):這里所說(shuō)的小數(shù)據(jù)是如何定義的?

沈艷:就是相對(duì)于大數(shù)據(jù)的一些傳統(tǒng)的數(shù)據(jù)搜集模式,包括問卷調(diào)查得到的數(shù)據(jù)、生產(chǎn)生活當(dāng)中產(chǎn)生的一些數(shù)據(jù)等。

數(shù)據(jù)分析門檻并不低

海外網(wǎng):您強(qiáng)調(diào)大數(shù)據(jù)的分析是有門檻的,也曾撰文提出大數(shù)據(jù)分析的五步法?,F(xiàn)在大數(shù)據(jù)分析是否有確定的標(biāo)準(zhǔn)?又有哪些需要關(guān)注和解決的問題?

沈艷:目前大數(shù)據(jù)分析方法的核心還是數(shù)據(jù)挖掘方法。但是由于存在神話大數(shù)據(jù)分析的傾向,我在一篇文章中提出了大數(shù)據(jù)分析的五步法,其實(shí)這不是新東西,只是把傳統(tǒng)的規(guī)范的分析數(shù)據(jù)的方法做了重新的闡釋。重點(diǎn)是想強(qiáng)調(diào),大數(shù)據(jù)只是分析、解決問題的一個(gè)元素,而不是全部。

我今天剛讀到一段話,它很能代表現(xiàn)在的一些看法,就是講數(shù)家公司的大數(shù)據(jù)平臺(tái)就像大數(shù)據(jù)的淘寶店,“無(wú)論你是什么樣的企業(yè),只要你對(duì)數(shù)據(jù)有需求,就可以找到提供相關(guān)服務(wù)的淘寶店主,這些店主可以靈活、有針對(duì)性地幫你進(jìn)行大數(shù)據(jù)部署,并且價(jià)格合理”。它輕描淡寫地說(shuō),只要你有數(shù)據(jù)方面的問題,這些店主就可以很好地為你解決,完全沒有提及對(duì)大數(shù)據(jù)使用的可行性分析。

我最近重看了一遍《皇帝的新衣》,我在想為什么騙子可以騙那么多人。這里面很重要的一點(diǎn)是,騙子告訴第一個(gè)來(lái)看衣服的大臣說(shuō),這是最新的技術(shù),如果你看不見的話,你就是愚蠢的人。這個(gè)邏輯在很多時(shí)候都適用。當(dāng)新技術(shù)來(lái)臨,尤其是面對(duì)經(jīng)濟(jì)新舊轉(zhuǎn)型迫切需要新事物的時(shí)候,我們很容易在沒有深究的時(shí)候就相信新事物的力量,希望它帶來(lái)巨大的變化。

但實(shí)際上大數(shù)據(jù)只是我們解決問題過程中的一個(gè)部分。只有在必須要用它,并且清晰地知道它各種各樣的局限和可能出現(xiàn)的問題的基礎(chǔ)上,才能去用它。

我提出大數(shù)據(jù)分析五步法是想要強(qiáng)調(diào),不管是進(jìn)行學(xué)術(shù)研究還是產(chǎn)品開發(fā),首先都要回歸問題本源,明確我們要解決的問題是什么。第二步,明確為解決這個(gè)問題需要探求怎樣的數(shù)據(jù),要進(jìn)行數(shù)據(jù)的可行性論證。如果小數(shù)據(jù)可以解決問題,就不需要用大數(shù)據(jù)。如果大數(shù)據(jù)被證明質(zhì)量足夠好,能夠作為補(bǔ)充,就采用大數(shù)據(jù)和小數(shù)據(jù)結(jié)合的方式。只有在沒有小數(shù)據(jù)、大數(shù)據(jù)是唯一合適的數(shù)據(jù)的情形當(dāng)中,大數(shù)據(jù)才能被單獨(dú)使用,但即便是這樣,它的使用都特別需要交叉驗(yàn)證。

我們可以看一下美國(guó)的大數(shù)據(jù)行業(yè)圖景(big data landscape)。這張圖將美國(guó)大數(shù)據(jù)產(chǎn)業(yè)分為架構(gòu)(infrastructure)、分析(analytics)和應(yīng)用(applications)三個(gè)部分。當(dāng)然這種劃分較為粗淺,每一部分并不是那么絕對(duì),同一家企業(yè)可能同時(shí)涉及幾個(gè)部分。但是我們看“十三五”規(guī)劃中大數(shù)據(jù)戰(zhàn)略的內(nèi)容,會(huì)發(fā)現(xiàn)主要是在架構(gòu)和應(yīng)用部分,比如加快政府?dāng)?shù)據(jù)開放共享,進(jìn)行海量數(shù)據(jù)采集、存儲(chǔ)、清洗、分析發(fā)掘、可視化等領(lǐng)域關(guān)鍵技術(shù)攻關(guān),對(duì)分析部分的強(qiáng)調(diào)還有待加強(qiáng)。

海外網(wǎng):“十三五”規(guī)劃綱要里面也涉及到數(shù)據(jù)的分析發(fā)掘,和您強(qiáng)調(diào)的數(shù)據(jù)分析有什么不同?

沈艷:我想,數(shù)據(jù)分析既包括關(guān)鍵技術(shù)攻關(guān),也包括實(shí)際運(yùn)用。舉例來(lái)說(shuō),從傳統(tǒng)數(shù)據(jù)到大數(shù)據(jù),數(shù)據(jù)的維度立刻變得很大,但同時(shí)數(shù)據(jù)也變得稀疏,這種稀疏會(huì)給計(jì)算帶來(lái)很多問題。關(guān)鍵技術(shù)攻關(guān)層面強(qiáng)調(diào)的更多是,在維度變大的情況下如何解決計(jì)算問題,那就是降維,壓縮信息使得結(jié)果盡可能穩(wěn)。 但是,如果我們?nèi)鄙俣迷谑裁磿r(shí)候用什么樣的標(biāo)準(zhǔn)去壓縮信息的人才,這就不只是技術(shù)問題了。實(shí)際數(shù)據(jù)分析,需要既通曉技術(shù)又了解實(shí)際問題癥結(jié)的人才,而我們現(xiàn)在對(duì)分析的實(shí)際運(yùn)用部分的強(qiáng)調(diào)還不夠。

從理論上來(lái)講,只有在架構(gòu)和分析方面都處理得很好的前提下,才可以有應(yīng)用,但實(shí)際是,現(xiàn)在的一些大數(shù)據(jù)公司在并不注重?cái)?shù)據(jù)分析的情況下就開始了應(yīng)用,最后給出一個(gè)APP之類的產(chǎn)品,說(shuō)用這個(gè)就可以了。

可以說(shuō),即便做一些大數(shù)據(jù)產(chǎn)品的時(shí)候沒有遵循非??茖W(xué)規(guī)范的分析方法,也能夠在一定程度上解決問題,但是這些商業(yè)模式是否真正可行、是否能夠持續(xù)是很難確認(rèn)的,只是在沒有出現(xiàn)問題的時(shí)候,我們暫且認(rèn)為沒有問題,應(yīng)用的效果只能通過時(shí)間、通過金錢檢驗(yàn)。特別是現(xiàn)在大數(shù)據(jù)已經(jīng)上升到戰(zhàn)略高度,會(huì)很快被地方執(zhí)行。在經(jīng)濟(jì)轉(zhuǎn)型的關(guān)鍵時(shí)期,如果某些關(guān)鍵行業(yè)因?yàn)閿?shù)據(jù)素養(yǎng)的缺失出現(xiàn)重大損失,將會(huì)是很大的問題。而且當(dāng)出現(xiàn)問題時(shí)再回頭糾正的時(shí)候,往往需要花費(fèi)較大的成本。所以我特別呼吁大家關(guān)注大數(shù)據(jù)分析,理解大數(shù)據(jù)的局限性和可行性,在產(chǎn)業(yè)發(fā)展之初夯實(shí)基礎(chǔ),從而促進(jìn)產(chǎn)業(yè)的健康發(fā)展。

海外網(wǎng):數(shù)據(jù)分析是這樣一個(gè)基本的、重要的步驟,為什么卻是常常缺失的、不被重視的?

沈艷:每一個(gè)行業(yè)的發(fā)展都需要經(jīng)歷一個(gè)積累經(jīng)驗(yàn)的過程?,F(xiàn)在我們進(jìn)入了大數(shù)據(jù)時(shí)代,而且大數(shù)據(jù)成為了我們的國(guó)家戰(zhàn)略,我們會(huì)突然感覺到數(shù)據(jù)分析的需求大量出現(xiàn)了,也才會(huì)突然看到在數(shù)據(jù)分析這里存在大的缺口。

我個(gè)人對(duì)強(qiáng)調(diào)產(chǎn)品端、輕數(shù)據(jù)開發(fā)和分析端的現(xiàn)象感受比較深,希望做一些對(duì)大數(shù)據(jù)分析的概念和方法的澄清,也是因?yàn)槲矣H身參與了一些具體的大數(shù)據(jù)分析工作。

海外網(wǎng):您能否再具體談?wù)劥髷?shù)據(jù)分析中一些需要糾正的關(guān)鍵問題?

沈艷:除了之前說(shuō)到的“有了大數(shù)據(jù),就不再需要抽樣”,大數(shù)據(jù)分析中還有一個(gè)常見的錯(cuò)誤觀點(diǎn)是,只用關(guān)心相關(guān),不用關(guān)心因果。

為什么這是有問題的?舉例來(lái)說(shuō),按照這個(gè)邏輯,“雄雞一唱天下白”可以表述為,假如我知道世界上所有的公雞在什么時(shí)候打鳴,我就可以預(yù)測(cè)什么時(shí)候天亮,而公雞打鳴天就亮這個(gè)現(xiàn)象背后的機(jī)制是不重要的。這個(gè)表述在很多時(shí)候沒有問題,但是也會(huì)有例外,例如有些公雞到下午才打鳴。最核心的問題是,如果我們不懂得公雞為什么打鳴,以此預(yù)測(cè)天亮就很容易不準(zhǔn)確。因此利用相關(guān)關(guān)系總結(jié)規(guī)律是有假設(shè)的,也就是大環(huán)境、相關(guān)的一些因素沒有根本性的變化,比如剛才這個(gè)情景里就是公雞的生物鐘、地球的自轉(zhuǎn)和公轉(zhuǎn)等特征沒有變化。

但是由于數(shù)據(jù)生成是經(jīng)營(yíng)活動(dòng)的附屬產(chǎn)品,而企業(yè)的經(jīng)營(yíng)可能既要經(jīng)歷經(jīng)濟(jì)的繁榮期,也要經(jīng)歷增速不那么快的時(shí)期。如果只關(guān)心相關(guān)而不關(guān)注因果,一些在繁榮期可以表現(xiàn)良好的模式可能在衰退期帶來(lái)極大損失。我們以大數(shù)據(jù)在互聯(lián)網(wǎng)金融中一個(gè)可能的應(yīng)用場(chǎng)景——自動(dòng)化貸款為例來(lái)說(shuō)明這個(gè)問題。傳統(tǒng)的貸款依靠人工審批,速度較慢且存在人為的主觀標(biāo)準(zhǔn),如果能夠利用大數(shù)據(jù)、通過精確算法實(shí)現(xiàn)審批自動(dòng)化,確實(shí)可以降低交易成本,但是要注意,算法成立的基本假定是,機(jī)器學(xué)習(xí)時(shí)所用的樣本和未來(lái)經(jīng)濟(jì)的樣本非常接近,其中的規(guī)律沒有發(fā)生變化。而一旦經(jīng)濟(jì)發(fā)生巨大變化,比如金融危機(jī),這時(shí)候再用先前經(jīng)濟(jì)繁榮時(shí)期的模型去預(yù)測(cè)經(jīng)濟(jì)衰退時(shí)期的狀態(tài),就可能會(huì)出現(xiàn)發(fā)出去大量貸款收不回來(lái)的狀況,因?yàn)?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)里沒有關(guān)于經(jīng)濟(jì)衰退的知識(shí),算法沒有為探測(cè)經(jīng)濟(jì)變化做預(yù)備。就好像正在高速行駛的車輛一直預(yù)設(shè)前方道路是平坦的,當(dāng)它突然遇到懸崖就會(huì)掉下去。

其實(shí)類似的突然變化在數(shù)據(jù)生成過程中會(huì)常常出現(xiàn),因?yàn)榇髷?shù)據(jù)的收集方式和傳統(tǒng)數(shù)據(jù)收集方式有著本質(zhì)的不同。大數(shù)據(jù)是現(xiàn)在一些快速活動(dòng)的副產(chǎn)品,是為企業(yè)的主營(yíng)業(yè)務(wù)服務(wù)的。最早的大數(shù)據(jù)收集始于谷歌,基于人們搜索、瀏覽網(wǎng)頁(yè)時(shí)產(chǎn)生的海量數(shù)據(jù),出現(xiàn)了一些分布式的處理數(shù)據(jù)的系統(tǒng)。對(duì)于谷歌而言,為給用戶提供盡可能快捷便利的搜索工具,這些系統(tǒng)架構(gòu)、算法會(huì)不斷調(diào)整、優(yōu)化。這就給數(shù)據(jù)分析帶來(lái)一個(gè)問題。使用新系統(tǒng)后,由于技術(shù)更新和數(shù)據(jù)分析往往不是同一群人,進(jìn)行數(shù)據(jù)分析的員工并不知道系統(tǒng)已經(jīng)發(fā)生了變化、或者不能深刻體會(huì)這些變化帶來(lái)的數(shù)據(jù)生成規(guī)律的變化,這時(shí)如果只關(guān)心相關(guān)而不了解因果,沿用原本的數(shù)據(jù)分析方法就很可能得出不準(zhǔn)確的結(jié)論。

大數(shù)據(jù)應(yīng)用的效果究竟如何是需要驗(yàn)證的。但現(xiàn)在流行的不少大數(shù)據(jù)分析往往是一個(gè)“黑箱”,企業(yè)做出報(bào)告,直接告知結(jié)論,對(duì)數(shù)據(jù)來(lái)源、處理方式不做說(shuō)明,這中間數(shù)據(jù)使用得好還是不好,外界不太容易驗(yàn)證。所以大數(shù)據(jù)分析非常需要新的人才,他們要能夠理解數(shù)據(jù)的收集過程,并且知道數(shù)據(jù)生成當(dāng)中的一些變化。

數(shù)據(jù)安全立法刻不容緩

海外網(wǎng):很多時(shí)候企業(yè)大數(shù)據(jù)分析展示給公眾的只是一個(gè)結(jié)論,數(shù)據(jù)如何收集、處理無(wú)從得知。這讓我想到信息孤島的說(shuō)法,某些數(shù)據(jù)僅限于某個(gè)部門或者企業(yè)知曉和使用,您認(rèn)為這個(gè)孤島出現(xiàn)的原因是什么?如何改變這種現(xiàn)狀?

沈艷:從我的觀察出發(fā),信息孤島出現(xiàn)有這么幾個(gè)原因。第一,由于在一個(gè)單位內(nèi)部,數(shù)據(jù)的收集整理都是服務(wù)于各部門自身的業(yè)務(wù)需要,于是會(huì)出現(xiàn)各部門在同一指標(biāo)上內(nèi)涵不同的狀況。特別是我們的經(jīng)濟(jì)正在轉(zhuǎn)型,業(yè)務(wù)部門是慢慢成長(zhǎng)起來(lái)的,起初部門A出現(xiàn)的時(shí)候,并不知道未來(lái)會(huì)有部門BCD,當(dāng)部門BCD出現(xiàn)的時(shí)候,也并沒有想到它的信息可能需要和部門A一起使用,這就容易出現(xiàn)部門之間的信息分隔。第二,度量本身是有難度的,因?yàn)榻?jīng)濟(jì)活動(dòng)非常復(fù)雜。我自己長(zhǎng)期參與中國(guó)健康和養(yǎng)老的追蹤調(diào)查,在參與問卷設(shè)計(jì)的時(shí)候就體會(huì)到度量比想象難得多,需要考慮對(duì)各類人群的適用,考慮各種各樣的可能。第三,數(shù)據(jù)共享涉及傳輸,傳輸環(huán)節(jié)的安全責(zé)任劃分如果不清晰,數(shù)據(jù)共享也難以實(shí)現(xiàn)。

當(dāng)然,我國(guó)在改變信息孤島方面,還是做出了不少努力。比如我了解到,我們一些大型國(guó)有銀行在做大數(shù)據(jù)戰(zhàn)略的時(shí)候,首先就會(huì)制定統(tǒng)一的度量標(biāo)準(zhǔn),從某個(gè)時(shí)刻開始,各部門對(duì)于同樣的指標(biāo)采取近似的定義。當(dāng)然這些步驟的實(shí)施并不容易,因?yàn)橛行┛?jī)效和這些度量結(jié)合在一起,統(tǒng)一標(biāo)準(zhǔn)未必對(duì)每個(gè)部門都有利。另外還需要制定一些數(shù)據(jù)的收集標(biāo)準(zhǔn),這樣各方整合數(shù)據(jù)才相對(duì)容易,對(duì)監(jiān)管也更加有利。

不管是一個(gè)單位各部門之間,還是各個(gè)單位之間,數(shù)據(jù)的打通都非常需要專業(yè)人才。它們既要懂得數(shù)據(jù)內(nèi)涵,又要能做打通部門數(shù)據(jù)壁壘工作,要知道目前不同標(biāo)準(zhǔn)之間的異同,哪些數(shù)據(jù)能夠合并而哪些不能。

此外還需要數(shù)據(jù)產(chǎn)品安全級(jí)別的界定。數(shù)據(jù)開放共享并不意味著所有人都可以免費(fèi)得到所有數(shù)據(jù)。開放存在級(jí)別劃分,比如一些數(shù)據(jù)現(xiàn)在僅是在某部門內(nèi)部使用,建立共享平臺(tái)之后,其中的某些數(shù)據(jù)可以在某些程序下被某些人使用。當(dāng)然也要慢慢明確哪些數(shù)據(jù)是公眾可以自由獲得的,開放共享會(huì)是逐步推進(jìn)的過程。

海外網(wǎng):您提到了數(shù)據(jù)安全的問題。大數(shù)據(jù)應(yīng)用使得個(gè)人和企業(yè)的信息安全存在很大隱患,保護(hù)信息安全的立法呼聲也已出現(xiàn)。如今是否到了數(shù)據(jù)安全相關(guān)立法的恰當(dāng)時(shí)機(jī)?

沈艷:信息安全的重要性在大數(shù)據(jù)時(shí)代越發(fā)凸顯,一定程度上是因?yàn)楫?dāng)數(shù)據(jù)的維度越來(lái)越多,就越來(lái)越容易通過特征識(shí)別出具體的個(gè)人。信息安全方面的立法工作是非常重要和緊迫的,由于數(shù)據(jù)泄露,老百姓的損失已經(jīng)確確實(shí)實(shí)存在。一切的監(jiān)管和保護(hù)要有效,還是需要堅(jiān)實(shí)的司法基礎(chǔ)。

關(guān)于個(gè)人數(shù)據(jù)保護(hù)我們要明確的是,個(gè)人數(shù)據(jù)的出賣需要明確的標(biāo)準(zhǔn)。即便在一定情形當(dāng)中,個(gè)人數(shù)據(jù)能夠被一些企業(yè)收集和使用,也要保證憑借這些數(shù)據(jù)不能精確地找到個(gè)人。比如有某人的姓名就不能同時(shí)有他的地址,而且對(duì)于姓名、地址等確切信息要特別注意,對(duì)于同時(shí)擁有這些信息的行業(yè)要有嚴(yán)密的監(jiān)管。

“十三五”規(guī)劃綱要第28章講的就是信息安全保護(hù)的內(nèi)容。在“加強(qiáng)數(shù)據(jù)資源安全保護(hù)”這部分提到了“建立互聯(lián)網(wǎng)數(shù)據(jù)資源資產(chǎn)化和利用授信體制”“加強(qiáng)個(gè)人數(shù)據(jù)保護(hù),嚴(yán)厲打擊非法泄露和出賣個(gè)人數(shù)據(jù)行為”等,希望這些內(nèi)容可以得到很好的執(zhí)行。

所需人才遠(yuǎn)不止數(shù)據(jù)科學(xué)家

海外網(wǎng):歐美一些國(guó)家比我們更早、更快地發(fā)展了大數(shù)據(jù),它們有哪些值得我們借鑒的經(jīng)驗(yàn)?

沈艷:和其他國(guó)家相比,我們?cè)跀?shù)據(jù)的生成和分析上的確有一些需要提高的地方。我們要特別注意,一旦數(shù)據(jù)成為一種資源,就可能會(huì)被操縱。人的利益可以影響數(shù)據(jù),數(shù)據(jù)并不都是干凈、真實(shí)的。

我接觸過國(guó)內(nèi)外一些提供搜索服務(wù)的企業(yè),發(fā)現(xiàn)國(guó)外企業(yè)在搜索詞條排序上的算法是嚴(yán)格根據(jù)用戶點(diǎn)擊率決定的,但是國(guó)內(nèi)有些企業(yè)并非如此,而是將付費(fèi)和不付費(fèi)的信息混雜在一起,也不會(huì)標(biāo)明哪些是廣告。另外,進(jìn)行民意調(diào)查、輿情監(jiān)測(cè)時(shí),問卷設(shè)計(jì)方式也有可能影響受訪者的選擇,生成數(shù)據(jù)的公司可能會(huì)左右結(jié)果。

如果公眾想了解世界的真實(shí)狀況,自然希望拿到客觀的數(shù)據(jù),但是數(shù)據(jù)的不客觀是真實(shí)存在的。如果分析方對(duì)此無(wú)法知曉和辨別,分析結(jié)果就可能出現(xiàn)重大偏差。要改善這個(gè)狀況,需要立法上的一些規(guī)定,也特別需要數(shù)據(jù)分析方面的優(yōu)秀人才來(lái)判斷數(shù)據(jù)的質(zhì)量,甄別什么樣的分析是可靠的、值得信賴的。

海外網(wǎng):您多次提到了對(duì)數(shù)據(jù)分析人才的需要,您是否認(rèn)為大數(shù)據(jù)人才的培養(yǎng)需要國(guó)家政策方面的傾斜和引導(dǎo)?

沈艷:國(guó)家政策目前已經(jīng)對(duì)大數(shù)據(jù)研究有所著力,但是我們還需明確,不只是硬件和軟件的開發(fā)重要,人才的培養(yǎng)更是重要,它觸及產(chǎn)業(yè)健康發(fā)展的核心。

人才不僅是指數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析非常需要優(yōu)秀的跨界人才,既懂關(guān)鍵技術(shù),又懂專業(yè)領(lǐng)域,比如金融、健康、交通。只有滿足了大數(shù)據(jù)產(chǎn)業(yè)對(duì)人才的需求,這個(gè)產(chǎn)業(yè)的發(fā)展才能夠扎實(shí)。這需要國(guó)家層面的引導(dǎo),比如高校的相關(guān)課程、配備都還需要加強(qiáng)。

海外網(wǎng):您說(shuō)數(shù)據(jù)分析需要跨界人才,那對(duì)于高校而言,能不能理解為,不僅是數(shù)據(jù)分析相關(guān)的專業(yè)需要加強(qiáng),其他專業(yè)的學(xué)生也需要這方面的課程?

沈艷:對(duì)的。而且不僅需要培養(yǎng)大批專業(yè)人士,還需要對(duì)決策者和民眾也有相應(yīng)的培訓(xùn)投入。

海外網(wǎng):就目前的經(jīng)濟(jì)和社會(huì)運(yùn)行狀況而言,我們發(fā)展大數(shù)據(jù)具備哪些優(yōu)勢(shì)?您如何看待大數(shù)據(jù)在我國(guó)的發(fā)展前景?

沈艷:過去三十年來(lái),我國(guó)人力資本積累快速,平均增速超過5%,為創(chuàng)新提供了基礎(chǔ)。技術(shù)創(chuàng)新使得許多過去無(wú)法收集的數(shù)據(jù),可以用相對(duì)低廉的成本、在短期內(nèi)被收集。再加上大數(shù)據(jù)已經(jīng)上升到戰(zhàn)略高度,我對(duì)大數(shù)據(jù)產(chǎn)業(yè)在我國(guó)的發(fā)展前景很有信心。如果這個(gè)產(chǎn)業(yè)健康發(fā)展,會(huì)幫助中國(guó)的新經(jīng)濟(jì)成長(zhǎng)起來(lái),讓中國(guó)持續(xù)成為世界經(jīng)濟(jì)的引擎。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }