
10問大數(shù)據(jù)_數(shù)據(jù)分析師
在互聯(lián)網(wǎng)時代,大數(shù)據(jù)炙手可熱,許多人言必稱大數(shù)據(jù),但能夠真正說清大數(shù)據(jù)為何物的人并不多,更遑論如何借助大數(shù)據(jù)挖掘出巨大的商業(yè)價值。究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)有哪些特征?本文旨在厘清大數(shù)據(jù)概念,闡明大數(shù)據(jù)應(yīng)用方式及探究未來大數(shù)據(jù)發(fā)展之道。
Q1:大數(shù)據(jù)是商業(yè)炒作嗎?
業(yè)界給大數(shù)據(jù)的定義是4 個“V”:體量大(Volume)、種類多(Variety)、速度快(Velocity) 和真實性高(Veracity)。但這個定義其實并未抓住大數(shù)據(jù)本質(zhì)。如果僅僅看這幾個維度,大數(shù)據(jù)就是一種炒作,因為它們只是表面現(xiàn)象。
大數(shù)據(jù)的本質(zhì)應(yīng)該是如何為企業(yè)帶來一種更新更好的商業(yè)運作模式,而大數(shù)據(jù)應(yīng)用的成功,也是依靠決策者提出好的商業(yè)問題及與其相關(guān)的商業(yè)模式。這些商業(yè)問題可以非常簡單,但問題背后必須有一系列相關(guān)的商業(yè)模式。
比如,如何運用智能手機應(yīng)用商城的數(shù)據(jù), 來提高對用戶APP 推薦的精度? 隨后,利用應(yīng)用商城的大數(shù)據(jù),可以產(chǎn)生上百萬維的數(shù)據(jù)表,進而建立可靠準(zhǔn)確的推薦模型,使得用戶體驗水平大幅提升。
大數(shù)據(jù)應(yīng)用成功的關(guān)鍵也正取決于是否有一個明確的商業(yè)(或科學(xué))目的,商業(yè)模式的定義是其前提條件。
Q2:數(shù)據(jù)越多越有用?
首先,如果收集大數(shù)據(jù)的目的是建立一個對位置數(shù)據(jù)的預(yù)測模型,那么,得到這一模型的訓(xùn)練數(shù)據(jù)一定要包含所需的信息。但問題恰恰是,事前并不知道哪些特征是重要的,因此,需要把盡量多的數(shù)據(jù)整合起來,讓機器去尋找。
然而,這個問題為什么不能去咨詢該領(lǐng)域內(nèi)的專家們呢?事實證明,專家們雖然會自己解決問題,但大都說不清他們是如何解決這些問題的。這也就是為什么在大數(shù)據(jù)應(yīng)用中,專家的作用更多體現(xiàn)在幫助連接、聚合盡量多的數(shù)據(jù)上。
除 此之外,要建立一個好的預(yù)測模型, 用來訓(xùn)練模型的數(shù)據(jù)總量也要足夠多。如果歷史數(shù)據(jù)少于一定規(guī)模,就會出現(xiàn)所謂“過擬合”(為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜)現(xiàn)象。例如,如果一個服 裝品牌按照某一個模特的身材來設(shè)計,衣服很可能做得偏瘦,以至于絕大多數(shù)其他消費者無法使用。這種“過擬合”現(xiàn)象在建立大數(shù)據(jù)下的預(yù)測模型時也會發(fā)生。
那 么,數(shù)據(jù)的總量越大,是不是預(yù)測模型需要學(xué)習(xí)的時間就一定越長呢?答案是否定的。研究成果表明,在一定條件下, 當(dāng)數(shù)據(jù)變得越大,實際所需要的訓(xùn)練時間反而越短。為什么會這樣呢?可以想象:如果一個學(xué)生在學(xué)習(xí)某種概念時,只有少數(shù)習(xí)題,那么這個學(xué)生想透徹學(xué)會這個概 念,就需要把每一個習(xí)題翻來覆去地看, 加以擴展,這樣學(xué)習(xí)的過程會比較慢。相反,如果他有許多不同類的習(xí)題,只需要把每一個習(xí)題過一遍,即可應(yīng)付未來的大部分情況。因此,習(xí)題多的學(xué)生,學(xué)到同 樣水平的時間反而會短。
Q3:人工智能將超過人類大腦?
經(jīng)過幾十年的探索,可以相信:機器的智能只能從針對大數(shù)據(jù)的學(xué)習(xí)中得來,而大數(shù)據(jù)只能從人與人的交互、人與機器的交互中得來。如果想要這些交互產(chǎn)生足夠多的數(shù)據(jù),就一定要讓這些交互為人類提供有用的服務(wù)。
如 今,什么數(shù)據(jù)最為充分?充分的數(shù)據(jù)首先是最容易被記錄的那一部分,比如語音、圖像、文字等。能不能直接獲取人類大腦活動信息,并以此來充實我們的智能呢? 當(dāng)今的這種技術(shù)(如磁共振腦圖成像技術(shù)) 還不夠精確,因此,通過學(xué)習(xí)得到的系統(tǒng)雖然在單方面可以超過人類大腦(如IBMWatson),但就通用性而言,現(xiàn)階段的人工智能比起人類大腦還差得很 遠!
有沒有可能在不久之后的某天,具有人工智能的機器人成為人類的敵人呢?這是有可能的。但前提是:這些機器人的領(lǐng)袖一定是人類。
Q4:用戶隱私問題如何解決?
隱私問題的出現(xiàn)其實比大數(shù)據(jù)要早, 但隱私真正成為家喻戶曉的議題,卻是在大數(shù)據(jù)成為熱點之后。從斯諾登揭秘到蘋果數(shù)據(jù)上傳,隨著越來越多媒體的爆料,大家對隱私的關(guān)心程度也與日俱增。隱私 問題的最大矛盾在于,一方面,數(shù)據(jù)被嚴嚴實實地包起來,另一方面,它又要被運用來發(fā)現(xiàn)有用的東西,不得不將之開放和上傳。
目前看來,數(shù)據(jù)隱私問題有三個考慮: 1. 技術(shù);2. 用戶利益;3. 社會接受程度。
從技術(shù)上來說,以前有關(guān)數(shù)據(jù)的解決方式大都是把數(shù)據(jù)從終端遷移到計算端(如計算中心),得出結(jié)果后再把結(jié)果送到終端。這種方式無疑會引發(fā)隱私問題,因為一旦數(shù)據(jù)離開用戶的個人終端,就無從保證誰將有權(quán)利接觸數(shù)據(jù),數(shù)據(jù)的隱私也就無從保護了。
要保護隱私,一種新的模式是“計算隨著數(shù)據(jù)走”,也就是利用終端自身的強大計算功能,在終端算好一個結(jié)果(如一個預(yù)測模型,即本地模型),再把這個模型與某 一個通用模型加以整合。這種模式無疑會引入更多計算量與復(fù)雜性,目前還屬于前沿研究領(lǐng)域。這種方法就像是有人要買股票,但又不想別人知道他自己的需求,只 讀取網(wǎng)上有關(guān)股票的信息,與自己知道的需求結(jié)合起來,做出買賣決策。只要每個人足夠聰明,又有足夠的計算能力,這樣的系統(tǒng)就會最大程度地保護每個人的隱 私。
另一種做法是,仍把數(shù)據(jù)傳輸?shù)接嬎阒行模趥鬏斨?,將?shù)據(jù)加以改變, 使其中的關(guān)鍵隱私信息在傳輸和計算中被隱藏起來,讓人無法反推原始的敏感數(shù)據(jù)(如用戶性別、住址等),同時又保證計算結(jié)果的真實性和可用性。實際上,一個 更難的問題是:無論如何隱藏和加密原始數(shù)據(jù),用戶心里總有不放心的一點陰影。由于這個陰影的存在,用戶永遠不會相信一個單純靠技術(shù)的隱私保護計劃??梢灶A(yù) 見,在未來,隱私問題的解決程度將成為用戶選取產(chǎn)品的重要依據(jù)。
可是,大數(shù)據(jù)已經(jīng)來到人們身邊。今天社會上的每個人,實際上都是大數(shù)據(jù)的使 用者。同時,又在不斷暴露自己的隱私。比如,用戶使用免費的電子郵件賬戶,即便知道這些服務(wù)商在挖掘我們的郵件信息;用戶使用搜索引擎詢問各種問題,盡管 這令我們的問題被記錄在案。既然如此,為何用戶在使用大數(shù)據(jù)服務(wù)的時候,依舊樂此不疲呢?答案在于用戶利益與隱私暴露的費用比:如果用戶得到的利益大于個 人數(shù)據(jù)泄露的價值,用戶還是會同意接受并分享這些數(shù)據(jù)的。因此,隱私問題的關(guān)鍵是,如何讓系統(tǒng)和用戶在矛盾中尋找到一個平衡點。
最后,隨著 技術(shù)的發(fā)展,社會對于數(shù)據(jù)分享的接受程度也會改變。上一代人所不能接受的事物,到下一代可能就不是大問題了。Facebook 就是個例子: 實名制允許人們訪問他人的主頁,并看到許多信息,這一點在最開始引起不小的質(zhì)疑,但最后,廣大青少年熱烈地擁抱這一新技術(shù),并紛紛加入其中。
Q5:運營商管道vs 互聯(lián)網(wǎng)用戶大數(shù)據(jù)?
互聯(lián)網(wǎng)與電信運營商的關(guān)系,可以用一個例子來理解:馬路上形形色色的車輛可以視為互聯(lián)網(wǎng),車上所裝的貨物、乘客及運輸系統(tǒng)可以視為互聯(lián)網(wǎng)的數(shù)據(jù)和各種應(yīng)用, 而車輛所走的高速公路類似于運營商提供的管道。對于互聯(lián)網(wǎng)而言,它更關(guān)心乘客和貨物,關(guān)心如何把他們安全送到目的地。但從運營商角度而言,它更關(guān)心的是道 路是否通暢。從這一點來說,互聯(lián)網(wǎng)的數(shù)據(jù)有關(guān)乘客和貨物,運營商的數(shù)據(jù)是車流量、道路擁塞的程度。所以,互聯(lián)網(wǎng)的數(shù)據(jù)是終端用戶數(shù)據(jù),運營商的數(shù)據(jù)是關(guān)于 數(shù)據(jù)的數(shù)據(jù)。
什么是關(guān)于數(shù)據(jù)的數(shù)據(jù)呢?以照片為例,像素點就是數(shù)據(jù),而照片大小、類型、照片文件的產(chǎn)生時間與地點,就是數(shù)據(jù)的數(shù)據(jù)。
數(shù)據(jù)的數(shù)據(jù)在電信行業(yè)意義重大。但其前提是:資源無論到何時都是有限的。管道再寬,也是有限的。那么,從運營商的角度來說,他們希望知道什么呢?還是以車和路來比喻:
你想知道如何為一些重要的??烷_辟一條快速通道嗎?那就首先要知道哪些是重要的???。只有知道了常客的群體,??偷?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征,才能有效抓取到他們。
你想知道哪些重要車輛所屬的公司在受競爭對手的高速公路公司吸引,正考慮換路嗎?那就要分析這些車輛公司的痛點何在。
你想知道哪些路段需要特別維護,并派一些常駐維護車輛駐守嗎?那就需要分析哪些是容易受損的路段。
這 些對數(shù)據(jù)分析的需求隨著運營技術(shù)的前進而提升。在5G 的場景下,運營商需要給大眾提供更密集、更快、更個性化的電信服務(wù),由此也就知道用戶的使用規(guī)律、痛點、服務(wù)軟肋在哪里。一個如影隨形的高端服務(wù)并非由無 數(shù)服務(wù)員在所有用戶可能出現(xiàn)的地方等待,而是由一個聰明的服務(wù)員在用戶需要的時候及時出現(xiàn)。未來的網(wǎng)絡(luò)技術(shù),如軟件定義網(wǎng)絡(luò)(SDN), 就更需要大數(shù)據(jù)的支持:SDN 的大腦可以根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)的深度挖掘所產(chǎn)生的修改,而變得越來越聰明。
Q6:大數(shù)據(jù)和云計算、物聯(lián)網(wǎng)是什么關(guān)系?
如果把整個IT 流程看做一棵樹的話, 物聯(lián)網(wǎng)就是這棵樹的葉子和枝干。如果傳感器網(wǎng)絡(luò)所感知的信息是有關(guān)“人”的信息,比如用戶在網(wǎng)上購買商品的信息,或與人的移動行為和動機相關(guān)的信息,那么 它就會有極大的商業(yè)價值,對這種數(shù)據(jù)的需求也會劇增。人的心理因素是世上最復(fù)雜的,對應(yīng)著某種動機和意識的行為、動作也千差萬別。人與人的關(guān)系組成了無窮 多的維度,而大數(shù)據(jù)正是這些維度疊加而成的。這些數(shù)據(jù)不僅包括人本身的語言、文字、動作、視覺數(shù)據(jù),更是人與人之間關(guān)系的數(shù)據(jù)。凡是與人相關(guān)的活動數(shù)據(jù), 都是最值得收集的數(shù)據(jù),與之相關(guān)的需求則永遠存在。
所以說,關(guān)于人的數(shù)據(jù)才是大數(shù)據(jù)。物聯(lián)網(wǎng)只有考慮到人這種廣義的“物”,才最有價值。否則,物聯(lián)網(wǎng)所傳輸?shù)臄?shù)據(jù)無論從復(fù)雜度還是商業(yè)目的而言,都極為有限。
大數(shù)據(jù)和云計算的關(guān)系則在于,大數(shù)據(jù)的成功應(yīng)用除了“大”,還有三個必要條件:實時在線、對事件的全面描述以及產(chǎn)生差異化的效果。云計算使得這三個必要條件得以滿足。
首先,云計算使人們可以隨時隨地使用存儲和計算,使大量數(shù)據(jù)得以及時被采集和分析。手機上APP 應(yīng)用云的服務(wù)就是一個云計算的例子。由于存儲和計算成本的降低,云計算起到了實時在線的作用, 從而使得更多的人愿意使用云服務(wù),大數(shù)據(jù)的雪球由此可以滾動起來。
云計算的另一個好處是可以實現(xiàn)大規(guī)模的數(shù)據(jù)整合。當(dāng)今世界并不是為大數(shù)據(jù)應(yīng)用準(zhǔn)備的,因為大量數(shù)據(jù)集散落在不同地方,以不同方式存放,其擁有者也是不同的 人。在云計算條件下,很多大規(guī)模數(shù)據(jù)整合的問題都會得到解決。當(dāng)大家數(shù)據(jù)放在一起時,數(shù)據(jù)整合的門檻會大幅降低,因此,大數(shù)據(jù)也會像核物理的聚變一樣, 產(chǎn)生成倍的效果。
Q7:有了大數(shù)據(jù),我們還需要專家嗎?
在大數(shù)據(jù)時代,專家的一部分作用確實可以被大數(shù)據(jù)應(yīng)用所取代。例如,推薦金融產(chǎn)品時,專家需要將特定金融產(chǎn)品推薦給特定客戶。這些客戶有以下特點:接受這一 推薦的可能性很高,同時,對其他客戶的影響力也很強,在接受這一產(chǎn)品的同時,他們很有可能會把產(chǎn)品消息向親朋好友傳播。這一重要的市場工作過去是由專業(yè)的 市場部門經(jīng)理來完成的。然而在大數(shù)據(jù)應(yīng)用中,通過對大數(shù)據(jù)的整合分析得出的大規(guī)模推薦模型的推薦效果,是市場部專家的二十倍以上。
這個例子 說明:首先,在傳統(tǒng)商業(yè)領(lǐng)域,大數(shù)據(jù)的功效確實能夠取代并超越人的作用。在過去的實踐中,市場專家最多能夠判別十幾維的數(shù)據(jù),而數(shù)據(jù)挖掘模型卻可以處理幾 萬維甚至幾千萬維的數(shù)據(jù);其次,取得這么好的效果需要做許多前期工作,如搭建數(shù)據(jù)平臺、整合不同數(shù)據(jù)、建立分析預(yù)測模型,以及利用模型對未來數(shù)據(jù)進行分析 決策。這些研究人員具有三個突出特點:一是非常強的駕馭數(shù)據(jù)管理系統(tǒng)和快速編程的能力,二是和業(yè)務(wù)專家溝通并理解業(yè)務(wù)目標(biāo)及約束能力、分析數(shù)據(jù)的能力,三 是與模型連接并預(yù)測到業(yè)務(wù)決策的能力。具有這些能力的人,我們稱其為數(shù)據(jù)科學(xué)家。
所以,有了大數(shù)據(jù)之后,專家依然是需要的,只不過專家在決 策過程中的作用與焦點改變了:專家已經(jīng)不能獨享成功,而一定要和大數(shù)據(jù)系統(tǒng)共同完成一項復(fù)雜的任務(wù)。大數(shù)據(jù)做了以往專家在數(shù)據(jù)分析領(lǐng)域的工作,但專家對于 專業(yè)領(lǐng)域的價值和經(jīng)驗依舊無法取代。建立數(shù)據(jù)分析模型需要理解業(yè)務(wù)及業(yè)務(wù)目標(biāo),這仍需要專家的研究和貢獻,畢竟外行還是不能領(lǐng)導(dǎo)內(nèi)行。
Q8:大數(shù)據(jù)最適合做什么?
大數(shù)據(jù)的發(fā)展和其他任何技術(shù)的發(fā)展路徑一樣,都需要經(jīng)過“初始化- 極端膨脹- 較大失望- 理性思考- 成功應(yīng)用”這個逐漸成熟的過程。在歷史上,聽起來先進的技術(shù)在這個過程中卻消失的例子比比皆是。那些成功的技術(shù)一定要經(jīng)得起理性的思考和時間的考驗,以找 到它們在實踐中最合適的落腳點。
目前,大數(shù)據(jù)有一個作用可能還沒有被注意到——大數(shù)據(jù)可以連接大量不同的數(shù)據(jù)孤島,使得大數(shù)據(jù)所覆蓋的范圍更大更廣, 也使得大數(shù)據(jù)驅(qū)動的業(yè)務(wù)隨著這個雪球越滾越大。這樣,使用者可以不斷得到新的數(shù)據(jù), 而用戶也能不斷得到新的服務(wù)。
從現(xiàn)在大數(shù)據(jù)成功應(yīng)用的領(lǐng)域來推斷, 應(yīng)用最多的應(yīng)該是集中在對過去事件的存儲、抽取,以及對不同數(shù)據(jù)的聚合聯(lián)通、總結(jié)統(tǒng)計上。大數(shù)據(jù)聚合的重要作用之一是關(guān)聯(lián)不同數(shù)據(jù)之間發(fā)生的個別事件。通 過連通,實時發(fā)現(xiàn)事件真相。有了這樣的數(shù)據(jù)就可以做以下分析:某個事件在發(fā)生的同時還會發(fā)生什么其他事件?如何通過過去數(shù)據(jù)來預(yù)測未來可能發(fā)生的事件?如 何能夠自動建議,用某種行為來促使某些事件發(fā)生,或保證某些事件不發(fā)生?等等。
Q9:大數(shù)據(jù)不能做什么?
大數(shù)據(jù)明顯不是萬能的,那么,大數(shù)據(jù)不能做什么呢?
不能替代有效的商業(yè)模式。大數(shù)據(jù)的應(yīng)用不能沒有商業(yè)模式,比如如何在大數(shù)據(jù)業(yè)務(wù)中為用戶帶來價值,使得數(shù)據(jù)成長和商業(yè)增長同步等等。而商業(yè)模式顯然不是能從大數(shù)據(jù)本身挖掘的,而是由具備豐富經(jīng)驗的專家來確定的。
不能沒有領(lǐng)導(dǎo)的決斷力。在今天的大部分公司中,數(shù)據(jù)的存在形式無異于一個個孤島。把這些數(shù)據(jù)整合起來不僅是個技術(shù)活,還有很強的管理因素。往往在同一個公司 的不同部門會有很多競爭,數(shù)據(jù)就是一個部門的資產(chǎn)。雖然把幾種不同數(shù)據(jù)聚合在一起會很有價值,但能真正做到這一點的公司卻會發(fā)現(xiàn),要成功做到數(shù)據(jù)整合需要 更高級領(lǐng)導(dǎo)的決斷力。這也是為什么一些很有前瞻性的公司會專門有一個部門來負責(zé)全公司的數(shù)據(jù)業(yè)務(wù)。
不能無目的地挖掘。在大數(shù)據(jù)的初學(xué)者當(dāng)中,有一個普遍的錯覺:當(dāng)我們有了足夠的數(shù)據(jù),就可以在其中漫無目的地找到知識。這樣的錯覺實際上是不科學(xué)的。數(shù)據(jù)挖掘需要約束與目標(biāo),否則就是大海撈針,必然是徒勞的。比如,開普勒的成功是建立在以太陽為焦點的橢圓形假設(shè)上的。
不能沒有專家。上文提到,大數(shù)據(jù)在不同應(yīng)用領(lǐng)域會需要不同的專業(yè)知識來指導(dǎo)。而不同的領(lǐng)域, 需要專家們的參與程度也會不同。G o o g l e 實驗室有一個在大量圖片和視頻數(shù)據(jù)中, 讓計算機自動識別貓臉的例子。但這樣的深度學(xué)習(xí)很難推廣到其他大數(shù)據(jù)的領(lǐng)域。因為,成功的先決條件之一是該領(lǐng)域本身具有非常直觀的層次結(jié)構(gòu), 就像圖片的構(gòu)成一樣。如果某個領(lǐng)域的數(shù)據(jù)不具備這樣的層次結(jié)構(gòu), 就很難用同樣的方法自動發(fā)現(xiàn)規(guī)律。而這樣一個結(jié)構(gòu)是需要數(shù)據(jù)科學(xué)家來定義的。
不能一次建模, 終生受益。一個好的模型需要不斷更新, 需要終生學(xué)習(xí)(Lifelong Machine Learning) 來不斷改進。例如,在奧巴馬的競選中,科學(xué)家建立了一個用戶投票模型,來預(yù)測選民可能的立場,而這個模型是每周利用更新的數(shù)據(jù)來更新一次的。
不擅長做全局性的優(yōu)化分析。大數(shù)據(jù)下的主要數(shù)據(jù)處理方法是“分而治之”,即把大的數(shù)據(jù)分為小塊,一塊一塊地處理, 然后再把結(jié)果合并。這個過程也許要經(jīng)過很多次,但總的思想是這樣分化、合并之后的結(jié)果,與全局計算的結(jié)果是一樣的。但是,還有很多問題是不能這樣來解決 的。比如,在下圍棋的時候,每一個棋子的目的可能和整個戰(zhàn)略都相關(guān),所以分而治之的想法是行不通的。
不能沒有對其語義的標(biāo)注。目前只能通過 對數(shù)據(jù)的標(biāo)識賦予其意義。比如,推薦系統(tǒng)在沒有用戶反饋的情況下效果很差,而通過現(xiàn)有的心理學(xué)模型等加強其效果都無效。一般來說,如果試圖從數(shù)據(jù)中發(fā)現(xiàn)知 識,則需要大量的數(shù)據(jù)標(biāo)注。往往在一個和用戶有直接互動的應(yīng)用中是可以得到這樣的標(biāo)識數(shù)據(jù)的。要得到大量的標(biāo)識數(shù)據(jù),不僅需要一個平臺來承載有用的應(yīng)用, 而且需要一個對人、對大數(shù)據(jù)系統(tǒng)的雙贏經(jīng)濟學(xué)模型。
不能僅用有偏的數(shù)據(jù)。數(shù)據(jù)一定要全面地反映未來, 對各個方面都有所涉及。如果數(shù)據(jù)是有偏的,則很難對未來進行有效地判斷。
不能保證包含有效的信息。當(dāng)數(shù)據(jù)中的關(guān)鍵特征缺失時,大數(shù)據(jù)就無法矯正數(shù)據(jù)與現(xiàn)實之間的偏差,尤其是對于那種與人的心理和行為相關(guān)的數(shù)據(jù),非常容易產(chǎn)生偏 差。問題的關(guān)鍵是:研究之前,專家并不知道哪些特征是關(guān)鍵特征。比如股價受到“黑天鵝”事件影響,使得無法用大數(shù)據(jù)預(yù)測關(guān)鍵事件發(fā)生的概率。這就像一個輸 入管道:垃圾輸入導(dǎo)致垃圾輸出。這也是為什么某些電影的實際票房和從網(wǎng)上評價數(shù)據(jù)得來的結(jié)果是背道而馳的。
不能保證減小噪音。這是因為在大數(shù)據(jù)里面,噪音數(shù)據(jù)的出現(xiàn)往往會以有意義的模式的形式出現(xiàn),從而騙過知識挖掘系統(tǒng)。這樣,大數(shù)據(jù)可能帶來更大的噪音。
Q10:后大數(shù)據(jù)時代的技術(shù)趨勢是什么?
大數(shù)據(jù)所帶來的變革,只不過是計算機技術(shù)為整個人類帶來變革當(dāng)中的一步。計算機從上世紀五十年代起,就在人類歷史上開始了潛移默化的革命。這個革命的根本標(biāo) 志就是人類社會和行為的數(shù)字化,以及兩個世界(物理世界和虛擬世界)的無縫融合。在這場革命中,人類傳統(tǒng)的行業(yè)一個接一個被數(shù)字化行業(yè)取代:從金融系統(tǒng)到 電子商務(wù),從機器人制造到無人駕駛汽車……
所以,大數(shù)據(jù)變革與人類歷史上其他重要變革是一樣的,需要經(jīng)過資源( 即大數(shù)據(jù)) 的原始積累,商業(yè)和社會服務(wù)的差異化,直到人類對虛擬世界的行業(yè)、社會進行再規(guī)范,以解決數(shù)據(jù)資源分配。這個歷史過程在上一個工業(yè)革命(十八世紀機器革 命)時經(jīng)過了一百多年,但在這一次的革命中,將以更快的形式發(fā)生。
以此推論,由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的、面向數(shù)字化行業(yè) 的轉(zhuǎn)變, 這使得現(xiàn)在物理世界里的眾多傳統(tǒng)行業(yè)將全面或部分地轉(zhuǎn)向數(shù)字世界,進行融合。這個轉(zhuǎn)變也讓許多領(lǐng)域以另一種形式出現(xiàn), 使得許多行業(yè)在整體“食物鏈條”上下游有所改變。到了那一天,醫(yī)生、科學(xué)家和教師等“高大上”行業(yè)是否會成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集和解釋分析結(jié)果的 “工人”? 或是成為在大數(shù)據(jù)驅(qū)動下的人工智能機器人的伙伴?這些都引人深思。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10