
大數(shù)據(jù)分析挖掘技術(shù)及其決策應(yīng)用
首先非常感謝成電給我們提供了這樣一個交流的平臺,讓世界各地的青年學(xué)者來到成電,進行學(xué)術(shù)與思想的深度交流。我是做數(shù)據(jù)挖掘和商務(wù)智能方面的研究,主要利用數(shù)據(jù)挖掘做經(jīng)濟金融方面的應(yīng)用,達到商務(wù)智能的目的。
我主要從三個方面來展開:影響未來的十大技術(shù)、大數(shù)據(jù)分析挖掘技術(shù)和大數(shù)據(jù)分析挖掘應(yīng)用。
影響未來的十大技術(shù)
首先,我們講影響未來的十大技術(shù),就是要讓大家了解世界發(fā)展的大趨勢,特別是技術(shù)發(fā)展大趨勢。了解世界大勢有助于大家在未來工作學(xué)習(xí)中把握方向、掌控未來。實際上,這十大技術(shù)不是我提出的,我只是總結(jié)了世界上最大的咨詢公司麥肯錫公司和Gartner集團的一些相關(guān)資料。
我們來看第一項,3D打印和個性化制造?,F(xiàn)在全世界都在談?wù)摴I(yè)4.0,探討制造業(yè)如何才能實現(xiàn)柔性化以滿足個性化,這個話題與3D技術(shù)是密切相關(guān)的。我在這里展示了一些案例,例如3D技術(shù)如何打造房屋、機械設(shè)備、飛機、汽車,甚至還可以打印人體生命器官。特別是在人體器官打印上,這是一個非常重要的進步,今后人體器官移植的來源可能主要依靠3D打印技術(shù)。可能大家也知道,目前人體器官移植的來源主要靠捐贈,但這里面供給遠(yuǎn)遠(yuǎn)低于需求,這就是造成了人體器官買賣存在著一個非常大的黑市。我想,如果3D技術(shù)能夠打造適合人體的生命器官,這將給廣大需要移植器官的病人一個千載難逢的機會,并在一定程度上可以遏制人體器官黑市的買賣。
第二個技術(shù)是量子計算,我們現(xiàn)在的計算技術(shù)的基本架構(gòu)還在上個世紀(jì)五十年代的基礎(chǔ)之上做變革,但這樣的變革目前已經(jīng)遇到了一個難以突破的瓶頸。盡管從上個世紀(jì)六十年代開始集成電路一直滿足摩爾定律,一個典型的例子就是集成電路越做越精細(xì),即在集成電路芯片上集成的晶體管越來越多,芯片的體積卻越做越小。但實際上這是有極限的,因為我們不可能把芯片做到無限小。目前我們就處于這個極限的當(dāng)口,怎么把極限打破,量子計算是一個重要的核心技術(shù)。
第三個就是云計算。這是一個幾年前熱炒的概念,時間關(guān)系我就不具體展開。這里舉一個例子就是阿里巴巴“雙十一”的促銷,2014年阿里巴巴“雙十一”單日成交量達到570億,從表面上看,這似乎是一個商業(yè)促銷計劃,但實際上是新經(jīng)濟的崛起,背后的技術(shù)支撐就是我們的所說的云計算平臺。試想,一天之內(nèi)這么大的交易量,這么高的點擊率,如何支持這樣的計算量保證不出差錯并且服務(wù)器不宕機,支持這種交易的背后,依靠的是云計算平臺。
第四個就是大數(shù)據(jù),這也是我們今天重點要講的內(nèi)容。因為我來自管理學(xué)院,我今天講的側(cè)重點就是大數(shù)據(jù),以及它在管理決策方面的一些實際應(yīng)用。那我們先來看一看,大數(shù)據(jù)提出的時間點。
我們都知道雅虎公司1994年成立,1996年上市,它最早做的工作就是把互聯(lián)網(wǎng)上的所有網(wǎng)頁分類整理,因為當(dāng)時的互聯(lián)網(wǎng)混亂無序,它所做的這個工作取得了極大的成功,成為上個世紀(jì)90年代中期的風(fēng)云企業(yè),那個時候它是大學(xué)畢業(yè)生非常想去的一個公司。但那個年代我們只能被動地看網(wǎng)頁,不能與網(wǎng)上的內(nèi)容進行互動,就像傳統(tǒng)電視節(jié)目一樣只能被動的觀看,我們稱為Web1.0的時代,雅虎的鼎盛時期是8年,他在2004年被1998年成立的Google公司所超越,因為Google公司于2004年成功上市。其實,Google所做的工作很簡單,就是主題詞的集合,還沒有跨越一個時代,我們把它叫做Web1.5時代,它的鼎盛時期也是8年,Google公司的風(fēng)頭被2012年上市的Facebook(臉譜公司)所蓋過,由于它的出現(xiàn),實現(xiàn)了網(wǎng)絡(luò)用戶之間以及網(wǎng)絡(luò)用戶與網(wǎng)站服務(wù)提供商之間的良性互動,我們稱它為Web2.0的時代,這是一個以社交媒體為頂峰的時代。今天,我們每個人都在這個網(wǎng)絡(luò)空間中進行互動,例如利用微博、微信來實現(xiàn)互動。如果按照8年鼎盛期的規(guī)律,那我們試想下一個八年是誰的天下?是大數(shù)據(jù)的天下還是Web3.0的時代,還是其他的什么情況呢?我的猜測是利用大數(shù)據(jù),讓你的計算機和移動互聯(lián)設(shè)備更加“懂你”。
第五個技術(shù)是,新一代的移動互聯(lián)網(wǎng)。從1994年中國科學(xué)院的第一根互聯(lián)網(wǎng)專線聯(lián)通國際互聯(lián)網(wǎng)開始,隨著信息技術(shù)的飛躍發(fā)展,我們從PC時代逐漸發(fā)展到移動互聯(lián)時代?。今天,我們每個人幾乎都是移動互聯(lián)的主體,在座的每一位學(xué)者都可以通過你的手機、IPAD、只能穿戴式設(shè)備與互聯(lián)網(wǎng)進行連接,與地球村的朋友進行實時互動。因此,新一代移動互聯(lián)網(wǎng)是下一個互聯(lián)網(wǎng)金礦,也是一個不可阻擋的潮流。
第六個就是物聯(lián)網(wǎng)。物聯(lián)網(wǎng)技術(shù)于2008年前后在中國熱得一塌糊涂。隨著信息技術(shù)的不斷發(fā)展,現(xiàn)在的概念已經(jīng)從物聯(lián)網(wǎng)(Internet of Things, IoT)進化到萬物互聯(lián)(Internet of Everything, IoE),最終要實現(xiàn)人與人、物和物、人與物的高度互聯(lián)。
第七個就是先進機器人。現(xiàn)在發(fā)達國家的勞動力特別貴,中國面臨的老齡化問題非常嚴(yán)重,未來的勞動力如何解決?先進機器人很可能是最好的替代品。
第八個技術(shù)是與我們?nèi)梭w密切相關(guān)的下一代基因組。這里面許多學(xué)生物的同事比較了解,里面有很多高科技的東西。例如,美國Apple公司的CEO,喬布斯先生患胰腺癌后還能延長2年以上壽命就是基因組的功勞。
第九個就是移動終端技術(shù)。在座的每一位手上都會有很多終端的設(shè)備,例如,手機、iPad、智能手表等穿戴式設(shè)備。這也是一個大趨勢,未來很多工作大家都在手頭上就做完了,這是移動終端技術(shù)帶來的便捷性。
最后一個就是增強現(xiàn)實技術(shù)。增強現(xiàn)實是虛擬現(xiàn)實技術(shù)的改進版,利用一些可穿戴設(shè)備,我們可以進入到虛擬空間做現(xiàn)實世界想做的事情。由于時間關(guān)系,有興趣的同事可以私下去找資料去詳細(xì)了解,這里不再詳細(xì)展開。
大數(shù)據(jù)分析挖掘技術(shù)
大家可能知道,2012年3月29日美國奧巴馬政府公布了“大數(shù)據(jù)研發(fā)計劃”,這個計劃的目標(biāo)是改進現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,從而加速美國在科學(xué)與工程領(lǐng)域領(lǐng)先的步伐,增強國家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式。這是繼美國克林頓政府1993年開始“信息高速公路”計劃的又一個重大計劃,意在搶占新的高科技的最高點。從那時起,全球就開始熱炒大數(shù)據(jù)的概念。實際上,大數(shù)據(jù)包括的內(nèi)容很多,主要包括4大類:互聯(lián)網(wǎng)大數(shù)據(jù)、國家大數(shù)據(jù)企業(yè)大數(shù)據(jù)和個人大數(shù)據(jù)。
大數(shù)據(jù)除了數(shù)據(jù)量大之外,數(shù)據(jù)的結(jié)構(gòu)也是日趨復(fù)雜,還有很多半結(jié)構(gòu)、非結(jié)構(gòu)化的數(shù)據(jù)。目前,對于大數(shù)據(jù)的特征有有3V、4V和5V之分?!?/span>3V”就是前面說到的體量大(Volume)、類型多(Variety)、速度快(Velocity);“4V”在3V基礎(chǔ)上增加了價值性(Value);而“5V”是在4V基礎(chǔ)上增加了準(zhǔn)確性(Veracity)。這里我們一一展開加以說明,體量大好理解,就是數(shù)據(jù)規(guī)模很大,基本上都是TB級為基本單位;類型多是指大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù);速度快是指很多大數(shù)據(jù)需要在一定的時間限度下得到及時處理。價值性是指大數(shù)據(jù)包含很多深度的價值,大數(shù)據(jù)分析挖掘和利用將帶來巨大的商業(yè)價值。例如,一個單獨的數(shù)據(jù)就像超市里的一個購物小票,幾乎是沒有價值的,但是匯聚在一起就可能產(chǎn)生了巨大的價值,沃爾瑪“啤酒與尿布”就是一個典型案例。再一個就是準(zhǔn)確性,即大數(shù)據(jù)處理的結(jié)果要保證一定的準(zhǔn)確性。例如,有一段兩個小時監(jiān)控視頻,我們要找到其中一個關(guān)鍵犯罪證據(jù),可能只有其中5-6秒的圖像是有價值的。我們怎么找到這5-6秒,那就是我們大數(shù)據(jù)分析和挖掘要發(fā)揮作用的地方。
接下來,我們要考慮當(dāng)前和未來怎么來應(yīng)對大數(shù)據(jù),我們現(xiàn)在的架構(gòu)還是分布式的計算。當(dāng)前有軟硬件的應(yīng)對方案,在硬件上基本是應(yīng)用PC服務(wù)器集群,比如,Google公司有百萬臺的服務(wù)器集群,國內(nèi)的阿里巴巴、騰訊和百度都有大量的PC服務(wù)器集群。近些年,阿里巴巴通過云計算平臺的建設(shè),目前應(yīng)該建成了世界上最大的PC服務(wù)器集群,主要通過異構(gòu)硬件的整合,把大型機、小型機和PC機進行整合,實現(xiàn)虛擬化計算能力。在軟件上主要采取軟件虛擬化技術(shù),通過應(yīng)用虛擬化和程序語言虛擬化。這些技術(shù)可能很多在這個領(lǐng)域的同事比我更了解,我這里也不展開講。
接下來應(yīng)對大數(shù)據(jù)的一個工具就是內(nèi)存計算。我們說大數(shù)據(jù)的價值之一就是速度要快,那怎么來實現(xiàn)速度快?加速數(shù)據(jù)的訪問就是內(nèi)存計算可以發(fā)揮作用的一個重要場合。傳統(tǒng)的通過磁盤讀取時需要五個毫秒,而通過內(nèi)存的讀取只需要五個納秒。現(xiàn)在我們用多核內(nèi)存讀取數(shù)據(jù),就是大數(shù)據(jù)的一個重要處理方法。另一個就是最小化數(shù)據(jù)的傳輸,未來的數(shù)據(jù)傳輸方式將要改變傳統(tǒng)從應(yīng)用層到數(shù)據(jù)層的弊端,改為從數(shù)據(jù)層再到應(yīng)用層。這里HANA是SAP公司推出的一個高性能分析查詢的一個具體應(yīng)用,也是內(nèi)存計算的典型案例。
再一個就是數(shù)據(jù)分布式處理和挖掘的軟件。像報表、查詢、多維分析、警報等都可以比較容易地實現(xiàn),但預(yù)測、預(yù)警、優(yōu)化等怎么來實現(xiàn)?大數(shù)據(jù)分析挖掘還存在著很多的瓶頸。
最后一個大數(shù)據(jù)處理技術(shù)就是分布式云分析的數(shù)據(jù)挖掘引擎。我們傳統(tǒng)分析挖掘?引擎是以數(shù)據(jù)找算法,排隊等待計算,速度緩慢。那我們未來面對分布式云分析的大數(shù)據(jù)挖掘引擎,是用算法去找數(shù)據(jù),即云端程序下沉找到數(shù)據(jù)在客戶端進行計算以后,再把結(jié)果返回存到云端。這就是我們未來從事大數(shù)據(jù)分析挖掘要體現(xiàn)的一個重大變化。實際上,大數(shù)據(jù)概念炒得很熱,真正能在未來大數(shù)據(jù)中發(fā)揮作用的是我們的數(shù)據(jù)分析師和數(shù)據(jù)挖掘專家。他們是大數(shù)據(jù)時代真正的淘金者。為什么要這樣講?我們講到剛才兩小時的視頻中你要找到5-6秒的有用信息。怎么找?那就是大數(shù)據(jù)分析和挖掘發(fā)揮作用的地方。
大數(shù)據(jù)的具體應(yīng)用
大數(shù)據(jù)如何應(yīng)用,是每個人都應(yīng)該關(guān)注的問題。可以毫不夸張的說,大數(shù)據(jù)可以提升政府的治理能力,改進企業(yè)的決策水平,改變我們每一個人的生活。
首先,從國家角度,大數(shù)據(jù)可以治國。我們這里舉“克強指數(shù)”的例子。十八大以來,李克強總理對于經(jīng)濟的發(fā)展情況除了聽取相關(guān)政府職能部門的匯報以外,他自己主要看三個數(shù)據(jù),一個是供電量,一個是貸款發(fā)放量,一個是鐵路貨運量。這三個量與我們國家的經(jīng)濟增長,工業(yè)企業(yè)利潤增長,都是高度相關(guān)的。這三個量看起來與GDP增長關(guān)系不大,但很關(guān)鍵,讓我們的總理很容易就掌握了經(jīng)濟發(fā)展的情況,看來我們的總理是大數(shù)據(jù)時代的弄潮者。
大數(shù)據(jù)在政府的應(yīng)用還有很多,比如醫(yī)療衛(wèi)生方面,利用網(wǎng)上商店藥品的銷售,可以做某些地區(qū)的流行疾病的預(yù)測。一個典型例子就是,通過淘寶網(wǎng)的數(shù)據(jù)來看購買板藍(lán)根的情況,通過阿里巴巴的數(shù)據(jù)信息,我們可以成功預(yù)測禽流感疫情和流行區(qū)域。另外,公共安全、交通、反恐、應(yīng)急、防洪防旱都可以用大數(shù)據(jù)來做。
在企業(yè)里,典型應(yīng)用就是在電子商務(wù)領(lǐng)域中的精準(zhǔn)營銷。一個體驗就是你在網(wǎng)上買書或買商品之后,經(jīng)常你會發(fā)現(xiàn)第二天就會收到一些與你買的物品相關(guān)聯(lián)的商品促銷信息,商家利用大數(shù)據(jù)分析掌握了你的需求,從而實現(xiàn)精準(zhǔn)營銷。還有一個典型的例子就是互聯(lián)網(wǎng)金融。大家在淘寶、天貓上購買商品,這些記錄幫助阿里巴巴建立起了一個上億人的互聯(lián)網(wǎng)信用記錄。根據(jù)這個網(wǎng)絡(luò)信用技術(shù),阿里巴巴現(xiàn)在開辟了一個做金融服務(wù)公司。也許,好多年后,阿里巴巴讓人引以為豪的不是它的電子商務(wù),而是他的互聯(lián)網(wǎng)金融。
另外,企業(yè)中的很多制造業(yè),包括能源監(jiān)控、人員調(diào)度、安全監(jiān)控、物流通信等都有大量的大數(shù)據(jù)應(yīng)用空間。在電子商務(wù)領(lǐng)域買家分析廣告投放優(yōu)化、行業(yè)市場的份額等。
對于個人來講,很多做大數(shù)據(jù)挖掘的人都見過關(guān)于Google關(guān)于電影票房預(yù)測的例子。電影票房預(yù)測由于有很多不確定性,其實很困難。但是Google公司只是利用了網(wǎng)上搜索電影宣傳片的搜索量,就很好地預(yù)測了一部新電影的票房。
在大數(shù)據(jù)時代,我們?nèi)绾未髷?shù)據(jù)情景下的決策。美國邁阿密大學(xué)工程學(xué)院院長、美國工程院院士James Tien等總結(jié)出了大數(shù)據(jù)時代決策問題的一些特點,指出:全球供應(yīng)鏈管理問題、全球經(jīng)濟監(jiān)測預(yù)測預(yù)警與政策仿真系統(tǒng)、全球風(fēng)險下金融市場投資決策問題、大型城市交通決策支持系統(tǒng)、大型城市社會管理問題、大型城市醫(yī)院管理決策支持系統(tǒng)、大型城市應(yīng)急管理決策問題、大型城市物流配送決策支持系統(tǒng)、大型城市環(huán)境監(jiān)測決策支持系統(tǒng)、大型交易平臺數(shù)據(jù)挖掘問題、Social Media Data挖掘問題、Social Business、決策劇場等問題是未來從事大數(shù)據(jù)決策領(lǐng)域的一些重要問題。
最后,我借助李嘉誠曾經(jīng)說過的一段話來結(jié)束我今天的演講。他說說:“雞蛋,從外打破是食物,從內(nèi)打破是生命。人生亦是,從外打破是壓力,從內(nèi)打破是成長。如果你等待別人從外打破你,那么你注定要成為別人的食物;如果你自己能從內(nèi)打破,那么你會發(fā)現(xiàn)自己的成長相當(dāng)于一種重生”。所以說身處在大數(shù)據(jù)時代,我們是被從外面打破成為別人的食物,還是從內(nèi)部打破重生成長,成為時代的引領(lǐng)者?我想對于在座的各位,這個打破就是我們自己就趕緊從國外回來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11