
觀察大數(shù)據(jù)行業(yè)的整體生態(tài)結(jié)構(gòu)
作為該系列的開(kāi)篇文章,本期我們將從宏觀的角度帶你觀察大數(shù)據(jù)行業(yè)的整體生態(tài)結(jié)構(gòu),對(duì)大數(shù)據(jù)采集、數(shù)據(jù)的分布式存儲(chǔ)與處理,以及在此基礎(chǔ)之上的數(shù)據(jù)分析、可視化和在眾多行業(yè)中的應(yīng)用進(jìn)行概述。其后的每篇文章我們都會(huì)挑選大約5個(gè)行業(yè)的數(shù)十家典型公司進(jìn)行詳細(xì)介紹,并會(huì)對(duì)其中一個(gè)重點(diǎn)行業(yè)進(jìn)行邏輯的梳理與詳細(xì)案例的剖析。那么首先我們就來(lái)說(shuō)說(shuō)大數(shù)據(jù)技術(shù)是如何產(chǎn)生的?
早在1980年,著名未來(lái)學(xué)家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數(shù)據(jù)”稱(chēng)頌為 “第三次浪潮的華彩樂(lè)章”,這標(biāo)志著人們首次對(duì)海量數(shù)據(jù)所能夠產(chǎn)生的價(jià)值有了初步的了解。
但由于連接方式的局限,長(zhǎng)期以來(lái)人們對(duì)于數(shù)據(jù)的應(yīng)用大多以企業(yè)內(nèi)部的商業(yè)智能為主,隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的普及,企業(yè)終于能夠直接與用戶(hù)產(chǎn)生鏈接并獲得大量的用戶(hù)行為與消費(fèi)等數(shù)據(jù),大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用的輪廓才漸漸清晰。
2000年初Google為了實(shí)現(xiàn)對(duì)大量網(wǎng)頁(yè)的信息抓取、存儲(chǔ),并完成索引的建立及排序功能,同時(shí)又希望降低硬件采購(gòu)成本而逐漸摸索出了利用普通物理機(jī)實(shí)現(xiàn)的分布式存儲(chǔ)、計(jì)算體系。這一技術(shù)以MapReduce及GFS而為人所熟知,借此大數(shù)據(jù)得以分布存儲(chǔ)在多個(gè)數(shù)據(jù)庫(kù)中,并進(jìn)行大規(guī)模并發(fā)處理,解決了以往單一計(jì)算機(jī)存儲(chǔ)能力不夠,計(jì)算時(shí)間過(guò)長(zhǎng)而不具備實(shí)用性的問(wèn)題。
依據(jù)2003年底Google所發(fā)布的論文,前雅虎工程師開(kāi)發(fā)出了類(lèi)似的分布式存儲(chǔ)計(jì)算技術(shù)Hadoop,隨后圍繞Hadoop產(chǎn)生了龐大的生態(tài)體系,逐漸使大數(shù)據(jù)基礎(chǔ)架構(gòu)日臻完善。
Hadoop功能包括從數(shù)據(jù)采集、存儲(chǔ)、分析、轉(zhuǎn)運(yùn)、再到頁(yè)面展示,完整涵蓋了整個(gè)流程。例如HDFS實(shí)現(xiàn)了數(shù)據(jù)的分布式存儲(chǔ),HBase負(fù)責(zé)實(shí)現(xiàn)數(shù)據(jù)庫(kù)的功能,F(xiàn)lume執(zhí)行對(duì)數(shù)據(jù)的收集,Sqoop能夠?qū)?shù)據(jù)進(jìn)行轉(zhuǎn)移、治理, MapReduce可以通過(guò)算法實(shí)現(xiàn)分布式計(jì)算,Hive則做數(shù)據(jù)倉(cāng)庫(kù),Pig做數(shù)據(jù)流處理,Zookeeper實(shí)現(xiàn)了各節(jié)點(diǎn)間的反饋收集與負(fù)載平衡服務(wù),Ambari能夠讓管理員了解架構(gòu)整體的工作運(yùn)行情況。
Hadoop生態(tài)技術(shù)架構(gòu)
而隨著技術(shù)的發(fā)展,一些適應(yīng)獨(dú)特應(yīng)用場(chǎng)景的數(shù)據(jù)庫(kù)、計(jì)算處理等軟件也越發(fā)豐富,例如非結(jié)構(gòu)化數(shù)據(jù)庫(kù)MongoDB就因?yàn)槠漭^為強(qiáng)大的條件查詢(xún)功能以及靈活的數(shù)據(jù)結(jié)構(gòu)獲得了廣泛的應(yīng)用;Spark則將Hadoop中的存儲(chǔ)介質(zhì)替換為閃存,而獲得了百倍處理速度的增長(zhǎng),Databricks Cloud就是這一架構(gòu)下的產(chǎn)品化服務(wù)。
除此之外大數(shù)據(jù)生態(tài)中還存在著很多的技術(shù)發(fā)展路徑,其中MPP技術(shù)主要還是以關(guān)系型數(shù)據(jù)庫(kù)為主和Hadoop技術(shù)目標(biāo)類(lèi)似,都為了將數(shù)據(jù)切分、獨(dú)立計(jì)算后再匯總。相對(duì)于SQL on Hadoop,MPP具有數(shù)據(jù)優(yōu)化程度高、計(jì)算速度快,擅長(zhǎng)被用于進(jìn)行交叉分析等優(yōu)點(diǎn),適合企業(yè)進(jìn)行數(shù)據(jù)分析使用,但其擴(kuò)展性相對(duì)Hadoop來(lái)說(shuō)較弱,一般在10個(gè)節(jié)點(diǎn)以上便喪失了計(jì)算優(yōu)勢(shì),并且由于非開(kāi)源架構(gòu)導(dǎo)致其對(duì)特定硬件依賴(lài)程度較高。
采用MPP存儲(chǔ)模式的代表性公司有Teradata,能夠通過(guò)進(jìn)行企業(yè)數(shù)據(jù)分析幫助員工減輕大數(shù)據(jù)處理的精力消耗與費(fèi)用成本,使企業(yè)能夠更加專(zhuān)注于業(yè)務(wù)運(yùn)營(yíng)。在傳統(tǒng)數(shù)據(jù)庫(kù)公司與意圖進(jìn)入數(shù)據(jù)庫(kù)市場(chǎng)的企業(yè)服務(wù)公司(例如SAP)掀起的收購(gòu)熱潮中,Teradata是目前市場(chǎng)僅存的幾家大型獨(dú)立數(shù)據(jù)分析公司之一。
2011年麥肯錫發(fā)布了一份題為“Big Data: The Next Frontier for Innovation, Competition and Productivity”的報(bào)告,里面提到美國(guó)擁有1000人以上規(guī)模的公司平均存儲(chǔ)了超過(guò)200T的數(shù)據(jù),如果對(duì)數(shù)據(jù)進(jìn)行價(jià)值挖掘?qū)⒓ぐl(fā)很多行業(yè)及公司的潛力,這一報(bào)告標(biāo)志了商業(yè)領(lǐng)域大數(shù)據(jù)熱潮的開(kāi)端,也使企業(yè)服務(wù)軟件成為了大數(shù)據(jù)最初的數(shù)據(jù)源。
隨著存儲(chǔ)及計(jì)算能力的加強(qiáng)和國(guó)內(nèi)大數(shù)據(jù)產(chǎn)業(yè)的興起,部分從業(yè)者在看到行業(yè)巨大前景的同時(shí)也意識(shí)到了國(guó)內(nèi)數(shù)據(jù)資源的缺乏,由于民生、電信、交通、電力等具有很高價(jià)值的數(shù)據(jù)都掌握在政府及大型國(guó)企中并不開(kāi)放,如何獲取數(shù)據(jù)源成為了比如何提升數(shù)據(jù)處理方法更大的問(wèn)題。
目前國(guó)內(nèi)能夠進(jìn)行脫敏并使用的市場(chǎng)數(shù)據(jù)的來(lái)源主要還是集中在手機(jī)、PC等單一渠道與場(chǎng)景中,TalkingData、友盟,以及艾瑞、易觀等數(shù)據(jù)分析及咨詢(xún)機(jī)構(gòu)很大程度上依賴(lài)著這些資源,卻也被這些資源所局限。而由于政府?dāng)?shù)據(jù)的敏感性,僅有少數(shù)機(jī)構(gòu)能夠?qū)诱當(dāng)?shù)據(jù)資源。因此預(yù)計(jì)隨著對(duì)數(shù)據(jù)需求的日益強(qiáng)烈以及數(shù)據(jù)資源價(jià)值被漸漸接受,政府?dāng)?shù)據(jù)資源將會(huì)成為數(shù)據(jù)源的重要組成部分。
而更大范圍的數(shù)據(jù)采集工作將會(huì)依托于物聯(lián)網(wǎng)領(lǐng)域。我們?cè)凇都磳⒈?81億個(gè)傳感器包圍,你卻還沒(méi)弄懂物聯(lián)網(wǎng)技術(shù)?》中曾講到,預(yù)計(jì)2020年我們將會(huì)被281億個(gè)傳感器包圍,本月27號(hào)中國(guó)聯(lián)通也宣布截至目前其物聯(lián)網(wǎng)聯(lián)通數(shù)量已超過(guò)5000萬(wàn)個(gè)??梢灶A(yù)見(jiàn)的是,在消費(fèi)者視角內(nèi),未來(lái)衣食住行等方方面面都將會(huì)配備物聯(lián)網(wǎng)設(shè)備實(shí)時(shí)采集數(shù)據(jù),而采集來(lái)的數(shù)據(jù)將會(huì)讓商家提供更優(yōu)質(zhì)、甚至是定制化的服務(wù),形成雙贏。而在工業(yè)領(lǐng)域,物聯(lián)網(wǎng)所采集的大數(shù)據(jù)也將發(fā)揮很大的作用,形成良性循環(huán)。
同樣隨著數(shù)據(jù)樣本與采集渠道的豐富,針對(duì)數(shù)據(jù)采集過(guò)程、數(shù)據(jù)轉(zhuǎn)換與傳送和數(shù)據(jù)存儲(chǔ)環(huán)節(jié)的服務(wù)也已經(jīng)有了很大的發(fā)展,Informatica及Mulesoft就是多渠道數(shù)據(jù)的集成與數(shù)據(jù)治理行業(yè)中的代表性企業(yè)。
在有了足夠的存儲(chǔ)與計(jì)算能力,并獲得了大量的數(shù)據(jù)后,數(shù)據(jù)分析產(chǎn)業(yè)的發(fā)展水到渠成。目前通用性的數(shù)據(jù)分析行業(yè),主要有數(shù)據(jù)分析、數(shù)據(jù)分析可視化、大數(shù)據(jù)檢索,以及延伸出的數(shù)據(jù)服務(wù)平臺(tái)、商業(yè)智能分析及大數(shù)據(jù)預(yù)測(cè)與咨詢(xún)這6大類(lèi)業(yè)務(wù)。
數(shù)據(jù)分析的內(nèi)容將會(huì)在第二及第三篇文章中詳細(xì)介紹,今天僅介紹一下數(shù)據(jù)分析的整體情況,及未來(lái)可能的發(fā)展方向。
大數(shù)據(jù)分析的出現(xiàn),對(duì)企業(yè)而言最大的價(jià)值就是能夠?qū)⒋罅砍恋淼挠脩?hù)行為數(shù)據(jù)、消費(fèi)數(shù)據(jù)、企業(yè)服務(wù)軟件中的數(shù)據(jù)進(jìn)行整合,并通過(guò)對(duì)這些數(shù)據(jù)的分析來(lái)優(yōu)化產(chǎn)品設(shè)計(jì)、價(jià)格的制定和銷(xiāo)售方法的提升,同時(shí)降低企業(yè)內(nèi)部運(yùn)轉(zhuǎn)的成本提高運(yùn)營(yíng)效率,例如Pentho通過(guò)抓取企業(yè)服務(wù)軟件(主要為SAP)中的各類(lèi)數(shù)據(jù)并挖掘及分析,最終能夠幫助企業(yè)節(jié)約大量的報(bào)表制作時(shí)間,并讓管理者能夠?qū)崟r(shí)看到企業(yè)的運(yùn)行情況。
同樣對(duì)于電信、電力以及交通等專(zhuān)業(yè)領(lǐng)域的企業(yè)來(lái)說(shuō),通過(guò)收集用戶(hù)數(shù)據(jù),可以分析并預(yù)測(cè)未來(lái)的需求,提前對(duì)價(jià)格進(jìn)行實(shí)時(shí)智能調(diào)節(jié),并合理分配負(fù)載,從而實(shí)現(xiàn)利潤(rùn)的最大化并保證運(yùn)行的安全。
而對(duì)輿情數(shù)據(jù)的分析能夠幫助企業(yè)及時(shí)了解市場(chǎng)情緒,并快速迭代自己的產(chǎn)品與服務(wù),對(duì)于金融企業(yè)來(lái)說(shuō)也可以快速獲知最新動(dòng)態(tài)避免因?yàn)樾畔⒉粚?duì)稱(chēng)而暴露于風(fēng)險(xiǎn)中。例如Datameer提供的數(shù)據(jù)分析引擎就能夠?qū)崟r(shí)監(jiān)測(cè)公共消息,檢測(cè)其語(yǔ)言和傳播方式,使用戶(hù)能夠早于媒體報(bào)道獲得最新資訊,并通過(guò)可視化的方式使用戶(hù)輕松快速上手。
大數(shù)據(jù)可視化,則是建立在大數(shù)據(jù)分析之上的,讓人們能夠更加便捷的理解數(shù)據(jù)分析結(jié)果的手段。大多數(shù)提供數(shù)據(jù)可視化業(yè)務(wù)的公司都將其作為對(duì)數(shù)據(jù)分析的延伸業(yè)務(wù),例如Bottlenose 在進(jìn)行數(shù)據(jù)分析自動(dòng)化業(yè)務(wù)的同時(shí),提供對(duì)社交媒體分析的“聲納圖”,能夠讓用戶(hù)對(duì)復(fù)雜的關(guān)系及邏輯線條一目了然,提升了用戶(hù)對(duì)其數(shù)據(jù)分析業(yè)務(wù)的采納程度。
預(yù)計(jì)隨著數(shù)據(jù)分析手段與方法的不斷升級(jí),數(shù)據(jù)的可視化工作將成為重點(diǎn)方向,將日益復(fù)雜化的數(shù)據(jù)分析結(jié)果與人相連接將會(huì)面臨技術(shù)不斷的挑戰(zhàn)。
大數(shù)據(jù)技術(shù)已經(jīng)被視為了未來(lái)經(jīng)濟(jì)生活中的基礎(chǔ)設(shè)施,這意味著幾乎全部行業(yè)都能夠在大數(shù)據(jù)分析技術(shù)之上獲得經(jīng)濟(jì)效率的提升。星河研究院此次將大數(shù)據(jù)應(yīng)用的研究范圍覆蓋到了20多個(gè)行業(yè),包含電子商務(wù)、媒體營(yíng)銷(xiāo)、物流、企業(yè)服務(wù)、教育、汽車(chē)、金融科技等諸多產(chǎn)業(yè),這一部分行業(yè)與公司的介紹將會(huì)放在第四到第七篇文章中。
在銷(xiāo)售行業(yè)中,通過(guò)輸入客戶(hù)的性格、穿搭習(xí)慣、所處行業(yè)及歷史銷(xiāo)售數(shù)據(jù)等信息,銷(xiāo)售員將會(huì)被大數(shù)據(jù)分析告知,何時(shí)給哪一位客戶(hù)打電話獲得訂單的概率最高;在品牌形象建立中,Persado能夠依據(jù)市場(chǎng)情緒的分析,寫(xiě)出與用戶(hù)能夠產(chǎn)生共鳴的文案從而獲取消費(fèi)者好感;法律行業(yè)中Ravel能夠“閱讀”過(guò)去數(shù)十萬(wàn)判決案例,針對(duì)用戶(hù)輸入的案件給出判決概率預(yù)測(cè),幫助律師制定辯護(hù)策略,而長(zhǎng)期來(lái)看法律大數(shù)據(jù)企業(yè)很有可能取代大部分初級(jí)律師;同樣在零售、廣告、醫(yī)療等諸多領(lǐng)域,大數(shù)據(jù)技術(shù)都能通過(guò)分析數(shù)據(jù)內(nèi)在的關(guān)系而幫助用戶(hù)實(shí)現(xiàn)購(gòu)買(mǎi)預(yù)測(cè)、受眾精準(zhǔn)投放以及病情輔助判斷等功能。大數(shù)據(jù)的行業(yè)應(yīng)用精彩紛呈,遠(yuǎn)不止上文所提到的這些,接下來(lái)的文章中我們會(huì)逐一展現(xiàn)大數(shù)據(jù)應(yīng)用的神奇。
人工智能技術(shù)一直是科學(xué)家與技術(shù)人員的追求,但其發(fā)展并不是一帆風(fēng)順。例如最初的自然語(yǔ)言識(shí)別技術(shù)中,科學(xué)家希望通過(guò)語(yǔ)法規(guī)則使計(jì)算機(jī)理解語(yǔ)義從而實(shí)現(xiàn)智能化,但顯示證明這一路徑并不可行,其后依據(jù)大量數(shù)據(jù)樣本的統(tǒng)計(jì)方法才有效的提升了自然語(yǔ)言處理的準(zhǔn)確度并逐漸達(dá)到可用水平。
如今隨著計(jì)算技術(shù)與數(shù)據(jù)量的提升,大數(shù)據(jù)能夠帶給我們的福利已經(jīng)不僅限于資料的查找,識(shí)別語(yǔ)言、視覺(jué)的AI技術(shù)提供給我們的,除了經(jīng)??吹降摹皞€(gè)人助理”和動(dòng)態(tài)美顏等功能外,仿照大腦結(jié)構(gòu)進(jìn)行寫(xiě)作、自動(dòng)記錄會(huì)議紀(jì)要、情緒識(shí)別與性格分析,甚至是視頻內(nèi)容的搜索等功能都能夠?qū)ι虡I(yè)及產(chǎn)業(yè)起到較大的推動(dòng)作用。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03