
你想了解大數(shù)據(jù),卻對(duì)生澀的術(shù)語(yǔ)毫不知情?你想了解大數(shù)據(jù)的市場(chǎng)和應(yīng)用,卻又沒(méi)有好的案例和解說(shuō)?別擔(dān)心,這本來(lái)自Wikibon社區(qū)的小書想要幫你。
是的,這是一本小書而不是一篇文章,因?yàn)樗攲?shí)細(xì)致的讓你從一個(gè)完全不了解大數(shù)據(jù)技術(shù)及相關(guān)應(yīng)用的門外漢,變成一個(gè)熟知其概念和意義的“內(nèi)行人”,所以它很棒!
主要內(nèi)容
·1來(lái)自Wikibon社區(qū)的大數(shù)據(jù)宣言
·2數(shù)據(jù)處理與分析:傳統(tǒng)方式
·3大數(shù)據(jù)性質(zhì)的變化
·4大數(shù)據(jù)處理和分析的新方法
4.1Hadoop
4.2NoSQL
4.3大規(guī)模并行分析數(shù)據(jù)庫(kù)
·5大數(shù)據(jù)方法的互補(bǔ)
·6大數(shù)據(jù)供應(yīng)商發(fā)展?fàn)顩r
·7大數(shù)據(jù):實(shí)際使用案例
·8大數(shù)據(jù)技能差距
·9大數(shù)據(jù):企業(yè)和供應(yīng)商的下一步動(dòng)作
為公司提供有效的業(yè)務(wù)分析工具和技術(shù)是首席信息官的首要任務(wù)。有效的業(yè)務(wù)分析(從基本報(bào)告到高級(jí)的數(shù)據(jù)挖掘和預(yù)測(cè)分析)使得數(shù)據(jù)分析人員和業(yè)務(wù)人員都可以從數(shù)據(jù)中獲得見解,當(dāng)這些見解轉(zhuǎn)化為行動(dòng),會(huì)給公司帶來(lái)更高的效率和盈利能力。
所有業(yè)務(wù)分析都是基于數(shù)據(jù)的。傳統(tǒng)意義上,這意味著企業(yè)自己創(chuàng)建和存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如CRM系統(tǒng)中的客戶數(shù)據(jù),ERP系統(tǒng)中的運(yùn)營(yíng)數(shù)據(jù),以及會(huì)計(jì)數(shù)據(jù)庫(kù)中的財(cái)務(wù)數(shù)據(jù)。得益于社交媒體和網(wǎng)絡(luò)服務(wù)(如Facebook,Twitter),數(shù)據(jù)傳感器以及網(wǎng)絡(luò)設(shè)備,機(jī)器和人類產(chǎn)生的網(wǎng)上交易,以及其他來(lái)源的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)的普及,企業(yè)現(xiàn)有數(shù)據(jù)的體積和類型以及為追求最大商業(yè)價(jià)值而產(chǎn)生的近實(shí)時(shí)分析的需求正在迅速增加。我們稱這些為大數(shù)據(jù)。
傳統(tǒng)的數(shù)據(jù)管理和業(yè)務(wù)分析工具及技術(shù)都面臨大數(shù)據(jù)的壓力,與此同時(shí)幫助企業(yè)獲得來(lái)自大數(shù)據(jù)分析見解的新方法不斷涌現(xiàn)。這些新方法采取一種完全不同于傳統(tǒng)工具和技術(shù)的方式進(jìn)行數(shù)據(jù)處理、分析和應(yīng)用。這些新方法包括開源框架Hadoop,NoSQL數(shù)據(jù)庫(kù)(如Cassandra和Accumulo)以及大規(guī)模并行分析數(shù)據(jù)庫(kù)(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。這意味著,企業(yè)也需要從技術(shù)和文化兩個(gè)角度重新思考他們對(duì)待業(yè)務(wù)分析的方式。
對(duì)于大多數(shù)企業(yè)而言,這種轉(zhuǎn)變并不容易,但對(duì)于接受轉(zhuǎn)變并將大數(shù)據(jù)作為業(yè)務(wù)分析實(shí)踐基石的企業(yè)來(lái)說(shuō),他們會(huì)擁有遠(yuǎn)遠(yuǎn)超過(guò)膽小對(duì)手的顯著競(jìng)爭(zhēng)優(yōu)勢(shì)。大數(shù)據(jù)助力復(fù)雜的業(yè)務(wù)分析可能為企業(yè)帶來(lái)前所未有的關(guān)于客戶行為以及動(dòng)蕩的市場(chǎng)環(huán)境的深入洞察,使得他們能夠更快速的做出數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的決策,從而比競(jìng)爭(zhēng)對(duì)手更有效率。
從存儲(chǔ)及支持大數(shù)據(jù)處理的服務(wù)器端技術(shù)到為終端用戶帶來(lái)鮮活的新見解的前端數(shù)據(jù)可視化工具,大數(shù)據(jù)的出現(xiàn)也為硬件、軟件和服務(wù)供應(yīng)商提供了顯著的機(jī)會(huì)。這些幫助企業(yè)過(guò)渡到大數(shù)據(jù)實(shí)踐者的供應(yīng)商,無(wú)論是提供增加商業(yè)價(jià)值的大數(shù)據(jù)用例,還是發(fā)展讓大數(shù)據(jù)變?yōu)楝F(xiàn)實(shí)的技術(shù)和服務(wù),都將得到茁壯成長(zhǎng)。
大數(shù)據(jù)是所有行業(yè)新的權(quán)威的競(jìng)爭(zhēng)優(yōu)勢(shì)。認(rèn)為大數(shù)據(jù)是曇花一現(xiàn)的企業(yè)和技術(shù)供應(yīng)商很快就會(huì)發(fā)現(xiàn)自己需要很辛苦才能跟上那些提前思考的競(jìng)爭(zhēng)對(duì)手的步伐。在我們看來(lái),他們是非常危險(xiǎn)的。對(duì)于那些理解并擁抱大數(shù)據(jù)現(xiàn)實(shí)的企業(yè),新創(chuàng)新,高靈活性,以及高盈利能力的可能性幾乎是無(wú)止境的。
傳統(tǒng)上,為了特定分析目的進(jìn)行的數(shù)據(jù)處理都是基于相當(dāng)靜態(tài)的藍(lán)圖。通過(guò)常規(guī)的業(yè)務(wù)流程,企業(yè)通過(guò)CRM、ERP和財(cái)務(wù)系統(tǒng)等應(yīng)用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應(yīng)用程序和事務(wù)型數(shù)據(jù)庫(kù)中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個(gè)臨時(shí)區(qū)域,在這個(gè)臨時(shí)區(qū)域進(jìn)行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)最終被模式化到整齊的行和表。這種模型化和清洗過(guò)的數(shù)據(jù)被加載到企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。這個(gè)過(guò)程會(huì)周期性發(fā)生,如每天或每周,有時(shí)會(huì)更頻繁。
圖1–傳統(tǒng)的數(shù)據(jù)處理/分析資料來(lái)源:Wikibon2011
在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)管理員創(chuàng)建計(jì)劃,定期計(jì)算倉(cāng)庫(kù)中的標(biāo)準(zhǔn)化數(shù)據(jù),并將產(chǎn)生的報(bào)告分配到各業(yè)務(wù)部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。
同時(shí),業(yè)務(wù)分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行高級(jí)分析,或者通常情況下,由于數(shù)據(jù)量的限制,將樣本數(shù)據(jù)導(dǎo)入到本地?cái)?shù)據(jù)庫(kù)中。非專業(yè)用戶通過(guò)前端的商業(yè)智能工具(SAP的BusinessObjects和IBM的Cognos)對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行基礎(chǔ)的數(shù)據(jù)可視化和有限的分析。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很少超過(guò)幾TB,因?yàn)榇笕萘康臄?shù)據(jù)會(huì)占用數(shù)據(jù)倉(cāng)庫(kù)資源并且降低性能。
Web、移動(dòng)設(shè)備和其他技術(shù)的出現(xiàn)導(dǎo)致數(shù)據(jù)性質(zhì)的根本性變化。大數(shù)據(jù)具有重要而獨(dú)特的特性,這種特性使得它與“傳統(tǒng)”企業(yè)數(shù)據(jù)區(qū)分開來(lái)。不再集中化、高度結(jié)構(gòu)化并且易于管理,與以往任何時(shí)候相比,現(xiàn)在的數(shù)據(jù)都是高度分散的、結(jié)構(gòu)松散(如果存在結(jié)構(gòu)的話)并且體積越來(lái)越大。
具體來(lái)說(shuō):
廣義地說(shuō),大數(shù)據(jù)由多個(gè)來(lái)源產(chǎn)生,包括:
圖2–傳統(tǒng)數(shù)據(jù)v
從時(shí)間或成本效益上看,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)管理工具都無(wú)法實(shí)現(xiàn)大數(shù)據(jù)的處理和分析工作。也就是說(shuō),必須將數(shù)據(jù)組織成關(guān)系表(整齊的行和列數(shù)據(jù)),傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)才可以處理。由于需要的時(shí)間和人力成本,對(duì)海量的非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用這種結(jié)構(gòu)是不切實(shí)際的。此外,擴(kuò)展傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)使其適應(yīng)潛在的PB級(jí)數(shù)據(jù)需要在新的專用硬件上投資巨額資金。而由于數(shù)據(jù)加載這一個(gè)瓶頸,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)性能也會(huì)受到影響。
因此,需要處理和分析大數(shù)據(jù)的新方法。
存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點(diǎn)。即他們利用硬件的優(yōu)勢(shì),使用擴(kuò)展的、并行的處理技術(shù),采用非關(guān)系型數(shù)據(jù)存儲(chǔ)處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并對(duì)大數(shù)據(jù)運(yùn)用高級(jí)分析和數(shù)據(jù)可視化技術(shù),向終端用戶傳達(dá)見解。
Wikibon已經(jīng)確定了三種將會(huì)改變業(yè)務(wù)分析和數(shù)據(jù)管理市場(chǎng)的大數(shù)據(jù)方法。
Hadoop是一個(gè)處理、存儲(chǔ)和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。最初由雅虎的Doug Cutting創(chuàng)建,Hadoop的靈感來(lái)自于 MapReduce ,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁(yè)索引的用戶定義函數(shù)。它被設(shè)計(jì)用來(lái)處理分布在多個(gè)并行節(jié)點(diǎn)的PB級(jí)和EB級(jí)數(shù)據(jù)。
Hadoop集群運(yùn)行在廉價(jià)的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(The Apache Software Foundation)的一個(gè)項(xiàng)目,數(shù)百名貢獻(xiàn)者不斷改進(jìn)其核心技術(shù)?;靖拍睿号c將海量數(shù)據(jù)限定在一臺(tái)機(jī)器運(yùn)行的方式不同,Hadoop將大數(shù)據(jù)分成多個(gè)部分,這樣每個(gè)部分都可以被同時(shí)處理和分析。
客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲(chǔ)等來(lái)源獲得非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”,這些“部分”被載入到商用硬件的多個(gè)節(jié)點(diǎn)組成的文件系統(tǒng)。Hadoop的默認(rèn)文件存儲(chǔ)系統(tǒng)是Hadoop分布式文件系統(tǒng)。文件系統(tǒng)(如HDFS)善于存儲(chǔ)大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),因?yàn)樗鼈儾恍枰獙?shù)據(jù)組織成關(guān)系型的行和列。
各“部分”被復(fù)制多次,并加載到文件系統(tǒng)。這樣,如果一個(gè)節(jié)點(diǎn)失效,另一個(gè)節(jié)點(diǎn)包含失效節(jié)點(diǎn)數(shù)據(jù)的副本。名稱節(jié)點(diǎn)充當(dāng)調(diào)解人,負(fù)責(zé)溝通信息:如哪些節(jié)點(diǎn)是可用的,某些數(shù)據(jù)存儲(chǔ)在集群的什么地方,以及哪些節(jié)點(diǎn)失效。
一旦數(shù)據(jù)被加載到集群中,它就準(zhǔn)備好通過(guò)MapReduce 框架進(jìn)行分析??蛻籼峤灰粋€(gè)“匹配”的任務(wù)( 通常是用Java編寫的查詢語(yǔ)句)給到一個(gè)被稱為作業(yè)跟蹤器的節(jié)點(diǎn)。該作業(yè)跟蹤器引用名稱節(jié)點(diǎn),以確定完成工作需要訪問(wèn)哪些數(shù)據(jù),以及所需的數(shù)據(jù)在集群的存儲(chǔ)位置。一旦確定,作業(yè)跟蹤器向相關(guān)節(jié)點(diǎn)提交查詢。每個(gè)節(jié)點(diǎn)同時(shí)、并行處理,而非將所有數(shù)據(jù)集中到一個(gè)位置處理。這是Hadoop的一個(gè)本質(zhì)特征。
當(dāng)每個(gè)節(jié)點(diǎn)處理完指定的作業(yè),它會(huì)存儲(chǔ)結(jié)果。客戶通過(guò)任務(wù)追蹤器啟動(dòng)“Reduce”任務(wù)。匯總map階段存儲(chǔ)在各個(gè)節(jié)點(diǎn)上的結(jié)果數(shù)據(jù),獲得原始查詢的“答案”,然后將“答案”加載到集群的另一個(gè)節(jié)點(diǎn)中??蛻艟涂梢栽L問(wèn)這些可以載入多種分析環(huán)境進(jìn)行分析的結(jié)果了。MapReduce 的工作就完成了。
一旦MapReduce 階段完成,數(shù)據(jù)科學(xué)家和其他人就可以使用高級(jí)數(shù)據(jù)分析技巧對(duì)處理后的數(shù)據(jù)進(jìn)一步分析。也可以對(duì)這些數(shù)據(jù)建模,將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等傳統(tǒng)IT系統(tǒng)進(jìn)行進(jìn)一步的分析。
Hadoop “?!庇啥鄠€(gè)組件組成。包括:
除了上述以外,Hadoop生態(tài)系統(tǒng)還包括許多免費(fèi)子項(xiàng)目。NoSQL數(shù)據(jù)存儲(chǔ)系統(tǒng)(如Cassandra和HBase)也被用于存儲(chǔ)Hadoop的MapReduce作業(yè)結(jié)果。除了Java,很多 MapReduce 作業(yè)及其他Hadoop的功能都是用Pig語(yǔ)言寫的,Pig是專門針對(duì)Hadoop設(shè)計(jì)的開源語(yǔ)言。Hive最初是由Facebook開發(fā)的開源數(shù)據(jù)倉(cāng)庫(kù),可以在Hadoop中建立分析模型。http://www.3lll3.cn/
Hadoop的主要好處是,它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而這類數(shù)據(jù)迄今還沒(méi)有其他處理方式。因?yàn)?a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop集群可以擴(kuò)展到PB級(jí)甚至EB級(jí)數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關(guān)數(shù)據(jù)。數(shù)據(jù)科學(xué)家可以采用迭代的方法進(jìn)行分析,不斷改進(jìn)和測(cè)試查詢語(yǔ)句,從而發(fā)現(xiàn)以前未知的見解。使用Hadoop的成本也很廉價(jià)。開發(fā)者可以免費(fèi)下載Apache的Hadoop 分布式平臺(tái),并且在不到一天的時(shí)間內(nèi)開始體驗(yàn)Hadoop。
Hadoop及其無(wú)數(shù)組件的不足之處是,他們還不成熟,仍處于發(fā)展階段。就像所有新的、原始的技術(shù)一樣,實(shí)施和管理Hadoop集群,對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高級(jí)分析,都需要大量的專業(yè)知識(shí)、技能和培訓(xùn)。不幸的是,目前Hadoop開發(fā)者和數(shù)據(jù)科學(xué)家的缺乏,使得眾多企業(yè)維持復(fù)雜的Hadoop集群并利用其優(yōu)勢(shì)變得很不現(xiàn)實(shí)。此外,由于Hadoop的眾多組件都是通過(guò)技術(shù)社區(qū)得到改善,并且新的組件不斷被創(chuàng)建,因此作為不成熟的開源技術(shù),也存在失敗的風(fēng)險(xiǎn)。最后,Hadoop是一個(gè)面向批處理的框架,這意味著它不支持實(shí)時(shí)的數(shù)據(jù)處理和分析。
好消息是,一些聰明的IT人士不斷對(duì)Apache Hadoop項(xiàng)目做出貢獻(xiàn),新一代的Hadoop開發(fā)者和數(shù)據(jù)科學(xué)家們正在走向成熟。因此,該技術(shù)的發(fā)展日新月異,逐漸變得更加強(qiáng)大而且更易于實(shí)施和管理。供應(yīng)商(包括Hadoop的初創(chuàng)企業(yè)Cloudera和Hortonworks)以及成熟的IT中堅(jiān)企業(yè)(如IBM和微軟)正在努力開發(fā)企業(yè)可用的商業(yè)Hadoop分布式平臺(tái)、工具和服務(wù),讓部署和管理這項(xiàng)技術(shù)成為傳統(tǒng)企業(yè)可用的實(shí)際現(xiàn)實(shí)。其他初創(chuàng)企業(yè)正在努力完善NoSQL(不僅僅是SQL)數(shù)據(jù)系統(tǒng),結(jié)合Hadoop提供近實(shí)時(shí)的分析解決方案。
一種稱為NoSQL的新形式的數(shù)據(jù)庫(kù)(Not Only SQL)已經(jīng)出現(xiàn),像Hadoop一樣,可以處理大量的多結(jié)構(gòu)化數(shù)據(jù)。但是,如果說(shuō)Hadoop擅長(zhǎng)支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL 數(shù)據(jù)庫(kù)的目的是為最終用戶和自動(dòng)化的大數(shù)據(jù)應(yīng)用程序提供大量存儲(chǔ)在多結(jié)構(gòu)化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關(guān)系型數(shù)據(jù)庫(kù)欠缺的,它根本無(wú)法在大數(shù)據(jù)規(guī)模維持基本的性能水平。
在某些情況下,NoSQL和Hadoop協(xié)同工作。例如,HBase是流行的NoSQL數(shù)據(jù)庫(kù),它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系統(tǒng))之上,為Hadoop提供低延遲的快速查找功能。
目前可用的NoSQL數(shù)據(jù)庫(kù)包括:
目前大多數(shù)NoSQL數(shù)據(jù)庫(kù)的缺點(diǎn)是,為了性能和可擴(kuò)展性,他們遵從ACID(原子性,一致性,隔離性,持久性)原則。許多NoSQL數(shù)據(jù)庫(kù)還缺乏成熟的管理和監(jiān)控工具。這些缺點(diǎn)在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過(guò)程中,這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫(kù)。
不同于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),大規(guī)模并行分析數(shù)據(jù)庫(kù)能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構(gòu)化數(shù)據(jù),可以向外擴(kuò)展以容納TB甚至PB級(jí)數(shù)據(jù)。
對(duì)最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫(kù)支持近乎實(shí)時(shí)的復(fù)雜SQL查詢結(jié)果,也叫交互式查詢功能 ,而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫(kù)在某些情況下支持近實(shí)時(shí)的大數(shù)據(jù)應(yīng)用。大規(guī)模并行分析數(shù)據(jù)庫(kù)的基本特性包括:
大規(guī)模并行處理的能力: 就像其名字表明的一樣,大規(guī)模并行分析數(shù)據(jù)庫(kù)采用大規(guī)模并行處理同時(shí)支持多臺(tái)機(jī)器上的數(shù)據(jù)采集、處理和查詢。相對(duì)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)具有更快的性能,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行在單一機(jī)器上,會(huì)受到數(shù)據(jù)采集這個(gè)單一瓶頸點(diǎn)的限制。
無(wú)共享架構(gòu): 無(wú)共享架構(gòu)可確保分析數(shù)據(jù)庫(kù)環(huán)境中沒(méi)有單點(diǎn)故障。在這種架構(gòu)下,每個(gè)節(jié)點(diǎn)獨(dú)立于其他節(jié)點(diǎn),所以如果一臺(tái)機(jī)器出現(xiàn)故障,其他機(jī)器可以繼續(xù)運(yùn)行。對(duì)大規(guī)模并行處理環(huán)境而言,這點(diǎn)尤其重要,數(shù)百臺(tái)計(jì)算機(jī)并行處理數(shù)據(jù),偶爾出現(xiàn)一臺(tái)或多臺(tái)機(jī)器失敗是不可避免的。
列存儲(chǔ)結(jié)構(gòu): 大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫(kù)采用列存儲(chǔ)結(jié)構(gòu),而大多數(shù)關(guān)系型數(shù)據(jù)庫(kù)以行結(jié)構(gòu)存儲(chǔ)和處理數(shù)據(jù)。在列存儲(chǔ)環(huán)境中,由包含必要數(shù)據(jù)的列決定查詢語(yǔ)句的“答案”,而不是由整行的數(shù)據(jù)決定,從而導(dǎo)致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)那樣構(gòu)造成整齊的表格。
強(qiáng)大的數(shù)據(jù)壓縮功能: 它們?cè)试S分析數(shù)據(jù)庫(kù)收集和存儲(chǔ)更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫(kù)相比占用更少的硬件資源。例如,具有10比1的壓縮功能的數(shù)據(jù)庫(kù),可以將10 TB字節(jié)的數(shù)據(jù)壓縮到1 TB。數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關(guān)的技術(shù))是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。
商用硬件: 像Hadoop集群一樣,大多數(shù)(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫(kù)運(yùn)行在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們能夠以具有成本效益的方式向外擴(kuò)展。
在內(nèi)存中進(jìn)行數(shù)據(jù)處理: 有些(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫(kù)使用動(dòng)態(tài)RAM或閃存進(jìn)行實(shí)時(shí)數(shù)據(jù)處理。有些(如SAP HANA和 Aerospike)完全在內(nèi)存中運(yùn)行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動(dòng)態(tài)RAM或閃存處理“熱”數(shù)據(jù)。
然而,大規(guī)模并行分析數(shù)據(jù)庫(kù)確實(shí)有一些盲點(diǎn)。最值得注意的是,他們并非被設(shè)計(jì)用來(lái)存儲(chǔ)、處理和分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
Hadoop,NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫(kù)不是相互排斥的。相反的,Wikibon 認(rèn)為這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。Hadoop擅長(zhǎng)處理和分析大量分布式的非結(jié)構(gòu)化數(shù)據(jù),以分批的方式進(jìn)行歷史分析。NoSQL 數(shù)據(jù)庫(kù)擅長(zhǎng)為基于Web的大數(shù)據(jù)應(yīng)用程序提供近實(shí)時(shí)地多結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理。而大規(guī)模并行分析數(shù)據(jù)庫(kù)最擅長(zhǎng)對(duì)大容量的主流結(jié)構(gòu)化數(shù)據(jù)提供接近實(shí)時(shí)的分析。
例如,Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫(kù)供進(jìn)一步分析,或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成。從大數(shù)據(jù)分析得到的見解可以而且應(yīng)該通過(guò)大數(shù)據(jù)應(yīng)用實(shí)現(xiàn)產(chǎn)品化。企業(yè)的目標(biāo)應(yīng)該是實(shí)現(xiàn)一個(gè)靈活的大數(shù)據(jù)架構(gòu),在該架構(gòu)中,三種技術(shù)可以盡可能無(wú)縫地共享數(shù)據(jù)和見解。
很多預(yù)建的連接器可以幫助Hadoop開發(fā)者和管理員實(shí)現(xiàn)這種數(shù)據(jù)集成,同時(shí)也有很多廠商(包括Pivotal Initiative-原EMC的Greenplum,CETAS-和Teradata Aster)提供大數(shù)據(jù)應(yīng)用。這些大數(shù)據(jù)應(yīng)用將Hadoop、分析數(shù)據(jù)庫(kù)和預(yù)配置的硬件進(jìn)行捆綁,可以達(dá)到以最小的調(diào)整實(shí)現(xiàn)快速部署的目的。另外一種情況,Hadapt提供了一個(gè)單一平臺(tái),這個(gè)平臺(tái)在相同的集群上同時(shí)提供SQL和Hadoop/MapReduce的處理功能。Cloudera也在Impala和Hortonworks項(xiàng)目上通過(guò)開源倡議推行這一策略。
但是,為了充分利用大數(shù)據(jù),企業(yè)必須采取進(jìn)一步措施。也就是說(shuō),他們必須使用高級(jí)分析技術(shù)處理數(shù)據(jù),并以此得出有意義的見解。數(shù)據(jù)科學(xué)家通過(guò)屈指可數(shù)的語(yǔ)言或方法(包括SAS和R)執(zhí)行這項(xiàng)復(fù)雜的工作。分析的結(jié)果可以通過(guò)Tableau這樣的工具可視化,也可以通過(guò)大數(shù)據(jù)應(yīng)用程序進(jìn)行操作,這些大數(shù)據(jù)應(yīng)用程序包括自己開發(fā)的應(yīng)用程序和現(xiàn)成的應(yīng)用程序。其他廠商(包括 Platfora和Datameer)正在開發(fā)商業(yè)智能型的應(yīng)用程序,這種應(yīng)用程序允許非核心用戶與大數(shù)據(jù)直接交互。
圖3 – 現(xiàn)代數(shù)據(jù)架構(gòu) 資料來(lái)源:Wikibon 2013
底層的大數(shù)據(jù)方法(如Hadoop,NoSQL和大規(guī)模并行分析數(shù)據(jù)庫(kù))不僅本身是互補(bǔ)的,而且與大部分大型企業(yè)現(xiàn)有的數(shù)據(jù)管理技術(shù)互補(bǔ)。Wikibon并不建議企業(yè)CIO們?yōu)榱舜髷?shù)據(jù)方法而“淘汰并更換”企業(yè)現(xiàn)有的全部的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集成和其他數(shù)據(jù)管理技術(shù)。
相反,Wikibon認(rèn)為首席信息官必須像投資組合經(jīng)理那樣思考,重新權(quán)衡優(yōu)先級(jí),為企業(yè)走向創(chuàng)新和發(fā)展奠定基礎(chǔ),同時(shí)采取必要的措施減輕風(fēng)險(xiǎn)因素。用大數(shù)據(jù)方法替換現(xiàn)有的數(shù)據(jù)管理技術(shù),只有當(dāng)它的商業(yè)意義和發(fā)展計(jì)劃與現(xiàn)有的數(shù)據(jù)管理基礎(chǔ)設(shè)施盡可能無(wú)縫地整合時(shí)才有意義。最終目標(biāo)應(yīng)該是轉(zhuǎn)型為現(xiàn)代數(shù)據(jù)架構(gòu)(見圖3和文章鏈接)。
大數(shù)據(jù)供應(yīng)商正在迅速發(fā)展。參見圖4對(duì)一個(gè)細(xì)分市場(chǎng)的概述,對(duì)于大數(shù)據(jù)市場(chǎng)的詳細(xì)分析,包括市場(chǎng)規(guī)模(現(xiàn)狀及到2017年的五年預(yù)測(cè))和供應(yīng)商之間的大數(shù)據(jù)收入數(shù)字,詳情參考 大數(shù)據(jù)供應(yīng)商收入和市場(chǎng)預(yù)測(cè)2012-2017。
圖4 – 大數(shù)據(jù)供應(yīng)商發(fā)展?fàn)顩r 資料來(lái)源:Wikibon 2012
讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問(wèn)題的答案,而在此之前他們甚至不知道問(wèn)題是什么。這可能會(huì)產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運(yùn)營(yíng)效率的方法。不過(guò),也有一些已經(jīng)明確的大數(shù)據(jù)用例,無(wú)論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)。它們包括:
推薦引擎:網(wǎng)絡(luò)資源和在線零售商使用Hadoop根據(jù)用戶的個(gè)人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務(wù)。LinkedIn使用此方法增強(qiáng)其“你可能認(rèn)識(shí)的人”這一功能,而亞馬遜利用該方法為網(wǎng)上消費(fèi)者推薦相關(guān)產(chǎn)品。
情感分析: Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶對(duì)特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶的情緒。
風(fēng)險(xiǎn)建模: 財(cái)務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。
欺詐檢測(cè): 金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來(lái)檢測(cè)欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識(shí)別可能的被盜卡的交易行為。
營(yíng)銷活動(dòng)分析:各行業(yè)的營(yíng)銷部門長(zhǎng)期使用技術(shù)手段監(jiān)測(cè)和確定營(yíng)銷活動(dòng)的有效性。大數(shù)據(jù)讓營(yíng)銷團(tuán)隊(duì)擁有更大量的越來(lái)越精細(xì)的數(shù)據(jù),如點(diǎn)擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù),以提高分析的準(zhǔn)確性。
客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。
社交圖譜分析: Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)相結(jié)合,通過(guò)挖掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對(duì)其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶,不總是那些購(gòu)買最多產(chǎn)品或花最多錢的,而是那些最能夠影響他人購(gòu)買行為的客戶。
用戶體驗(yàn)分析: 面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, ,以獲得對(duì)客戶體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。
網(wǎng)絡(luò)監(jiān)控:Hadoop 和其他大數(shù)據(jù)技術(shù)被用來(lái)獲取,分析和顯示來(lái)自服務(wù)器,存儲(chǔ)設(shè)備和其他IT硬件的數(shù)據(jù),使管理員能夠監(jiān)視網(wǎng)絡(luò)活動(dòng),診斷瓶頸等問(wèn)題。這種類型的分析,也可應(yīng)用到交通網(wǎng)絡(luò),以提高燃料效率,當(dāng)然也可以應(yīng)用到其他網(wǎng)絡(luò)。
研究與發(fā)展: 有些企業(yè)(如制藥商)使用Hadoop技術(shù)進(jìn)行大量文本及歷史數(shù)據(jù)的研究,以協(xié)助新產(chǎn)品的開發(fā)。
當(dāng)然,上述這些都只是大數(shù)據(jù)用例的舉例。事實(shí)上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。
企業(yè)運(yùn)用大數(shù)據(jù)的最大障礙是缺乏相關(guān)的技能,如Hadoop管理技能、大數(shù)據(jù)分析技能或數(shù)據(jù)科學(xué)。為了讓大數(shù)據(jù)真正被大量采用,并且實(shí)現(xiàn)其全部潛力,縮小技能上的差距就至關(guān)重要了。這需要從兩條戰(zhàn)線進(jìn)行攻擊:
首先,這意味著開源社區(qū)和商業(yè)大數(shù)據(jù)廠商必須開發(fā)易于使用的大數(shù)據(jù)管理和分析工具和技術(shù),為傳統(tǒng)的IT和商業(yè)智能專業(yè)人士降低進(jìn)入的門檻。這些工具和技術(shù),必須從底層數(shù)據(jù)處理框架抽象掉盡可能多的復(fù)雜性??梢酝ㄟ^(guò)圖形用戶界面,類似于向?qū)У陌惭b功能和日常任務(wù)自動(dòng)化的組合方式實(shí)現(xiàn)。
其次,社會(huì)必須開發(fā)更多的教育資源,培養(yǎng)現(xiàn)有的IT和商業(yè)智能專業(yè)人士以及高中生和大學(xué)生成為我們未來(lái)所需要的大數(shù)據(jù)從業(yè)者。
據(jù)麥肯錫公司研究,到2018年僅美國(guó)就有可能面臨14萬(wàn)?19萬(wàn)具備專業(yè)分析技能的人才,以及懂得使用大數(shù)據(jù)分析做出有效決策的150萬(wàn)經(jīng)理和分析師的短缺。造成短缺的部分原因是數(shù)據(jù)科學(xué)本身的規(guī)律導(dǎo)致的,因?yàn)閿?shù)據(jù)科學(xué)要求各種綜合技能。
具體來(lái)說(shuō),數(shù)據(jù)科學(xué)家必須具備的技術(shù)技能側(cè)重于統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)。但他們還必須具有商業(yè)頭腦,即了解現(xiàn)有業(yè)務(wù),并且能找到大數(shù)據(jù)可以業(yè)務(wù)提供最大價(jià)值的方向。或許同樣重要的是,數(shù)據(jù)科學(xué)家必須具備專業(yè)的溝通技巧,以及通過(guò)大數(shù)據(jù)的可視化,向業(yè)務(wù)同事講故事的能力。
正如本報(bào)告中提到的,一些大數(shù)據(jù)廠商開始提供大數(shù)據(jù)培訓(xùn)課程。IT從業(yè)者具有極好的機(jī)會(huì),利用這些培訓(xùn)和教育活動(dòng)的優(yōu)勢(shì)磨練自己的數(shù)據(jù)分析技能,并可以在企業(yè)內(nèi)部確定新的職業(yè)道路。同樣,在南加州大學(xué)、北卡羅來(lái)納州立大學(xué)、紐約大學(xué)和其他地方,幾門關(guān)于大數(shù)據(jù)和高級(jí)分析技術(shù)的大學(xué)級(jí)別的課程也應(yīng)運(yùn)而生。但大數(shù)據(jù)的發(fā)展和普及還是需要更多的課程。
只有通過(guò)兩條戰(zhàn)線-更好的工具和技術(shù),更好的教育和培訓(xùn)-才能克服大數(shù)據(jù)技術(shù)差距。
大數(shù)據(jù):企業(yè)和供應(yīng)商的后續(xù)動(dòng)作
對(duì)企業(yè)和為他們服務(wù)的供應(yīng)商雙方而言,大數(shù)據(jù)都具有很大的潛力,但首先必須先采取行動(dòng)。Wikibon的建議如下。
行動(dòng)項(xiàng)目:各個(gè)行業(yè)的企業(yè)應(yīng)評(píng)估現(xiàn)有和潛在的大數(shù)據(jù)用例,參與大數(shù)據(jù)社區(qū)了解最新的技術(shù)發(fā)展。與大數(shù)據(jù)社區(qū)里志趣相投的企業(yè)和供應(yīng)商一起識(shí)別大數(shù)據(jù)能夠提供商業(yè)價(jià)值的領(lǐng)域。接下來(lái),考慮企業(yè)內(nèi)部的大數(shù)據(jù)技術(shù)水平,確定是否開始大數(shù)據(jù)方法,如Hadoop的試驗(yàn)。如果是這樣,與IT部門和業(yè)務(wù)部門一起制定計(jì)劃,將大數(shù)據(jù)工具、技術(shù)和方法整合到企業(yè)現(xiàn)有的IT基礎(chǔ)架構(gòu)。
最重要的是,首先要在所有工作人員中培養(yǎng)數(shù)據(jù)驅(qū)動(dòng)的文化,鼓勵(lì)數(shù)據(jù)實(shí)驗(yàn)。當(dāng)這個(gè)基礎(chǔ)已經(jīng)奠定,開始使用大數(shù)據(jù)的技術(shù)和方法提供最大的業(yè)務(wù)價(jià)值,并不斷地重新評(píng)估新成熟的大數(shù)據(jù)方法。
IT供應(yīng)商應(yīng)該幫助企業(yè)找出最有利可圖、最實(shí)用的大數(shù)據(jù)用例,開發(fā)使大數(shù)據(jù)技術(shù)更易于部署、管理和使用的產(chǎn)品和服務(wù)。擁有開放而不專有的心態(tài),給予客戶嘗試新的大數(shù)據(jù)技術(shù)和工具所需要的靈活性。同樣地,開始建立大數(shù)據(jù)服務(wù),幫助企業(yè)發(fā)展部署和管理大數(shù)據(jù)方法(如Hadoop)所需要的技能。最重要的是,隨著大數(shù)據(jù)部署方案的成熟和成長(zhǎng),及時(shí)傾聽和回應(yīng)客戶的反饋。(文章來(lái)源:CDA數(shù)據(jù)分析師)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03