
你應(yīng)該了解的大數(shù)據(jù)時(shí)代的10個(gè)新理念及10個(gè)新術(shù)語(yǔ)
大數(shù)據(jù)時(shí)代的10個(gè)新理念
大數(shù)據(jù)時(shí)代的到來(lái)改變了人們的生活方式、思維模式和研究范式,我們可以總結(jié)出10個(gè)重大變化,如圖1-10所示。
(1)研究范式的新認(rèn)識(shí)——從“第三范式”到“第四范式”。2007年,圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensive ScientificDiscovery)。在他看來(lái),人類科學(xué)研究活動(dòng)已經(jīng)歷過(guò)三中不同范式的演變過(guò)程(原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”、以模型和歸納為特征的“理論科學(xué)范式”和以模擬仿真為特征的“計(jì)算科學(xué)范式”),目前正在從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”。第四范式,即“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”的主要特點(diǎn)是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí),無(wú)須直接面對(duì)所研究的物理對(duì)象。例如,在大數(shù)據(jù)時(shí)代,天文學(xué)家的研究方式發(fā)生了新的變化——其主要研究任務(wù)變?yōu)閺暮A繑?shù)據(jù)庫(kù)中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進(jìn)行太空拍照。再如,本書作者在一次研究生科學(xué)研究方法的調(diào)研中發(fā)現(xiàn),絕大部分同學(xué)的研究范式有待調(diào)整——他們往往習(xí)慣性地“采用問(wèn)卷調(diào)查法等方法親自收集新數(shù)據(jù)”,而不是“首先想到有沒有現(xiàn)成的大數(shù)據(jù)以及如何再利用已有的數(shù)據(jù)(數(shù)據(jù)洞見)”,如圖1-11所示。
(2)數(shù)據(jù)重要性的新認(rèn)識(shí)——從“數(shù)據(jù)資源”到“數(shù)據(jù)資產(chǎn)”。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不僅是一種“資源”,而更是一種重要的“資產(chǎn)”。因此,數(shù)據(jù)科學(xué)應(yīng)把數(shù)據(jù)當(dāng)做“一種資產(chǎn)來(lái)管理”,而不能僅僅當(dāng)做“資源”來(lái)對(duì)待。也就是說(shuō),與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財(cái)務(wù)價(jià)值,且需要作為獨(dú)立實(shí)體進(jìn)行組織與管理。
(3)對(duì)方法論的新認(rèn)識(shí)——從“基于知識(shí)解決問(wèn)題”到“基于數(shù)據(jù)解決問(wèn)題”。我們傳統(tǒng)的方法論往往是“基于知識(shí)”的,即從 “大量實(shí)踐(數(shù)據(jù))”中總結(jié)和提煉出一般性知識(shí)(定理、模式、模型、函數(shù)等)之后,用知識(shí)去解決(或解釋)問(wèn)題。因此,傳統(tǒng)的問(wèn)題解決思路是“問(wèn)題→知識(shí)→問(wèn)題”,即根據(jù)問(wèn)題找“知識(shí)”,并用“知識(shí)”解決“問(wèn)題”。然而,數(shù)據(jù)科學(xué)中興起了另一種方法論——“問(wèn)題→數(shù)據(jù)→問(wèn)題”,即根據(jù)問(wèn)題找“數(shù)據(jù)”,并直接用數(shù)據(jù)(不需要把“數(shù)據(jù)”轉(zhuǎn)換成“知識(shí)”的前提下)解決問(wèn)題,如圖1-12所示。
(4)對(duì)數(shù)據(jù)分析的新認(rèn)識(shí)——從統(tǒng)計(jì)學(xué)到數(shù)據(jù)科學(xué)。在傳統(tǒng)科學(xué)中,數(shù)據(jù)分析主要以數(shù)學(xué)和統(tǒng)計(jì)學(xué)為直接理論工具。但是,云計(jì)算等計(jì)算模式的出現(xiàn)以及大數(shù)據(jù)時(shí)代的到來(lái),提升了我們對(duì)數(shù)據(jù)的獲取、存儲(chǔ)、計(jì)算與管理能力,進(jìn)而對(duì)統(tǒng)計(jì)學(xué)理論與方法產(chǎn)生了深遠(yuǎn)影響,主要有:
?隨著數(shù)據(jù)獲取、存儲(chǔ)與計(jì)算能力的提升,我們可以很容易獲得統(tǒng)計(jì)學(xué)中所指的“總體”中的全部數(shù)據(jù),且可以在總體上直接進(jìn)行計(jì)算——不再需要進(jìn)行“抽樣操作”;
?在海量、動(dòng)態(tài)、異構(gòu)數(shù)據(jù)環(huán)境中,人們更加關(guān)注的是數(shù)據(jù)計(jì)算的“效率”而不再盲目追求其“精準(zhǔn)度”。例如,在數(shù)據(jù)科學(xué)中,廣泛應(yīng)用“基于數(shù)據(jù)的”思維模式,重視對(duì)“相關(guān)性”的分析,而不是等到發(fā)現(xiàn)“真正的因果關(guān)系”之后才解決問(wèn)題。在大數(shù)據(jù)時(shí)代,人們開始重視相關(guān)分析,而不僅僅是因果分析。
(5)對(duì)計(jì)算智能的新認(rèn)識(shí)——從復(fù)雜算法到簡(jiǎn)單算法?!爸灰獡碛凶銐蚨嗟臄?shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時(shí)代的一個(gè)新認(rèn)識(shí)。因此,在大數(shù)據(jù)時(shí)代,原本復(fù)雜的“智能問(wèn)題”變成簡(jiǎn)單的“數(shù)據(jù)問(wèn)題”——只要對(duì)大數(shù)據(jù)的進(jìn)行簡(jiǎn)單查詢就可以達(dá)到“基于復(fù)雜算法的智能計(jì)算的效果”。為此,很多學(xué)者曾討論過(guò)一個(gè)重要話題——“大數(shù)據(jù)時(shí)代需要的是更多數(shù)據(jù)還是更好的模型(moredata or better model)?”。機(jī)器翻譯是傳統(tǒng)自然語(yǔ)言技術(shù)領(lǐng)域的難點(diǎn),雖曾提出過(guò)很多種“算法”,但應(yīng)用效果并不理想。近年來(lái),Google翻譯等工具改變了“實(shí)現(xiàn)策略”,不再僅靠復(fù)雜算法進(jìn)行翻譯,而對(duì)他們之前收集的跨語(yǔ)言語(yǔ)料庫(kù)進(jìn)行簡(jiǎn)單查詢的方式,提升了機(jī)器翻譯的效果和效率。
(6)對(duì)數(shù)據(jù)管理重點(diǎn)的新認(rèn)識(shí)——從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)業(yè)務(wù)化。在大數(shù)據(jù)時(shí)代,企業(yè)需要重視一個(gè)新的課題——數(shù)據(jù)業(yè)務(wù)化,即如何“基于數(shù)據(jù)”動(dòng)態(tài)地定義、優(yōu)化和重組業(yè)務(wù)及其流程,進(jìn)而提升業(yè)務(wù)的敏捷性,降低風(fēng)險(xiǎn)和成本。但是,在傳統(tǒng)數(shù)據(jù)管理中我們更加關(guān)注的是業(yè)務(wù)的數(shù)據(jù)化問(wèn)題,即如何將業(yè)務(wù)活動(dòng)以數(shù)據(jù)方式記錄下來(lái),以便進(jìn)行業(yè)務(wù)審計(jì)、分析與挖掘??梢?,業(yè)務(wù)數(shù)據(jù)化是前提,而數(shù)據(jù)業(yè)務(wù)化是目標(biāo)。
(7)對(duì)決策方式的新認(rèn)識(shí)——從目標(biāo)驅(qū)動(dòng)型決策到數(shù)據(jù)驅(qū)動(dòng)型決策。傳統(tǒng)科學(xué)思維中,決策制定往往是“目標(biāo)”或“模型”驅(qū)動(dòng)的——根據(jù)目標(biāo)(或模型)進(jìn)行決策。然而,大數(shù)據(jù)時(shí)代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動(dòng)型決策,數(shù)據(jù)成為決策制定的主要“觸發(fā)條件”和“重要依據(jù)”。例如,近年來(lái),很多高新企業(yè)中的部門和崗位設(shè)置不再是“固化的”,而是根據(jù)所做項(xiàng)目與所處的數(shù)據(jù)環(huán)境,隨時(shí)動(dòng)態(tài)調(diào)整其部門和崗位設(shè)置。然而,部門和崗位設(shè)置的敏捷性往往是基于數(shù)據(jù)驅(qū)動(dòng)的,根據(jù)數(shù)據(jù)分析的結(jié)果靈活調(diào)整企業(yè)內(nèi)部結(jié)構(gòu)。
(8)對(duì)產(chǎn)業(yè)競(jìng)合關(guān)系的新認(rèn)識(shí)——從“以戰(zhàn)略為中心競(jìng)合關(guān)系”到“以數(shù)據(jù)為中心競(jìng)合關(guān)系”。在大數(shù)據(jù)時(shí)代,企業(yè)之間的競(jìng)合關(guān)系發(fā)生了變化,原本相互激烈競(jìng)爭(zhēng),甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。例如,近年來(lái)IBM公司和Apple公司“化敵[1]為友”,并有報(bào)道稱他們正在從競(jìng)爭(zhēng)對(duì)手轉(zhuǎn)向合作伙伴——IBM的100多名員工前往Apple的加州庫(kù)比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯(lián)合開發(fā)iPhone和iPad應(yīng)用。
(9)對(duì)數(shù)據(jù)復(fù)雜性的新認(rèn)識(shí)——從不接受到接受數(shù)據(jù)的復(fù)雜性。在傳統(tǒng)科學(xué)看來(lái),數(shù)據(jù)需要徹底“凈化”和“集成”,計(jì)算目的是需要找出“精確答案”,而其背后的哲學(xué)是“不接受數(shù)據(jù)的復(fù)雜性”。然而,大數(shù)據(jù)中更加強(qiáng)調(diào)的是數(shù)據(jù)的動(dòng)態(tài)性、異構(gòu)性和跨域等復(fù)雜性——彈性計(jì)算、魯棒性、虛擬化和快速響應(yīng),開始把“復(fù)雜性”當(dāng)作數(shù)據(jù)的一個(gè)固有特征來(lái)對(duì)待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標(biāo)轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
(10)對(duì)數(shù)據(jù)處理模式的新認(rèn)識(shí)——從“小眾參與”到“大眾協(xié)同”。傳統(tǒng)科學(xué)中,數(shù)據(jù)的分析和挖掘都是具有很高專業(yè)素養(yǎng)的“企業(yè)核心員工”的事情,企業(yè)管理的重要目的是如何激勵(lì)和績(jī)效考核這些“核心員工”。但是,在大數(shù)據(jù)時(shí)代,基于“核心員工”的創(chuàng)新工作成本和風(fēng)險(xiǎn)越來(lái)越大,而基于“專家余(Pro-Am)”的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
▌大數(shù)據(jù)時(shí)代的10個(gè)新術(shù)語(yǔ)
大數(shù)據(jù)時(shí)代的到來(lái),為我們提出一些新的任務(wù)和挑戰(zhàn)。本節(jié)我們以近幾年在大數(shù)據(jù)管理領(lǐng)域新出現(xiàn)的術(shù)語(yǔ)為線索,討論大數(shù)據(jù)時(shí)代的主要活動(dòng)和能力要求(圖1-13)。
(1)數(shù)據(jù)化(Datafication)是指捕獲人們的生活與業(yè)務(wù)活動(dòng),并將其轉(zhuǎn)換為數(shù)據(jù)的過(guò)程。例如:
?Google眼睛正在數(shù)據(jù)化人們視覺活動(dòng);
?Twitter正在數(shù)據(jù)化人們的思想動(dòng)態(tài);
?Linkedin正在數(shù)據(jù)化人們的社會(huì)關(guān)系。
目前,在個(gè)人信息的獲取中廣泛使用了數(shù)據(jù)化,非法收集,導(dǎo)致了個(gè)人隱私之間的矛盾。
(2)數(shù)據(jù)柔術(shù)(DataJiu-Jitsu)是指數(shù)據(jù)科學(xué)家將“大數(shù)據(jù)”轉(zhuǎn)換具有立即產(chǎn)生商業(yè)價(jià)值的“數(shù)據(jù)產(chǎn)品(Data Product)”的能力,如圖1-14所示。數(shù)據(jù)產(chǎn)品是指在零次數(shù)據(jù)或一次數(shù)據(jù)的基礎(chǔ)上,通過(guò)數(shù)據(jù)加工活動(dòng)形成的二次或三次數(shù)據(jù),數(shù)據(jù)產(chǎn)品的特點(diǎn)包括:
?高層次性:一般為二次數(shù)據(jù)或三次數(shù)據(jù);
?成品性:數(shù)據(jù)產(chǎn)品往往不需要(或不需要大量的)進(jìn)一步處理即可直接應(yīng)用;
?商品性:數(shù)據(jù)產(chǎn)品可以直接用于銷售或交易;
?易于定價(jià):相對(duì)于原始數(shù)據(jù),數(shù)據(jù)產(chǎn)品的定價(jià)更為容易。
(3)數(shù)據(jù)改寫(DataMunging)是指帶有一定的創(chuàng)造力和想象力的數(shù)據(jù)再加工行為,主要涉及數(shù)據(jù)的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理。與一般數(shù)據(jù)處理不同的是,數(shù)據(jù)再加工強(qiáng)調(diào)的是數(shù)據(jù)加工過(guò)程中的創(chuàng)造力和想象力。
(4)數(shù)據(jù)打磨(DataWrangling)是指采用全手工或半自動(dòng)化的方式,通過(guò)多次反復(fù)調(diào)整與優(yōu)化過(guò)程,即將“原始數(shù)據(jù)”轉(zhuǎn)換為“一次數(shù)據(jù)”(或“二次數(shù)據(jù)”)的過(guò)程。其特殊性表現(xiàn)在:
?不是完全自動(dòng)化方式實(shí)現(xiàn),一般用手工或半自動(dòng)化工具;
?不是一次即可完成,需要多次反復(fù)調(diào)整與優(yōu)化。
(5)數(shù)據(jù)洞見(DataInsights)是指采用機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)可視化等方法從海量數(shù)據(jù)中找到“人們并未發(fā)現(xiàn)的且有價(jià)值的信息”的能力。數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是“數(shù)據(jù)洞見”——發(fā)現(xiàn)數(shù)據(jù)背后的信息、知識(shí)和智慧以及找到“被淹沒在海量數(shù)據(jù)中的未知數(shù)據(jù)”。與數(shù)據(jù)挖掘不同的是,數(shù)據(jù)科學(xué)項(xiàng)目的成果可以直接用于決策支持。數(shù)據(jù)洞見力的高低主要取決于主體的數(shù)據(jù)意識(shí)、經(jīng)驗(yàn)積累和分析處理能力。
(6)數(shù)據(jù)分析式思維模式(Data-AnalyticThinking)是指一種從數(shù)據(jù)視角分析問(wèn)題,并“基于數(shù)據(jù)”來(lái)解決問(wèn)題的思維模式。例如,當(dāng)某個(gè)具體業(yè)務(wù)的效率較低時(shí),我們考慮是否可以利用數(shù)據(jù)提升業(yè)務(wù)效率,并進(jìn)一步提出如何通過(guò)數(shù)據(jù)提升的方法。可見,數(shù)據(jù)分析思維模式與傳統(tǒng)思維模式不同。前者,主要從“數(shù)據(jù)”入手,最終改變“業(yè)務(wù)”;后者從“業(yè)務(wù)”或“決策”等要素入手,最終改變“數(shù)據(jù)”。因此,數(shù)據(jù)分析式思維模式改變了我們通??紤]問(wèn)題的出發(fā)點(diǎn)和視角。從分析對(duì)象和目的看,數(shù)據(jù)分析可以分為3個(gè)不同層次,如圖1-15所示。
?描述性分析( Descriptive Analysis) 是指采用數(shù)據(jù)統(tǒng)計(jì)中的描述統(tǒng)計(jì)量、數(shù)據(jù)可視化等方法描述數(shù)據(jù)的基本特征,如總和、均值、標(biāo)準(zhǔn)差等。描述性分析可以實(shí)現(xiàn)從“數(shù)據(jù)”到“信息”的轉(zhuǎn)化。
?預(yù)測(cè)性分析(Predictive Analysis)是指通過(guò)因果分析、相關(guān)分析等方法“基于過(guò)去/當(dāng)前的數(shù)據(jù)”得出“潛在模式”、“共性規(guī)律”或“未來(lái)趨勢(shì)”。預(yù)測(cè)性分析可以實(shí)現(xiàn)從“信息”到“知識(shí)”的轉(zhuǎn)化。
?規(guī)范性分析(Prescriptive Analytics)不僅要利用“當(dāng)前和過(guò)去的數(shù)據(jù)”,而且還會(huì)綜合考慮期望結(jié)果、所處環(huán)境、資源條件等更多影響因素,在對(duì)比分析所有可能方案的基礎(chǔ)上,提出“可以直接用于決策的建議或方案”。規(guī)范性分析可實(shí)現(xiàn)從“知識(shí)”到“智慧”的轉(zhuǎn)變。
(7)數(shù)據(jù)驅(qū)動(dòng)(Data-driven)是相對(duì)于“決策驅(qū)動(dòng)”、“目標(biāo)驅(qū)動(dòng)”、“業(yè)務(wù)驅(qū)動(dòng)”和“模型驅(qū)動(dòng)”的一種提法。也就是說(shuō),數(shù)據(jù)驅(qū)動(dòng)主要以數(shù)據(jù)為“觸發(fā)器(出發(fā)點(diǎn))”、“視角”和“依據(jù)”,進(jìn)行觀測(cè)、控制、調(diào)整和整合其它要素——決策、目標(biāo)、業(yè)務(wù)和模型等,如圖1-16所示。數(shù)據(jù)驅(qū)動(dòng)是大數(shù)據(jù)時(shí)代的一種重要思維模式,也是“業(yè)務(wù)數(shù)據(jù)化”之后實(shí)現(xiàn)“數(shù)據(jù)業(yè)務(wù)化”的關(guān)鍵所在。
(8)數(shù)據(jù)密集型(Data-Intensive)應(yīng)用是相對(duì)于“計(jì)算密集型應(yīng)用”、“I/O密集型應(yīng)用”的一種提法,如圖1-17所示。也就是說(shuō),數(shù)據(jù)密集型應(yīng)用中數(shù)據(jù)成為應(yīng)用系統(tǒng)研發(fā)的“主要焦點(diǎn)和挑戰(zhàn)”。通常,數(shù)據(jù)密集型應(yīng)用的計(jì)算比較容易,但數(shù)據(jù)具有顯著的復(fù)雜性(異構(gòu)、動(dòng)態(tài)、跨域和海量等)和海量性。例如,當(dāng)我們對(duì)PB級(jí)復(fù)雜性數(shù)據(jù)進(jìn)行簡(jiǎn)單查詢時(shí),“計(jì)算”不再是最主要的挑戰(zhàn),而最主要挑戰(zhàn)來(lái)自于數(shù)據(jù)本身的復(fù)雜性。
(9)數(shù)據(jù)空間(DataSpace)是指主體的數(shù)據(jù)空間——與主體相關(guān)的數(shù)據(jù)及其關(guān)系的集合。主體相關(guān)性和可控性是數(shù)據(jù)空間中數(shù)據(jù)項(xiàng)的基本屬性。
?主體是指數(shù)據(jù)空間的所有者,可以是個(gè)人,也可以是一個(gè)組織;
?主體相關(guān)性是指數(shù)據(jù)空間所管理的是與特定主體相關(guān)的信息,而這些信息可以出現(xiàn)在不同的時(shí)間,存放在不同的位置,也可以采用不同的格式表示;
?主體可控性是指主體通過(guò)各種操作或服務(wù)來(lái)控制和管理數(shù)據(jù)空間中數(shù)據(jù)項(xiàng)。
可見,數(shù)據(jù)空間為我們解決來(lái)自跨域、異構(gòu)、動(dòng)態(tài)數(shù)據(jù)源的集成管理提供了一種新的思路和解決方案。相對(duì)于數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)空間技術(shù)具有現(xiàn)收現(xiàn)付(Pay-as-you-go)、數(shù)據(jù)在先,模式在后、不斷演化的數(shù)據(jù)模型、數(shù)據(jù)集成不改變數(shù)據(jù)的原有格式、數(shù)據(jù)內(nèi)容以共存形式分布在不同數(shù)據(jù)源、自動(dòng)處理數(shù)據(jù)源的動(dòng)態(tài)變化、充分利用數(shù)據(jù)源的自我管理能力、主體對(duì)數(shù)據(jù)具有部分控制能力、建設(shè)過(guò)程信息丟失相對(duì)少、支持?jǐn)?shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)變化以及服務(wù)質(zhì)量的不確定性等特點(diǎn)。
(10)關(guān)聯(lián)數(shù)據(jù)(LindedData)是一種數(shù)據(jù)發(fā)布和關(guān)聯(lián)的方法。其中,數(shù)據(jù)發(fā)布是指采用RDF(Resource DescriptionFramework,資源描述框架)和HTTP(Hypertext TransferProtocol,超文本傳輸協(xié)議) 技術(shù)在Web上發(fā)布結(jié)構(gòu)化信息;數(shù)據(jù)關(guān)聯(lián)是指采用RDF鏈接技術(shù)在不同數(shù)據(jù)源中的數(shù)據(jù)之間建立計(jì)算機(jī)可理解的互連關(guān)系。2006年,Tim Berners Lee 首次提出了關(guān)聯(lián)數(shù)據(jù)的理念,目的在于不同資源之間建立計(jì)算機(jī)可理解的關(guān)聯(lián)信息,最終形成全球性大數(shù)據(jù)空間。Tim Berners Lee進(jìn)一步明確提出了關(guān)聯(lián)數(shù)據(jù)技術(shù)中的數(shù)據(jù)發(fā)布和數(shù)據(jù)關(guān)聯(lián)的4項(xiàng)原則:
?采用URI(UniformResource Identifier,統(tǒng)一資源標(biāo)識(shí)符)技術(shù)統(tǒng)一標(biāo)識(shí)事物;
?通過(guò)HTTPURI訪問(wèn)URI標(biāo)識(shí);
?當(dāng)URI被訪問(wèn)時(shí),采用RDF(Resource Description Framework,資源描述框架)和SPARQL(SimpleProtocol and RDF Query Language)標(biāo)準(zhǔn),提供有用信息;
?提供信息時(shí),也提供指向其他事物的URI,以便發(fā)現(xiàn)更多事物。
除了上述概念之外,還有數(shù)據(jù)消減(Data Reduction)、數(shù)據(jù)新聞(Data Journalism)、數(shù)據(jù)的開放獲取(OpenAccess)、數(shù)據(jù)質(zhì)量、特征提取等傳統(tǒng)概念也重新備受關(guān)注。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11