
數(shù)據(jù)建模那點(diǎn)事兒
今天要說(shuō)內(nèi)容是建模。為啥我作為一個(gè)數(shù)學(xué)能力并不強(qiáng)的人要在這獻(xiàn)丑講建模的事呢?其實(shí)我的目的很簡(jiǎn)單,就是為了告訴大家一個(gè)事實(shí):數(shù)據(jù)分析中的建模,并沒(méi)有想象中那么高深莫測(cè),人人都有機(jī)會(huì)做出自己的模型。
維基百科對(duì)數(shù)據(jù)分析的定義如下:
Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
(來(lái)源:Data analysis)
簡(jiǎn)單翻譯:數(shù)據(jù)分析是一個(gè)包含數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)清洗、數(shù)據(jù)重構(gòu),以及數(shù)據(jù)建模的過(guò)程,目的在于發(fā)現(xiàn)有用的信息,有建設(shè)性的結(jié)論,輔助決策的制定。數(shù)據(jù)分析有多種形式和方法,涵蓋了多種技術(shù),應(yīng)用于商業(yè)、科學(xué)、社會(huì)學(xué)等多個(gè)不同的領(lǐng)域。
和上篇文章中我畫(huà)的圖對(duì)比一下:
我在上篇文章中為了讓初學(xué)者更容易走通全流程,簡(jiǎn)化了數(shù)據(jù)清洗的過(guò)程,實(shí)際上數(shù)據(jù)清洗絕非一次完成,“檢驗(yàn)-清洗-檢驗(yàn)”的過(guò)程可能會(huì)重復(fù)數(shù)次乃至數(shù)十次。
而建模呢?再次引用維基上對(duì)數(shù)據(jù)建模的定義:
Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.(來(lái)源:Data modeling)
簡(jiǎn)單翻譯:數(shù)據(jù)建模是一個(gè)用于定義和分析在組織的信息系統(tǒng)的范圍內(nèi)支持商業(yè)流程所需的數(shù)據(jù)要求的過(guò)程。因此,數(shù)據(jù)建模的過(guò)程需要專(zhuān)業(yè)建模師與商業(yè)人員和信息系統(tǒng)潛在用戶(hù)的緊密合作。這段話的定義更偏向信息系統(tǒng)和商業(yè)數(shù)據(jù)建模,我之所以在此引用這段話,是為了明確接下來(lái)的討論內(nèi)容主要方向是商業(yè)數(shù)據(jù)分析和建模,至于科學(xué)研究方向的數(shù)據(jù)建模,不在這篇文章的討論范圍以?xún)?nèi)。
請(qǐng)注意上邊這段話中的一個(gè)核心:支持商業(yè)流程。商業(yè)數(shù)據(jù)建模,乃至商業(yè)數(shù)據(jù)分析,其最終目的都是要支持某種商業(yè)流程,要么優(yōu)化原有流程,提高各部分效率;要么重構(gòu)原有流程,減少步驟;要么告訴決策者,哪些流程改造方向是錯(cuò)誤的,以避免走錯(cuò)路。最終的目標(biāo),一定是提升效率。但在不同的情況下,提升效率的方式也是不同的,因此在每個(gè)模型建立時(shí),都需要確定其解決的具體目標(biāo)問(wèn)題。
再往前走一步,數(shù)學(xué)—主要是統(tǒng)計(jì)學(xué),在建模的過(guò)程中又扮演什么樣的角色呢?繼續(xù)引用維基:
Mathematical formulas or models called algorithms may be applied to the data to identify relationships among the variables, such as correlation or causation. In general terms, models may be developed to evaluate a particular variable in the data based on other variable(s) in the data, with some residual error depending on model accuracy (i.e., Data = Model + Error)(來(lái)源:Data modeling)
簡(jiǎn)單翻譯:數(shù)學(xué)公式或模型稱(chēng)為算法,可應(yīng)用于數(shù)據(jù)以確定變量之間的關(guān)系,如相關(guān)性或因果關(guān)系。在一般情況下,模型開(kāi)發(fā)出來(lái)后用于評(píng)估一個(gè)特定的變量與數(shù)據(jù)中其他其他變量的關(guān)系,根據(jù)模型的準(zhǔn)確性不同,這些關(guān)系中會(huì)包含殘差(即,數(shù)據(jù)=模型+錯(cuò)誤)
這段描述很明確,統(tǒng)計(jì)學(xué)在數(shù)據(jù)建模的過(guò)程中,主要用于幫助我們找出變量之間的關(guān)系,并對(duì)這種關(guān)系進(jìn)行定量的描述,輸出可用于數(shù)據(jù)集的算法。一個(gè)好的數(shù)據(jù)模型,需要通過(guò)多次的測(cè)試和優(yōu)化迭代來(lái)完成。
綜上,給出一個(gè)我認(rèn)為的“數(shù)據(jù)建模”定義:數(shù)據(jù)集+商業(yè)目標(biāo)+算法+優(yōu)化迭代= 數(shù)據(jù)建模。定義中的每一部分都必不可少。
照例,先上流程圖:
上圖的流程顏色對(duì)應(yīng)數(shù)據(jù)分析全流程,為了方便大家閱讀,我把全流程圖再貼一次:
接下來(lái),我重點(diǎn)解讀明黃色(淺黃?)部分的內(nèi)容:
在進(jìn)行建模之前,首先要考慮的是使用哪些變量來(lái)建立模型,需要從業(yè)務(wù)邏輯和數(shù)據(jù)邏輯兩個(gè)方面來(lái)考慮:
業(yè)務(wù)邏輯:變量基于收集到的數(shù)據(jù),而數(shù)據(jù)在收集時(shí),會(huì)產(chǎn)生與業(yè)務(wù)層面相關(guān)的邏輯,比如在汽車(chē)參數(shù)中,一旦我們定義了“家用轎車(chē)”這個(gè)類(lèi)別,那么無(wú)論什么品牌什么車(chē)型,“輪胎數(shù)量(不計(jì)備胎)”這個(gè)變量就有99%以上幾率為4……當(dāng)然在接下來(lái)的建模中,我們不會(huì)選擇這個(gè)變量。這一類(lèi)情況是業(yè)務(wù)知識(shí)來(lái)告訴我們哪些變量可以選擇,哪些不能選擇。
數(shù)據(jù)邏輯:通常從數(shù)據(jù)的完整性、集中度、是否與其他變量強(qiáng)相關(guān)(甚至有因果關(guān)系)等角度來(lái)考慮,比如某個(gè)變量在業(yè)務(wù)上很有價(jià)值,但缺失率達(dá)到90%,或者一個(gè)非布爾值變量卻集中于兩個(gè)值,那么這個(gè)時(shí)候我們就要考慮,加入這個(gè)變量是否對(duì)后續(xù)分析有價(jià)值。
我個(gè)人認(rèn)為,在選擇變量時(shí),業(yè)務(wù)邏輯應(yīng)該優(yōu)先于數(shù)據(jù)邏輯,蓋因業(yè)務(wù)邏輯是從實(shí)際情況中自然產(chǎn)生,而建模的結(jié)果也要反饋到實(shí)際中去,因此選擇變量時(shí),業(yè)務(wù)邏輯重要程度相對(duì)更高。
而在變量本身不適合直接拿來(lái)建模時(shí),例如調(diào)查問(wèn)卷中的滿意度,是漢字的“不滿意”“一般”“滿意”,那么需要將其重構(gòu)成“1”(對(duì)應(yīng)不滿意)“2”(對(duì)應(yīng)一般)“3”(對(duì)應(yīng)滿意)的數(shù)字形式,便于后續(xù)建模使用。
除這種重構(gòu)方式之外,將變量進(jìn)行單獨(dú)計(jì)算(如取均值)和組合計(jì)算(如A*B)也是常用的重構(gòu)方法。其他的重構(gòu)方法還有很多種,在此不一一闡述。
我們?cè)诮r(shí),目標(biāo)是解決商業(yè)問(wèn)題,而不是為了建模而建模,故此我們需要選擇適合的算法。常用建模算法包括相關(guān)、聚類(lèi)、分類(lèi)(決策樹(shù))、時(shí)間序列、回歸、神經(jīng)網(wǎng)絡(luò)等。
以對(duì)消費(fèi)者的建模為例,舉一些場(chǎng)景下的常用算法對(duì)應(yīng):
劃分消費(fèi)者群體:聚類(lèi),分類(lèi);
購(gòu)物籃分析:相關(guān),聚類(lèi);
購(gòu)買(mǎi)額預(yù)測(cè):回歸,時(shí)間序列;
滿意度調(diào)查:回歸,聚類(lèi),分類(lèi);
等等。
確定算法后,要再看一下變量是否滿足算法要求,如果不滿足,回到選擇/重構(gòu)變量,再來(lái)一遍吧。如果滿足,進(jìn)入下一步。
算法選定后,需要用數(shù)據(jù)分析工具進(jìn)行建模。針對(duì)不同的模型,需要調(diào)整參數(shù),例如聚類(lèi)模型中的K-means算法,需要給出希望聚成的類(lèi)別數(shù)量,更進(jìn)一步需要給出的起始的聚類(lèi)中心和迭代次數(shù)上限。
這些參數(shù)在后續(xù)測(cè)試中會(huì)經(jīng)過(guò)多次調(diào)整,很少有一次測(cè)試成功的情況,因此請(qǐng)做好心理準(zhǔn)備。
算法跑完之后,要根據(jù)算法的輸出結(jié)果來(lái)確定該算法是否能夠解決問(wèn)題,比如K-means的結(jié)果不好,那么考慮換成系統(tǒng)聚類(lèi)算法來(lái)解決?;蛘呋貧w模型輸出的結(jié)果不滿足需求,考慮用時(shí)間序列來(lái)做。
如果不需要換算法,那么就測(cè)試一下算法輸出的結(jié)果是否有提升空間,比如聚類(lèi)算法中指定聚類(lèi)結(jié)果包含4類(lèi)人群,但發(fā)現(xiàn)其中的兩類(lèi)特征很接近,或者某一類(lèi)人群沒(méi)有明顯特征,那么可以調(diào)整參數(shù)后再試。
在不斷的調(diào)整參數(shù),優(yōu)化模型過(guò)程中,模型的解釋能力和實(shí)用性會(huì)不斷的提升。當(dāng)你認(rèn)為模型已經(jīng)能夠滿足目標(biāo)需求了,那就可以輸出結(jié)果了。一個(gè)報(bào)告,一些規(guī)則,一段代碼,都可能成為模型的輸出。在輸出之后,還有最后一步:接收業(yè)務(wù)人員的反饋,看看模型是否解決了他們的問(wèn)題,如果沒(méi)有,回到第一步,再來(lái)一次吧少年……
以上,就是建模的一般過(guò)程。如果你有些地方覺(jué)得比較生澀,難以理解,也沒(méi)有關(guān)系。下一篇專(zhuān)欄中,我將向你們介紹一個(gè)具體的數(shù)據(jù)模型,我會(huì)對(duì)建模的過(guò)程一步步進(jìn)行拆解,力求簡(jiǎn)明易懂。
我寫(xiě)了個(gè)建模的流程,有過(guò)建模經(jīng)驗(yàn)的人自然懂,沒(méi)有經(jīng)驗(yàn)的各位也不要著急,這次我以一個(gè)真實(shí)模型為例,給大家詳細(xì)講述建模的各個(gè)步驟。照例,先上流程圖:
大家可以看到,這個(gè)圖是由我之前文章中的兩張圖拼合而來(lái),而我今天講的這個(gè)真實(shí)模型,將把圖中所有的流程都走一遍,保證一個(gè)步驟都不漏。
話說(shuō)這個(gè)項(xiàng)目跟我加入百度有直接關(guān)系……
2013年的最后一天,我結(jié)束了在三亞的假期,準(zhǔn)備坐飛機(jī)回家,這時(shí)候接到一個(gè)知乎私信,問(wèn)我對(duì)百度的一個(gè)數(shù)據(jù)科學(xué)家(其實(shí)就是數(shù)據(jù)分析師啦)職位是否感興趣,我立刻回信,定了元旦假期以后去面試。兩輪面試過(guò)后,面試官——也是我加入百度后的直屬Leader——打電話給我,說(shuō)他們對(duì)我的經(jīng)歷很滿意,但是需要我給他們一份能體現(xiàn)建模能力的報(bào)告。
按說(shuō)這也不是一件難事,但我翻了翻電腦后發(fā)現(xiàn)一個(gè)問(wèn)題:我從上家公司離職時(shí),為了裝13,一份跟建模相關(guān)的報(bào)告文件都沒(méi)帶……最后雙方商定,我有一個(gè)星期時(shí)間來(lái)做一份報(bào)告,這份報(bào)告決定了我是否能加入百度。
那么,是時(shí)候展示我的技術(shù)了!我的回合,抽卡!
看看報(bào)告的要求:
數(shù)據(jù)最好是通過(guò)抓取得來(lái),需要用到至少一種(除描述統(tǒng)計(jì)以外)的建模技術(shù),最好有數(shù)據(jù)可視化的展示
看來(lái)是道開(kāi)放題,那么自然要選擇一個(gè)我比較熟悉的領(lǐng)域,因此我選擇了……《二手主機(jī)游戲交易論壇用戶(hù)行為分析》
為啥選這個(gè)呢?你們看了我那么多的Mario圖,自然知道我會(huì)選主機(jī)游戲領(lǐng)域,但為什么是二手?這要說(shuō)到我待在國(guó)企的最后半年,那時(shí)候我一個(gè)月忙三天,剩下基本沒(méi)事干,因此泡在論壇上倒賣(mài)了一段時(shí)間的二手游戲……
咳咳……總之,目標(biāo)就確定了:分析某二手主機(jī)游戲交易論壇上的帖子,從中得出其用戶(hù)行為的描述,為用戶(hù)進(jìn)行分類(lèi),輸出洞察報(bào)告。
簡(jiǎn)單來(lái)說(shuō),就是用python寫(xiě)了個(gè)定向爬蟲(chóng),抓了某個(gè)著名游戲論壇的二手區(qū)所有的發(fā)帖信息,包括帖子內(nèi)容、發(fā)帖人信息等,基本上就是長(zhǎng)這個(gè)樣子:
(打碼方式比較簡(jiǎn)單粗暴,請(qǐng)湊合看吧……)
這個(gè)模型中的數(shù)據(jù)清洗,主要是洗掉帖子中的無(wú)效信息,包括以下兩類(lèi):
1、論壇由于其特殊性,很多人成交后會(huì)把帖子改成《已出》等標(biāo)題,這一類(lèi)數(shù)據(jù)需要?jiǎng)h除:
2、有一部分人用直接貼圖的方式放求購(gòu)信息,這部分體現(xiàn)為只抓到圖片鏈接,需要?jiǎng)h除。
數(shù)據(jù)清洗結(jié)束了么?其實(shí)并沒(méi)有,后邊會(huì)再進(jìn)行一輪清洗……不過(guò)到時(shí)再說(shuō)。
用上面的那些帖子數(shù)據(jù)其實(shí)是跑不出啥結(jié)果的,我們需要把數(shù)據(jù)整理成可以進(jìn)一步分析的格式。
首先,我們給每條帖子打標(biāo)簽,標(biāo)簽分為三類(lèi):行為類(lèi)型(買(mǎi) OR 賣(mài) OR 換),目標(biāo)廠商(微軟 OR 索尼 OR 任天堂),目標(biāo)對(duì)象(主機(jī) OR 游戲軟件)。打標(biāo)簽?zāi)J绞恰狈详P(guān)鍵詞—打相應(yīng)標(biāo)簽“的方法,關(guān)鍵詞表樣例如下:
(主機(jī)掌機(jī)那個(gè)標(biāo)簽后來(lái)我在實(shí)際操作時(shí)沒(méi)有使用)
打完標(biāo)簽之后,會(huì)發(fā)現(xiàn)有很多帖子沒(méi)有打上標(biāo)簽,原因有兩種:一是關(guān)鍵詞沒(méi)有涵蓋所有的產(chǎn)品表述(比如三公主這種昵稱(chēng)),二是有一部分人發(fā)的帖子跟買(mǎi)賣(mài)游戲無(wú)關(guān)……
這讓人怎么玩……第二次數(shù)據(jù)清洗開(kāi)始,把這部分帖子也洗掉吧。
其次,我們用發(fā)帖用戶(hù)作為視角,輸出一份用戶(hù)的統(tǒng)計(jì)表格,里邊包含每個(gè)用戶(hù)的發(fā)帖數(shù)、求購(gòu)次數(shù)、出售次數(shù)、交換次數(shù)、每一類(lèi)主機(jī)/游戲的行為次數(shù)等等,作為后續(xù)搭建用戶(hù)分析模型之用。表格大概長(zhǎng)這個(gè)樣子:
之后這個(gè)表的列數(shù)會(huì)越來(lái)越多,因?yàn)閿?shù)據(jù)重構(gòu)的工作都在此表中進(jìn)行。
整理之后,我們準(zhǔn)備進(jìn)行描述統(tǒng)計(jì)。
描述統(tǒng)計(jì)在這個(gè)項(xiàng)目中的意義在于,描述這一社區(qū)的二手游戲及主機(jī)市場(chǎng)的基本情況,為后續(xù)用戶(hù)模型的建立提供基礎(chǔ)信息。
具體如何進(jìn)行統(tǒng)計(jì)就不說(shuō)了,直接放成品圖,分別是從各主機(jī)市場(chǎng)份額、用戶(hù)相互轉(zhuǎn)化情況、地域分布情況進(jìn)行的洞察。
因?yàn)槲乙芯康氖沁@些用戶(hù)與二手交易相關(guān)的行為,因此初步選擇變量為發(fā)帖數(shù)量、微軟主機(jī)擁有臺(tái)數(shù)、索尼主機(jī)擁有臺(tái)數(shù)、任天堂主機(jī)擁有臺(tái)數(shù)。
算法上面,我們的目標(biāo)是將用戶(hù)分群,因此選擇聚類(lèi),方法選擇最簡(jiǎn)單的K-means算法。
K-means算法除了輸入變量以外,還需要設(shè)定聚類(lèi)數(shù),我們先拍腦袋聚個(gè)五類(lèi)吧!
(別笑,實(shí)際操作中很多初始參數(shù)都是靠拍腦袋得來(lái)的,要通過(guò)結(jié)果來(lái)逐步優(yōu)化)
看看結(jié)果:
第一類(lèi)別的用戶(hù)數(shù)跟總體已經(jīng)很接近了,完全沒(méi)有區(qū)分度??!
這一節(jié)你看標(biāo)題都這么長(zhǎng)……
既然我們用原始值來(lái)聚類(lèi)的結(jié)果不太好,那么我把原始值重構(gòu)成若干檔次,比如發(fā)帖1-10的轉(zhuǎn)換為1,10-50的轉(zhuǎn)換為2,依次類(lèi)推,再聚一次看看結(jié)果。
哦哦!看上去有那么點(diǎn)意思了!不過(guò)有一類(lèi)的數(shù)量還是有一點(diǎn)少,我們聚成四類(lèi)試試:
哦哦,完美! 我們運(yùn)氣不錯(cuò),一次變量重構(gòu)就輸出了一個(gè)看上去還可以的模型結(jié)果,接下來(lái)去測(cè)試一下吧。
測(cè)試過(guò)程中,很重要的一步是要看模型的可解釋性,如果可解釋性較差,那么打回重做……
接下來(lái),我們看看每一類(lèi)的統(tǒng)計(jì)數(shù)據(jù):
這個(gè)表出來(lái)以后,基本上可以對(duì)我們聚類(lèi)結(jié)果中的每一類(lèi)人群進(jìn)行解讀了。結(jié)果測(cè)試通過(guò)!
這個(gè)模型不用回朔到系統(tǒng)中,因?yàn)閮H僅是一個(gè)我們用來(lái)研究的模型而已。因此,輸出規(guī)則和模型加載兩步可以跳過(guò),直接進(jìn)入報(bào)告撰寫(xiě)。
聚類(lèi)模型的結(jié)果可歸結(jié)為下圖:
眼熟不?在我的第二篇專(zhuān)欄文章第一份數(shù)據(jù)報(bào)告的誕生 – 一個(gè)數(shù)據(jù)分析師的自我修養(yǎng) 中,我用這張圖來(lái)說(shuō)明了洞察結(jié)論的重要性,現(xiàn)在你們應(yīng)該知道這張圖是如何得來(lái)的了。
撰寫(xiě)報(bào)告的另外一部分,在描述統(tǒng)計(jì)-洞察結(jié)論的過(guò)程中已經(jīng)提到了,把兩部分放在一次,加上背景、研究方法等內(nèi)容,就是完整的報(bào)告啦!
最后附送幾張各類(lèi)用戶(hù)發(fā)帖內(nèi)容中的關(guān)鍵詞詞云圖:
那么,這篇文章就到此結(jié)束了,最后的最后,公布一下我做這份報(bào)告用到的工具:
大家可以看到,要當(dāng)一個(gè)數(shù)據(jù)分析師,要用到很多類(lèi)別的工具,多學(xué)一點(diǎn)總是沒(méi)有壞處的,在此與大家共勉。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10