
淺談數(shù)據(jù)分析和數(shù)據(jù)建模
大數(shù)據(jù)應(yīng)用有幾個(gè)方面,一個(gè)是效率提升,幫助企業(yè)提升數(shù)據(jù)處理效率,降低數(shù)據(jù)存儲(chǔ)成本。另外一個(gè)是對(duì)業(yè)務(wù)作出指導(dǎo),例如精準(zhǔn)營(yíng)銷,反欺詐,風(fēng)險(xiǎn)管理以及業(yè)務(wù)提升。過去企業(yè)都是通過線下渠道接觸客戶,客戶數(shù)據(jù)不全,只能利用財(cái)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)運(yùn)營(yíng)分析,缺少圍繞客戶的個(gè)人數(shù)據(jù),數(shù)據(jù)分析應(yīng)用的領(lǐng)域集中在企業(yè)內(nèi)部經(jīng)營(yíng)和財(cái)務(wù)分析。
數(shù)字時(shí)代到來(lái)之后,企業(yè)經(jīng)營(yíng)的各個(gè)階段都可以被記錄下來(lái),產(chǎn)品銷售的各個(gè)環(huán)節(jié)也被記錄下來(lái),客戶的消費(fèi)行為和網(wǎng)上行為都被采集下來(lái)。企業(yè)擁有了多維度的數(shù)據(jù),包括產(chǎn)品銷售數(shù)據(jù)、客戶消費(fèi)數(shù)據(jù)、客戶行為數(shù)據(jù)、企業(yè)運(yùn)營(yíng)數(shù)據(jù)等。擁有數(shù)據(jù)之后,數(shù)據(jù)分析成為可能,企業(yè)成立了數(shù)據(jù)分析團(tuán)隊(duì)整理數(shù)據(jù)和建立模型,找到商品和客戶之間的關(guān)聯(lián)關(guān)系,商品之間關(guān)聯(lián)關(guān)系,另外也找到了收入和客戶之間的關(guān)聯(lián)關(guān)系。典型的數(shù)據(jù)分析案例如沃爾瑪啤酒和尿布、蛋撻和手電筒,Target的判斷16歲少女懷孕都是這種關(guān)聯(lián)關(guān)系的體現(xiàn)。
關(guān)聯(lián)分析是統(tǒng)計(jì)學(xué)應(yīng)用最早的領(lǐng)域,早在1846年倫敦第二次霍亂期間,約翰醫(yī)生利用霍亂地圖找到了霍亂的傳播途徑,平息了倫敦霍亂,打敗了霍亂源于空氣污染說(shuō)的精英,拯救了幾萬(wàn)人的生命。倫敦霍亂平息過程中,約翰醫(yī)生利用了頻數(shù)分布分析,建立了霍亂地圖,從死亡案例分布的密集程度上歸納出病人分布同水井的關(guān)系,從而推斷出污染的水源是霍亂的主要傳播途徑,建議移除水井手柄,降低了霍亂發(fā)生的概率。
另外一個(gè)典型案例是第二次世界大戰(zhàn)期間,統(tǒng)計(jì)分析學(xué)家改造轟炸機(jī)。英美聯(lián)盟從1943年開始對(duì)德國(guó)的工業(yè)城市進(jìn)行轟炸,但在1943年年底,轟炸機(jī)的損失率達(dá)到了英美聯(lián)盟不能承受的程度。轟炸軍司令部請(qǐng)來(lái)了統(tǒng)計(jì)學(xué)家,希望利用數(shù)據(jù)分析來(lái)改造轟炸機(jī)的結(jié)構(gòu),降低陣亡率,提高士兵生還率。統(tǒng)計(jì)學(xué)家利用大尺寸的飛機(jī)模型,詳細(xì)記錄了返航轟炸機(jī)的損傷情況。統(tǒng)計(jì)學(xué)家在飛機(jī)模型上將轟炸機(jī)受到攻擊的部位用黑筆標(biāo)注出來(lái),兩個(gè)月后,這些標(biāo)注布滿了機(jī)身,有的地方標(biāo)注明顯多于其他地方,例如機(jī)身和側(cè)翼。有的地方的標(biāo)注明顯少于其他地方,例如駕駛室和發(fā)動(dòng)機(jī)。統(tǒng)計(jì)學(xué)家讓軍火商來(lái)看這個(gè)模型,軍火商認(rèn)為應(yīng)該加固受到更多攻擊的地方,但是統(tǒng)計(jì)學(xué)家建議對(duì)標(biāo)注少的地方進(jìn)行加固,標(biāo)注少的原因不是這些地方不容易被擊中,而是被擊中的這些地方的飛機(jī),很多都沒有返航。這些標(biāo)注少的地方被擊中是飛機(jī)墜毀的一個(gè)主要原因。軍火商按照統(tǒng)計(jì)學(xué)家的建議進(jìn)行了飛機(jī)加固,大大提高了轟炸機(jī)返航的比率。以二戰(zhàn)著名的B-17轟炸機(jī)為例,其陣亡率由26%降到了7%,幫助美軍節(jié)約了幾億美金,大大提高了士兵的生還率。
一數(shù)據(jù)分析中的角色和職責(zé)
數(shù)據(jù)分析團(tuán)隊(duì)?wèi)?yīng)該在科技部門內(nèi)部還在業(yè)務(wù)部門內(nèi)部一直存在爭(zhēng)議。在業(yè)務(wù)部門內(nèi)部,對(duì)數(shù)據(jù)場(chǎng)景比較了解,容易找到數(shù)據(jù)變現(xiàn)的場(chǎng)景,數(shù)據(jù)分析對(duì)業(yè)務(wù)提升幫助較大,容易出成績(jī)。但是弊端是僅僅對(duì)自己部門的業(yè)務(wù)數(shù)據(jù)了解,分析只是局限獨(dú)立的業(yè)務(wù)單元之內(nèi),在數(shù)據(jù)獲取的效率上,數(shù)據(jù)維度和數(shù)據(jù)視角方面缺乏全局觀,數(shù)據(jù)的商業(yè)視野不大,對(duì)公司整體業(yè)務(wù)的推動(dòng)發(fā)展有限。業(yè)務(wù)部門的數(shù)據(jù)分析團(tuán)隊(duì)缺少數(shù)據(jù)技術(shù)能力,無(wú)法利用最新的大數(shù)據(jù)計(jì)算和分析技術(shù),來(lái)實(shí)現(xiàn)數(shù)據(jù)分析和建模。數(shù)據(jù)分析和計(jì)算依賴于科技部門,效率較低,無(wú)法打通各個(gè)環(huán)節(jié)和實(shí)現(xiàn)效率和收益最優(yōu)。
數(shù)據(jù)分析和挖掘部門位于科技部門,優(yōu)點(diǎn)是直接可以了解所有數(shù)據(jù),利用最新的大數(shù)據(jù)計(jì)算分析技術(shù)來(lái)進(jìn)行數(shù)據(jù)分析和建模,數(shù)據(jù)視野好。面對(duì)全局?jǐn)?shù)據(jù)建立數(shù)據(jù)采集和分析系統(tǒng),系統(tǒng)復(fù)用程度高,降低重復(fù)投資,效率高。但是團(tuán)隊(duì)人員商業(yè)敏感度低,過度關(guān)注技術(shù)和架構(gòu),重視技術(shù)的領(lǐng)先和處理效率,數(shù)據(jù)商業(yè)敏感度低,不重視數(shù)據(jù)商業(yè)化場(chǎng)景,對(duì)業(yè)務(wù)理解程度不夠,支持力度不如前者??萍疾块T愿意搭建一個(gè)大數(shù)據(jù)平臺(tái),讓業(yè)務(wù)部門自己去尋數(shù)據(jù)場(chǎng)景,業(yè)務(wù)部門在數(shù)據(jù)商業(yè)化過程中也會(huì)遇到環(huán)節(jié)不暢通,效率低下的問題。
數(shù)據(jù)分析團(tuán)隊(duì)?wèi)?yīng)該屬于獨(dú)立的部門,為所有的業(yè)務(wù)部門提供服務(wù),具有獨(dú)立的技術(shù)團(tuán)隊(duì),可以搭建獨(dú)立的大數(shù)據(jù)計(jì)算和分析平臺(tái),利用最新的數(shù)據(jù)處理技術(shù)來(lái)建立模型進(jìn)行分析。另外數(shù)據(jù)分析團(tuán)隊(duì)的人應(yīng)來(lái)源于業(yè)務(wù)部門,具有高度的數(shù)據(jù)商業(yè)敏感度,可以將業(yè)務(wù)部門的需求分解為數(shù)據(jù)需求,將業(yè)務(wù)場(chǎng)景同數(shù)據(jù)場(chǎng)景以及數(shù)據(jù)分析相結(jié)合起來(lái)。
數(shù)據(jù)分析是一項(xiàng)實(shí)踐性很強(qiáng)的工作,涉及到很多交叉學(xué)科,需要不同的崗位和角色,來(lái)實(shí)現(xiàn)不同的性質(zhì)的工作?;镜膷徫缓徒巧缦?/span>
1 數(shù)據(jù)庫(kù)(倉(cāng)庫(kù))管理員DBA
DBA最了解企業(yè)內(nèi)部的數(shù)據(jù)和可用的數(shù)據(jù)資源,包括數(shù)據(jù)的存儲(chǔ)細(xì)節(jié)和數(shù)據(jù)字典,另外其對(duì)數(shù)據(jù)的采集、清洗和轉(zhuǎn)化起到關(guān)鍵作用。
DBA為數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師提供加工好的原始數(shù)據(jù),這些數(shù)據(jù)是數(shù)據(jù)分析和建模的基礎(chǔ),DBA做了數(shù)據(jù)分析工作中最重要的基礎(chǔ)工作,完成了大量的臟活和累活。
2 業(yè)務(wù)專家
業(yè)務(wù)專家的優(yōu)勢(shì)是數(shù)據(jù)的商業(yè)敏感度,了解業(yè)務(wù)需求,可以將業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)需求,進(jìn)一步找到數(shù)據(jù)應(yīng)用場(chǎng)景。另外業(yè)務(wù)專家也可以通過對(duì)數(shù)據(jù)的分析,找到新的商業(yè)機(jī)會(huì),同業(yè)務(wù)部門一起制定商業(yè)計(jì)劃,利用數(shù)據(jù)分析推動(dòng)業(yè)務(wù)增長(zhǎng)。
業(yè)務(wù)專家的經(jīng)驗(yàn)對(duì)于數(shù)據(jù)分析和建模是非常關(guān)鍵的,他們可能是風(fēng)險(xiǎn)管理人員、欺詐監(jiān)測(cè)專家、投資專家等。數(shù)據(jù)建模來(lái)源于業(yè)務(wù)經(jīng)驗(yàn)和業(yè)務(wù)知識(shí),正是業(yè)務(wù)專家的專業(yè)分析找到了業(yè)務(wù)規(guī)律,從而找到了建模方向,并對(duì)建模工作給出建議和解釋。
3 數(shù)據(jù)科學(xué)家
過去統(tǒng)計(jì)分析依賴于統(tǒng)計(jì)分析工具,大數(shù)據(jù)時(shí)代之后,數(shù)據(jù)量級(jí)的提升和數(shù)據(jù)類型的復(fù)雜程度,讓很多傳統(tǒng)的統(tǒng)計(jì)分析工具無(wú)法完成分析計(jì)算。這個(gè)時(shí)候,數(shù)據(jù)科學(xué)家出現(xiàn)了,他們可以利用自己的專業(yè)技能幫助業(yè)務(wù)專家和數(shù)據(jù)分析人員進(jìn)行建模和計(jì)算。
過去數(shù)據(jù)統(tǒng)計(jì)分析建模常用SPSS,SAS,MATLAB等工具,現(xiàn)在基于大數(shù)據(jù)平臺(tái)的分析建??梢允褂肧park+Scala/Python/R/Java。數(shù)據(jù)科學(xué)家了解模型和算法,可以直接承擔(dān)建模和調(diào)優(yōu)工作,懂得選擇合適的算法來(lái)進(jìn)行計(jì)算,提高效率。
4數(shù)據(jù)分析師
數(shù)據(jù)分析師站在數(shù)據(jù)和商業(yè)的角度來(lái)解讀數(shù)據(jù),利用圖標(biāo)和曲線等方式向管理層和業(yè)務(wù)人員展現(xiàn)分析結(jié)果,揭示數(shù)據(jù)分析產(chǎn)生的商業(yè)機(jī)會(huì)和挑戰(zhàn)。
數(shù)據(jù)分析師將雜亂的數(shù)據(jù)進(jìn)行整理后,將數(shù)據(jù)以不同的形式展現(xiàn)給產(chǎn)品經(jīng)理、運(yùn)營(yíng)人員、營(yíng)銷人員、財(cái)務(wù)人員、業(yè)務(wù)人員等。提出基于數(shù)據(jù)的結(jié)果和分析建議,完成數(shù)據(jù)從原始到商業(yè)化應(yīng)用到關(guān)鍵一步,數(shù)據(jù)分析師的數(shù)據(jù)敏感度、商業(yè)敏感度、分析角度、表達(dá)方式對(duì)于商業(yè)決策很重要。
5 運(yùn)營(yíng)專家
數(shù)據(jù)分析結(jié)果和商業(yè)決策出來(lái)之后,運(yùn)營(yíng)專家負(fù)責(zé)實(shí)現(xiàn)商業(yè)決策。通過有計(jì)劃的運(yùn)營(yíng)活動(dòng),將數(shù)據(jù)分析的結(jié)果應(yīng)用到實(shí)際的商業(yè)活動(dòng)之中,運(yùn)營(yíng)專家是實(shí)現(xiàn)數(shù)據(jù)變現(xiàn)最后一公里的關(guān)鍵人物。
運(yùn)營(yíng)專家屬于業(yè)務(wù)人員,實(shí)際上參與業(yè)務(wù)運(yùn)營(yíng)活動(dòng),利用數(shù)據(jù)分析結(jié)果,實(shí)現(xiàn)業(yè)務(wù)場(chǎng)景和數(shù)據(jù)場(chǎng)景的結(jié)合,實(shí)現(xiàn)數(shù)據(jù)商業(yè)化應(yīng)用。
二數(shù)據(jù)分析之前的各項(xiàng)準(zhǔn)備工作
數(shù)據(jù)分析團(tuán)隊(duì)各成員確定之后,將進(jìn)行下一項(xiàng)工作,就是找到有價(jià)值的數(shù)據(jù)進(jìn)行分析了。數(shù)據(jù)是分析的基礎(chǔ),因此數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的相關(guān)度、數(shù)據(jù)的維度等會(huì)影響數(shù)據(jù)分析的結(jié)果影,其中GIGO(垃圾進(jìn)垃圾出)對(duì)于數(shù)據(jù)分析結(jié)果影響最大。 1 數(shù)據(jù)源選擇
數(shù)據(jù)分析團(tuán)隊(duì)面對(duì)大量的數(shù)據(jù)源,各個(gè)數(shù)據(jù)源之間交叉聯(lián)系,各個(gè)數(shù)據(jù)域之間具有邏輯關(guān)系,各個(gè)產(chǎn)品統(tǒng)計(jì)口徑不同,不同的時(shí)間段數(shù)值不同等。這一系列問題多會(huì)影響數(shù)據(jù)分析結(jié)果,因此確定數(shù)據(jù)源選擇和數(shù)據(jù)整理至關(guān)重要。
DBA可以基于數(shù)據(jù)分析需要,找到相關(guān)數(shù)據(jù),建立一張數(shù)據(jù)寬表,將數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)引入到這張寬表當(dāng)中,基于一定的邏輯關(guān)系進(jìn)行匯總計(jì)算。這張寬表作為數(shù)據(jù)分析的基礎(chǔ),然后再依據(jù)數(shù)據(jù)分析需要衍生出一些不同的表單,為數(shù)據(jù)分析提供干凈全面的數(shù)據(jù)源。寬表一方面是用于集中相關(guān)分析數(shù)據(jù),一方面是提高效率,不需要每次分析時(shí)都查詢其他的數(shù)據(jù)表,影響數(shù)據(jù)倉(cāng)庫(kù)效率。
2 數(shù)據(jù)抽樣選擇
簡(jiǎn)單的數(shù)據(jù)分析可以調(diào)用全體數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)抽樣主要用于建模分析,抽樣需考慮樣本具有代表性,覆蓋各種客戶類型,抽樣的時(shí)間也很重要,越近的時(shí)間窗口越有利于分析和預(yù)測(cè)。在進(jìn)行分層抽樣時(shí),需要保證分成出來(lái)的樣本比例同原始數(shù)據(jù)基本一致。
3 數(shù)據(jù)類型選擇
數(shù)據(jù)類型分為連續(xù)型和離散型,建模分析時(shí)需要確定數(shù)據(jù)類型。進(jìn)行業(yè)務(wù)收入趨勢(shì)分析、銷售額預(yù)測(cè)分析、RFM分析時(shí),一般采用連續(xù)型變量。信用評(píng)級(jí)、分類預(yù)測(cè)時(shí)一般采用離散變量。
4 缺失值處理
數(shù)據(jù)分析過程中會(huì)面對(duì)很多缺失值,其產(chǎn)生原因不同,有的是由于隱私的原因,故意隱去。有的是變量本身就沒有數(shù)值,有的是數(shù)據(jù)合并時(shí)不當(dāng)操作產(chǎn)生的數(shù)據(jù)缺失。
缺失值處理可以采用替代法(估值法),利用已知經(jīng)驗(yàn)值代替缺失值,維持缺失值不變和刪除缺失值等方法。具體方法將參考變量和自變量的關(guān)系以及樣本量的多少來(lái)決定。
5 異常值檢測(cè)和處理
異常值對(duì)于某些數(shù)據(jù)分析結(jié)果影響很大,例如聚類分析、線性回歸(邏輯回歸)。但是對(duì)決策樹、神經(jīng)網(wǎng)絡(luò)、SVM支持向量機(jī)影響較小。
一般異常值是指明顯偏離觀測(cè)值的平均值,例如年齡為200歲,平均收入為10萬(wàn)元時(shí),有個(gè)異常值為300萬(wàn)元。第一個(gè)異常值為無(wú)效異常值,需要?jiǎng)h掉,但是第二個(gè)異常值可能屬于有效異常值,可以根據(jù)經(jīng)驗(yàn)來(lái)決定是否保留或刪掉。
數(shù)據(jù)標(biāo)準(zhǔn)化的目的是將不同性質(zhì)、不同量級(jí)的數(shù)據(jù)進(jìn)行指數(shù)化處理,調(diào)整到可以類比的范圍。例如在建立邏輯回歸模型時(shí),性別的取值是0或以,但是收入取值可能就是0-100萬(wàn),跨度較大,需要進(jìn)行標(biāo)準(zhǔn)化。
一般可以采用最佳/最大標(biāo)準(zhǔn)化(Min-Max 標(biāo)準(zhǔn)化法)將數(shù)值定在0和1之間,便于計(jì)算。Z分?jǐn)?shù)法和小數(shù)定標(biāo)標(biāo)準(zhǔn)化法也可以采用。
7 數(shù)據(jù)粗分類(Categorization)處理
歸類和分類的目的是減少樣本的變量,常有的方法由等間距分類,等頻數(shù)分類??梢砸罁?jù)經(jīng)驗(yàn)將自變量分成幾類,分類的方法可以不同,建議采用卡方檢驗(yàn)來(lái)決定采用哪種分類方法。連續(xù)型變量可以用WOE變化方法來(lái)簡(jiǎn)化模型,但降低了模型的可解釋性。
8 變量選擇
數(shù)據(jù)分析過程中會(huì)面對(duì)成百上千的變量,一般情況下只有少數(shù)變量同目標(biāo)變量有關(guān),有助于提高預(yù)測(cè)精度。通常建模分析時(shí),有意義的變量不會(huì)超過10-15個(gè),稱他們?yōu)閺?qiáng)相關(guān)變量(聰明變量)??梢岳米兞窟^濾器的方法來(lái)選擇變量。常見的變量過濾器應(yīng)用場(chǎng)景如下。
一般IV值大于0.3代表變量的預(yù)測(cè)力較強(qiáng),可以采用。
三數(shù)據(jù)分析過程
1 向業(yè)務(wù)部門進(jìn)行調(diào)研,了解業(yè)務(wù)需要解決的問題,將業(yè)務(wù)問題映射成數(shù)據(jù)分析工作和任務(wù)
2 調(diào)研企業(yè)內(nèi)外部數(shù)據(jù),找到分析需要的數(shù)據(jù),將數(shù)據(jù)匯聚到一個(gè)特定的區(qū)域,數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù),探索性分析
3 數(shù)據(jù)清洗,包括檢查數(shù)據(jù)的一致性,處理異常值和缺失值,刪除重復(fù)數(shù)據(jù)等
4 數(shù)據(jù)轉(zhuǎn)換,例如數(shù)據(jù)分箱(Binning),將字符型變量轉(zhuǎn)化為數(shù)字型變量,按照數(shù)據(jù)所需維度進(jìn)行匯總
5 建立模型,按照業(yè)務(wù)需求建立不同模型(例如客戶流失預(yù)警、欺詐檢測(cè)、購(gòu)物籃分析、營(yíng)銷響應(yīng)等)
6 模型結(jié)果解釋和評(píng)估,業(yè)務(wù)專家進(jìn)行業(yè)務(wù)解釋和結(jié)果評(píng)價(jià)
四大數(shù)據(jù)分析場(chǎng)景和模型應(yīng)用
數(shù)據(jù)分析建模需要先明確業(yè)務(wù)需求,然后選擇是描述型分析還是預(yù)測(cè)型分析。如果分析的目的是描述客戶行為模式,就采用描述型數(shù)據(jù)分析,描述型分析就考慮關(guān)聯(lián)規(guī)則、序列規(guī)則、聚類等模型。
預(yù)測(cè)型數(shù)據(jù)分析就是量化未來(lái)一段時(shí)間內(nèi),某個(gè)事件的發(fā)生概率。有兩大預(yù)測(cè)分析模型,分類預(yù)測(cè)和回歸預(yù)測(cè)。常見的分類預(yù)測(cè)模型中,目標(biāo)變量通常都是二元分類變量例如欺詐與否,流失與否,信用好壞等?;貧w預(yù)測(cè)模型中,目標(biāo)變量通常都是連續(xù)型變量,常見的有股票價(jià)格預(yù)測(cè)、違約損失率預(yù)測(cè)(LGD)等。
生存分析聚焦于將事件的結(jié)果和出現(xiàn)這一結(jié)果所經(jīng)歷的時(shí)間進(jìn)行分析,源于醫(yī)療領(lǐng)域,研究患者治療后的存活時(shí)間。生存分析可也可以用于預(yù)測(cè)客戶流失時(shí)間,客戶下次購(gòu)買時(shí)間,客戶違約時(shí)間,客戶提前償還貸款時(shí)間,客戶下次訪問網(wǎng)站時(shí)間等。
常見的數(shù)據(jù)分析應(yīng)用場(chǎng)景如下
1市場(chǎng)營(yíng)銷
營(yíng)銷響應(yīng)分析建模(邏輯回歸,決策樹)
凈提升度分析建模(關(guān)聯(lián)規(guī)則)
客戶保有分析建模(卡普蘭梅爾分析,神經(jīng)網(wǎng)絡(luò))
購(gòu)物藍(lán)分析(關(guān)聯(lián)分析Apriori)
自動(dòng)推薦系統(tǒng)(協(xié)同過濾推薦,基于內(nèi)容推薦,基于人口統(tǒng)計(jì)推薦,基于知識(shí)推薦,組合推薦,關(guān)聯(lián)規(guī)則)
客戶細(xì)分(聚類)
流失預(yù)測(cè)(邏輯回歸)
2風(fēng)險(xiǎn)管理
客戶信用風(fēng)險(xiǎn)評(píng)分(SVM,決策樹,神經(jīng)網(wǎng)絡(luò))
市場(chǎng)風(fēng)險(xiǎn)評(píng)分建模(邏輯回歸和決策樹)
運(yùn)營(yíng)風(fēng)險(xiǎn)評(píng)分建模(SVM)
欺詐檢測(cè)(決策樹,聚類,社交網(wǎng)絡(luò))
五 數(shù)據(jù)模型評(píng)價(jià)的方法
1 AUC值判別法 AUC小于0.7識(shí)別能力很弱
AUC在0.7-0.8之間識(shí)別能力可接受
AUC在0.8-0.9 之間識(shí)別能力卓越
AUC大于0.9 模型出現(xiàn)意外
2 KS 判別法
KS值大于0.2就表示具有較好的可預(yù)測(cè)性
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10