
以數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)用戶(hù)流失情況的方法
所有網(wǎng)絡(luò)服務(wù)及在線(xiàn)游戲的硬傷是什么?也就是游戲開(kāi)始頭幾分鐘或幾小時(shí)內(nèi)出現(xiàn)的大量用戶(hù)流失情況。已經(jīng)有不少人通過(guò)多種方式探索這個(gè)問(wèn)題的解決之道,其中多由界面的易用性和簡(jiǎn)潔性,免費(fèi)試玩模式的有效性,難度曲線(xiàn),以及新手教程質(zhì)量等方面入手。這些都是公認(rèn)的重要考慮因素。
而我們的目標(biāo)是研究新用戶(hù)為何早早退出游戲,并嘗試預(yù)測(cè)哪些用戶(hù)會(huì)提前離開(kāi)。在此,我們以MMOPRG游戲《永恒之塔》為研究案例,但其研究結(jié)果也適用于多種服務(wù)和游戲類(lèi)型。雖然這款游戲在調(diào)查期間是一款純訂閱游戲,并采用7天免費(fèi)試玩至20級(jí)的模式,多數(shù)流失用戶(hù)還不到付費(fèi)階段就已經(jīng)離開(kāi)游戲。我們主要研究的是促使用戶(hù)離開(kāi)的游戲內(nèi)部因素。
AION(from aiongamers.com)
行為研究表明,休閑玩家的注意力很有限。他們可能今天離開(kāi)游戲,明天甚至就想不起來(lái)自己曾安裝并玩過(guò)這款游戲。如果玩家離開(kāi)游戲,我們就得立即采取措施讓他們返回游戲。
但究竟該如何區(qū)分那些只是有事暫時(shí)無(wú)法登錄游戲的玩家和真正的休閑玩家?最理想的方式恐怕就是在玩家仍在玩游戲時(shí),就提前預(yù)測(cè)他們離開(kāi)游戲的可能性——這種預(yù)測(cè)甚至要早于他們產(chǎn)生離開(kāi)游戲的念頭。
我們的目標(biāo)很現(xiàn)實(shí)——在新玩家登錄游戲當(dāng)天就預(yù)測(cè)他們離開(kāi)的概率。我們將7天處于非活躍狀態(tài)的玩家定義為流失用戶(hù),目的并不是等待7天結(jié)束,確認(rèn)玩家不會(huì)重返游戲,而是在他們最后一天玩游戲時(shí)預(yù)測(cè)其流失可能性。
技術(shù)支持
我們已經(jīng)掌握大量數(shù)據(jù)。所幸《永恒之塔》這款韓國(guó)網(wǎng)游擁有理想的記錄系統(tǒng),它幾乎可以追蹤玩家每一步操作,支持查詢(xún)玩家前10級(jí),或者10小時(shí)內(nèi)的玩游戲數(shù)據(jù),可以鎖定50%以上的早期流失用戶(hù)。
我們使用的是兩個(gè)Dual Xeon E5630 blades,它們都運(yùn)行MS SQL 2008R2,其中一者作為數(shù)據(jù)倉(cāng)庫(kù)使用,另一個(gè)作為MS Analysis Services。我們只使用標(biāo)準(zhǔn)的微軟BI軟件棧。
第1階段:誤認(rèn)為自己無(wú)所不知
身為富有經(jīng)驗(yàn),并且經(jīng)歷100多次測(cè)試的游戲設(shè)計(jì)師,我確信自己的能力足以解答所有關(guān)于用戶(hù)流失的問(wèn)題。玩家若不知如何在游戲世界中進(jìn)行超時(shí)空傳送,他可能就會(huì)退出游戲。首個(gè)敵人帶來(lái)的致命一擊,也可能讓他退出。《永恒之塔》擁有絕妙的視覺(jué)效果,技術(shù)也很過(guò)硬,但卻并不是一款適合新玩家的游戲。
所以我就先扮演“普通玩家”,在游戲試玩期中體驗(yàn)了兩個(gè)種族的不同職業(yè),詳細(xì)記錄了游戲玩法中的問(wèn)題,并初步假設(shè)以下因素可能導(dǎo)致用戶(hù)流失:
*種族和職業(yè)。我認(rèn)為這是最主要的因素,因?yàn)榘l(fā)揮輔助作用的祭司的游戲玩法與強(qiáng)大的法師截然不同,這會(huì)影響玩家的游戲樂(lè)趣。
*玩家是否嘗試過(guò)俄羅斯運(yùn)營(yíng)商Innova代理的其他游戲?(Innova游戲使用的是同一個(gè)帳號(hào))
*玩家在不同程度和職業(yè)中嘗試過(guò)多少個(gè)角色?
*玩家在試玩期間每個(gè)等級(jí)以及總體游戲過(guò)程中的死亡情況。
*與其他玩家的組隊(duì)情況(包括高級(jí)和低級(jí)玩家)。
*玩家接收到的郵件及加入公會(huì)情況(以此檢測(cè)是否存在鐵桿玩家所掌握的“小號(hào)”)。
*每個(gè)等級(jí)及整個(gè)過(guò)程中完成的任務(wù)。
*在戰(zhàn)斗中使用的技能種類(lèi)。
這個(gè)列表描述了許多可能導(dǎo)致玩家離開(kāi)游戲的因素。
我們的第一個(gè)數(shù)據(jù)挖掘模型的理念很簡(jiǎn)單,就是將布爾型變量視為一個(gè)離開(kāi)用戶(hù),它可以指出用戶(hù)今天會(huì)離開(kāi)游戲,還是繼續(xù)在游戲中逗留一段時(shí)間:
Data Mining Lift Chart(from gamasutra)
以上圖表底部直線(xiàn)是一個(gè)簡(jiǎn)單的隨機(jī)猜測(cè)。上方飆升的線(xiàn)段命名為T(mén)he Transcendent One,它代表未來(lái)情況。這兩者間有一個(gè)波動(dòng)線(xiàn)段,代表我們的數(shù)據(jù)挖掘模型。我們的線(xiàn)段越接近The One,就說(shuō)明預(yù)測(cè)結(jié)果越準(zhǔn)確。這個(gè)圖表主要針對(duì)第7級(jí)用戶(hù),但對(duì)第2至9級(jí)的玩家來(lái)說(shuō)并無(wú)差別。
不幸的是,從中可以看出,我們的首個(gè)模型就像是拋硬幣看正反面來(lái)預(yù)測(cè)未來(lái)情況。所以我們需要抽取其他假設(shè)進(jìn)行分析:
Data Mining Lift Chart (from gamasutra)
現(xiàn)在情況略有好轉(zhuǎn),但預(yù)測(cè)的準(zhǔn)確性?xún)H超過(guò)50%,誤報(bào)率仍然達(dá)到了驚人的28%。
注:準(zhǔn)確率越高,這個(gè)模型檢測(cè)到的真實(shí)流失用戶(hù)也就越多。誤報(bào)率是指將某些玩家預(yù)測(cè)為流失用戶(hù),而實(shí)際上并非如此。
第1階段結(jié)果:我所有的初步想法都錯(cuò)了。
第2階段:發(fā)現(xiàn)自己完全是新手
第一個(gè)也是最簡(jiǎn)單的數(shù)據(jù)挖掘算法就是Naive Bayes(樸素貝葉斯分類(lèi)器),它極具人性化并且通俗易懂。但它表明原先的假設(shè)參數(shù)無(wú)法與真實(shí)的流失用戶(hù)對(duì)應(yīng)。第二種方法是Decision Trees(決策樹(shù)),它指出我的一些想法確實(shí)很管用,但并不足以最大化提升預(yù)測(cè)準(zhǔn)確率。
數(shù)據(jù)挖掘算法知識(shí):Naive Bayes在初步數(shù)據(jù)集分析以及指出參數(shù)之間關(guān)聯(lián)性這方面作用很大,Decision Trees則擅長(zhǎng)將數(shù)據(jù)集歸納為不同的子集,有利于區(qū)分流失用戶(hù)及滿(mǎn)意用戶(hù)。這些方法都易于理解,但它們內(nèi)部的數(shù)學(xué)原理及實(shí)用價(jià)值卻極為不同。Neural Network(神經(jīng)網(wǎng)絡(luò))本質(zhì)上是一個(gè)能夠計(jì)算復(fù)雜變量關(guān)系的黑盒,它可以產(chǎn)生更準(zhǔn)確的預(yù)測(cè)結(jié)果,但卻不易為開(kāi)發(fā)者所理解。
我和《永恒之塔》團(tuán)隊(duì)在頭腦風(fēng)暴過(guò)程中討論了新手玩家的類(lèi)型,游戲行為以及其他特征。我們都知道自己的親友初次進(jìn)入游戲的過(guò)程,以及他們的感受。
這番討論結(jié)果使我重新修訂了影響新手玩家的一些游戲內(nèi)部因素列表(游戲邦注:例如,玩家是否擴(kuò)展了倉(cāng)庫(kù)大小,跳過(guò)了復(fù)活點(diǎn),使用了加速移動(dòng)卷軸?),以及衡量玩家在游戲中一般活動(dòng)的想法。
我們使用了如下參數(shù):
*每個(gè)等級(jí)的殺敵數(shù)
*每個(gè)等級(jí)所完成的任務(wù)
*每個(gè)等級(jí)的游戲時(shí)間(以分鐘為單位)
此時(shí)我們也完全修正了ETL部分(包括數(shù)據(jù)提取、轉(zhuǎn)換以及加載)的內(nèi)容,我們的SQL工程師也制作了一個(gè)高級(jí)的SSIS游戲記錄處理器,提升了可擴(kuò)展性,有利于添加新游戲事件。記錄系統(tǒng)的容量已達(dá)千兆字節(jié),所以我們可以輕松添加新的假設(shè)命題。
我們載入和處理新數(shù)據(jù),審核了數(shù)據(jù)挖掘模型,并分析了結(jié)果。為了讓結(jié)果更為簡(jiǎn)潔明了,在此我只發(fā)布修正后的結(jié)果:
precision & recall per level(from gamasutra)
注:第9級(jí)的準(zhǔn)確率異常高,這與調(diào)查時(shí)期的游戲活動(dòng)有關(guān),所以可以忽略這個(gè)數(shù)據(jù)。
在此階段,我們的模型準(zhǔn)確率大為提高——尤其是第2級(jí)至第4級(jí),不過(guò)6到8級(jí)的準(zhǔn)確率仍然很不樂(lè)觀。這種不準(zhǔn)確的數(shù)據(jù)幾乎沒(méi)有用處。
Decision Tree表明一般活動(dòng)參數(shù)正是關(guān)鍵的預(yù)測(cè)考慮因素。在這種情況 下,每級(jí)的游戲時(shí)間、每級(jí)殺敵數(shù)和每級(jí)完成任務(wù)等參數(shù)組成了我們預(yù)測(cè)模型的核心。其他參數(shù)對(duì)整體準(zhǔn)確率的貢獻(xiàn)率不足5%。另外,Decision Tree很簡(jiǎn)短,只有兩三個(gè)分枝,這意味著它缺乏相關(guān)參數(shù)。我仍然無(wú)法理解為何這三個(gè)算法在不同等級(jí)的準(zhǔn)確/召回率會(huì)如此不同。
第2階段結(jié)果:我們通過(guò)一般活動(dòng)參數(shù)取得了相當(dāng)進(jìn)展,雖然準(zhǔn)確率仍然有待改進(jìn),但我們找到了正確的分析方法,即先使用Naive Bayes,之后再使用Decision Tree。
第3階段:步入正軌
看到數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確率明顯提升,我設(shè)置了三個(gè)發(fā)展向量,更多一般活動(dòng)參數(shù),更多游戲特定參數(shù),以及更深入掌握微軟BI工具。
經(jīng)過(guò)對(duì)一般活動(dòng)的試驗(yàn)之后,我們最終確定了以下關(guān)鍵因素:
*當(dāng)前等級(jí)、之前等級(jí)及整體游戲時(shí)間
*每分鐘殺敵數(shù)(包括當(dāng)前/之前/整體等級(jí)情況)
*每分鐘完任任務(wù)(同上)
*平均每天游戲時(shí)長(zhǎng)
*玩游戲天數(shù)
*缺勤率(游戲邦注:這里指玩家在七天免費(fèi)試玩期間缺席的天數(shù))
這些參數(shù)極大提升了召回率(因此降低了誤報(bào)率),Decision Tree最終開(kāi)始盡情擴(kuò)散出分枝。我們也看到不同數(shù)據(jù)挖掘算法針對(duì)所有等級(jí)的一致性,這表明預(yù)測(cè)過(guò)程已經(jīng)趨于穩(wěn)定,降低了隨機(jī)性。Navie Byes在準(zhǔn)確性上比Tree和Neural算法相差了足足10%。
新加入的個(gè)體參數(shù)實(shí)際上非常難以管理,手動(dòng)分離自動(dòng)攻擊使用情況要涉及一些數(shù)學(xué)知識(shí),SQL查詢(xún)的第75百分位計(jì)算也是如此。但我們標(biāo)準(zhǔn)化了數(shù)據(jù),因此可以對(duì)比不同的游戲職業(yè),數(shù)據(jù)挖掘模型接受的是分類(lèi)索引數(shù)據(jù)而非原始數(shù)據(jù)。標(biāo)準(zhǔn)化和索引化新個(gè)體參數(shù)使整體預(yù)測(cè)精確度又提升了3-4%。
注:在網(wǎng)絡(luò)游戲中,角色要使用技能及能力進(jìn)行攻擊。自動(dòng)攻擊是最基本和自由的招式。資深玩家使用所有技能時(shí)他們的自動(dòng)攻擊比率就會(huì)較低,不過(guò)游戲及職業(yè)機(jī)制也會(huì)深刻影響這一參數(shù)。在《永恒之塔》中,法師這一比率的中間值是5%,而戰(zhàn)士則是70%,即使是在同個(gè)職業(yè)中,標(biāo)準(zhǔn)偏差也會(huì)很高。
下一步就是參考《Data Mining with Microsoft SQL Server 2008》這本書(shū),從中查找使用分析服務(wù)的決竅。這本書(shū)很有助于解釋Decision Tree微調(diào)的復(fù)雜原理,它還讓我認(rèn)識(shí)到了正確數(shù)據(jù)離散化的重要性。
在以上例子中,我們通過(guò)手動(dòng)操作實(shí)現(xiàn)了自動(dòng)攻擊參數(shù)的離散化。我剛開(kāi)始處理這些數(shù)據(jù)時(shí),就發(fā)現(xiàn)SQL Server的自動(dòng)離散化是可以并且應(yīng)該進(jìn)行微調(diào)。手動(dòng)調(diào)整數(shù)據(jù)會(huì)極大影響Tree的形狀和精確度(對(duì)其他模型也同樣會(huì)有影響,但是對(duì)Tree的影響更明顯)。
我花了一整周時(shí)間挨個(gè)調(diào)整9個(gè)挖掘結(jié)構(gòu)的30多個(gè)維度(每個(gè)游戲等級(jí)有一個(gè)結(jié)構(gòu),一共有9個(gè)等級(jí))。從這一試驗(yàn)中可以發(fā)現(xiàn)一些有趣的模式,并且可輕松將7級(jí)和8級(jí)之間的精確度提升2%。例如,殺敵數(shù)是20,整體游戲時(shí)長(zhǎng)是12,而每級(jí)游戲時(shí)長(zhǎng)是7。
微調(diào)之后的結(jié)果極大減少了誤報(bào)率,將Tree的數(shù)據(jù)提升至與Neural Network相當(dāng)?shù)乃剑?/span>
precision & recall per level (from gamasutra)
第3階段結(jié)果:我們終于得到了一些合適的數(shù)字,也搜集了大量關(guān)于玩家的有趣數(shù)據(jù)。
第4階段:獲得成功
坦白說(shuō),我認(rèn)為我們已經(jīng)到達(dá)到準(zhǔn)確預(yù)測(cè)的極限。新參數(shù)和假設(shè)并沒(méi)有再度提升精確度,這些模型已經(jīng)穩(wěn)定。78%的精確度 VS 16%的誤報(bào)率已經(jīng)足以展開(kāi)預(yù)測(cè)流失用戶(hù)的工作。
以免費(fèi)訂閱或高價(jià)值道具刺激他們重返游戲并不一定奏效(因?yàn)樵诙砹_斯這些贈(zèng)品也支帶來(lái)一些增值稅),但向他們發(fā)個(gè)郵件總不會(huì)有什么問(wèn)題吧?
當(dāng)我們的數(shù)據(jù)挖掘項(xiàng)目進(jìn)入第三個(gè)月時(shí),我們發(fā)現(xiàn)數(shù)據(jù)有點(diǎn)過(guò)時(shí)了,因?yàn)槟菚r(shí)的游戲已經(jīng)更新了數(shù)次補(bǔ)丁。
重新載入這三個(gè)月所有更新、更大的數(shù)據(jù)集時(shí),我發(fā)現(xiàn)了梯度圖表發(fā)生了一些變化。雖然精確度/召回率仍然保持原狀,但數(shù)據(jù)表現(xiàn)略有差別。
需要再次重新編寫(xiě)ETL程序,此時(shí)每個(gè)等級(jí)處理時(shí)間不足1分鐘,所以增加一個(gè)數(shù)據(jù)集的等待時(shí)間是我們尚可接受的5分鐘。但不幸的是,所以手動(dòng)微調(diào)工作都要重做,不過(guò)從以下圖表可以看出,增加數(shù)據(jù)集后,我們極大提升了模型的有效性!
precision & recall per level(from gamasutra)
但針對(duì)第1級(jí)的情況,我們確實(shí)無(wú)能為力。正如網(wǎng)絡(luò)分析大師Avinash Kaushik所言,“我來(lái),我吐,我閃”(I came, I puked, I left)。這些玩家創(chuàng)建了自己的角色之后就退出了游戲,我們針對(duì)他們的行動(dòng)記錄也非常之少。
以上所有數(shù)字均出自歷史數(shù)據(jù)以及我們挖掘模型的一個(gè)學(xué)習(xí)數(shù)據(jù)集。但我是一個(gè)非常多疑的人,我還想要戰(zhàn)斗測(cè)試結(jié)果。所以我們采用了新玩家(今天才注冊(cè)的用 戶(hù))數(shù)據(jù),將其引進(jìn)預(yù)測(cè)模型,并保存結(jié)果。7天之后,我們對(duì)比了一周前的預(yù)測(cè)流失用戶(hù)以及他們真實(shí)的行為,獲得了如下結(jié)果:
prediciton results(from gamasutra)
結(jié)果
我們終于成功實(shí)現(xiàn)了預(yù)測(cè)玩家是否將退出游戲的這一最初目標(biāo)??吹饺绱酥叩木_度/召回率,我們確信自己的積極和專(zhuān)注獲得了回報(bào)。
但我們是否實(shí)現(xiàn)了第二個(gè)目標(biāo),判斷玩家為何離開(kāi)?沒(méi)有。對(duì)我來(lái)說(shuō),這也是最有趣的結(jié)果——我們已經(jīng)知道玩家可能離開(kāi)的概率,卻仍然不曉得他們?yōu)楹坞x去。我在本文開(kāi)篇列出了可能導(dǎo)致玩家早早離場(chǎng)的假設(shè)因素:
*種族和職業(yè)
*玩家是否嘗試過(guò)其他的Innova游戲(我們用同一個(gè)帳號(hào))
*玩家嘗試過(guò)的種族和職業(yè)角色數(shù)量
*在免費(fèi)試玩期間每級(jí)和整體死亡情況
*以及其他多種因素
我們測(cè)試了60多種個(gè)體及游戲特定參數(shù)。發(fā)現(xiàn)沒(méi)有一者是導(dǎo)致用戶(hù)離開(kāi)的主因!也就是說(shuō),我們沒(méi)有發(fā)現(xiàn)阻礙用戶(hù)享受游戲樂(lè)趣的主要因素。
這個(gè)調(diào)查中的關(guān)鍵參數(shù)比較適用于試玩游戲首天的所獲等級(jí)的情況,但低于考查7級(jí)游戲情況的需求,這相當(dāng)于3個(gè)小時(shí)的游戲時(shí)間,意味著此時(shí)的用戶(hù)流失率極高。另一批預(yù)測(cè)流失率的參數(shù)主要與整體活動(dòng)有關(guān):
*每級(jí)殺敵數(shù)
*每級(jí)完成任務(wù)
*每級(jí)游戲時(shí)長(zhǎng)(分鐘)
*每天游戲時(shí)長(zhǎng)
總結(jié)
我們歷時(shí)三個(gè)月,研究了兩本書(shū),并投入大量精力和熱情從頭創(chuàng)建了這個(gè)數(shù)據(jù)挖掘項(xiàng)目。團(tuán)隊(duì)中沒(méi)有人曾有這方面經(jīng)驗(yàn)。我們?yōu)镮nnova被動(dòng)的分析系統(tǒng)中制造了一個(gè)富有前瞻性的預(yù)測(cè)工具。我們可以及時(shí)接收潛在的流失用戶(hù)信息,并給予他們一些極富個(gè)性化和關(guān)聯(lián)性的決竅以提升游戲體驗(yàn)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線(xiàn)” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11