
數(shù)據(jù)挖掘相關(guān)的數(shù)學(xué)基礎(chǔ)
數(shù)據(jù)挖掘,是指從大量數(shù)據(jù)中獲取隱含的、潛在的是有價值信息的過程,是近年來計算機領(lǐng)域火熱的研究內(nèi)容。作為一個大的命題,為了便于引入討論,這里以本人目前涉及的游戲工業(yè)領(lǐng)域的數(shù)據(jù)挖掘方法展開討論。
數(shù)據(jù)挖掘方法在游戲工業(yè)領(lǐng)域最初的應(yīng)用,常常是游戲中的人工智能的開發(fā)。例如游戲中的電腦對手,對戰(zhàn)類游戲的天梯系統(tǒng),游戲開發(fā)時的關(guān)卡自動生成器。這些功能對應(yīng)著數(shù)據(jù)挖掘方法中的專家系統(tǒng)、機器學(xué)習(xí)、模式識別、自然語言理解、自動定理證明、自動程序設(shè)計、機器人學(xué)、博弈、人工神經(jīng)網(wǎng)絡(luò)等。
事實上,數(shù)據(jù)挖掘的方法本質(zhì)上就是人工智能的方法,數(shù)據(jù)挖掘的出現(xiàn)是人工智能發(fā)展史上具有重大意義的事件。傳統(tǒng)人工智能的研究在20世紀末期事實上進入了一個低谷,這是因為20世紀80年代初,美國、歐洲和日本制定的一批針對人工智能的大型項目都面臨了重重困難:一是所謂的交叉問題,即傳統(tǒng)方法只能模擬人類深思熟慮的行為,而不包括人與環(huán)境的交互行為;二是所謂的擴展問題,即傳統(tǒng)人工智能方法只適合于建造領(lǐng)域狹窄的專家系統(tǒng),不能把這種方法簡單地推廣到規(guī)模更大、領(lǐng)域更寬的復(fù)雜系統(tǒng)中去。以上兩個根本性問題使人工智能研究進入低谷。而數(shù)據(jù)挖掘的出現(xiàn)使人們又重新看到了人工智能的希望。 原因就在于數(shù)據(jù)挖掘方法將人工智能方法帶進了廣域數(shù)據(jù)集中,突破了專家系統(tǒng)的限制。
在最近的研究中,游戲行業(yè)的研究者們更多地使用數(shù)據(jù)挖掘方法去分析用戶行為,從而進行更精準的商業(yè)方案定制。一方面這是因為資本的逐利性使然,現(xiàn)代游戲開發(fā)已經(jīng)走進了一個不斷推升制作成本和玩家期望之間的循環(huán),高額的開發(fā)費用已經(jīng)使很多游戲公司不堪重負。另外一方面,大數(shù)據(jù)時代的數(shù)據(jù)采集,令大量用戶行為成為保存在服務(wù)器端的數(shù)據(jù),令我們有能力進行分析與研究。通過數(shù)據(jù)挖掘方法,我們可以做到對游戲用戶行為進行建模,并進行自動程序設(shè)計。典型的應(yīng)用例如分析玩家行為和動機,探尋在線角色扮演游戲中的玩家社交群體的變化,識別玩家人物和公會的命名模式,檢測游戲玩家感到沮喪的原因,揭露游戲中玩家的社會關(guān)系。
數(shù)據(jù)挖掘過程中相關(guān)的主要數(shù)學(xué)領(lǐng)域
面對復(fù)雜數(shù)據(jù),數(shù)據(jù)挖掘的基本流程是:首先對原始數(shù)據(jù)進行填補遺漏、消除異常、平滑噪聲等處理,提高數(shù)據(jù)挖掘的有效性和準確性。然后使用專門的算法對原始數(shù)據(jù)進行歸納抽象,去掉取之過多且不均勻的屬性和概念層次樹中不存在的屬性,最終得到一個關(guān)系模型。當新的數(shù)據(jù)加入數(shù)據(jù)集中時,可以根據(jù)該關(guān)系模型決定新數(shù)據(jù)的分類和處理模式。同時,新數(shù)據(jù)也將帶來對整體模型的變化,數(shù)據(jù)和模型處于動態(tài)對應(yīng)的狀態(tài)。
從以上過程中可以明顯感到,所謂數(shù)據(jù)挖掘,就是一個典型的數(shù)學(xué)建模過程。當然,這里已經(jīng)有較為成熟的工具、方法和理論。例如,統(tǒng)計機器學(xué)習(xí)所需要的主要理論和技術(shù):泛函分析、逼近論與測度論、統(tǒng)計理論、VC維理論、覆蓋數(shù)、描述長度理論與算法復(fù)雜度研究、核方法、非線性規(guī)劃技術(shù)、幾何變換。下文簡要介紹涉及的數(shù)學(xué)學(xué)科。
1、線性代數(shù)和統(tǒng)計學(xué)
在這個建模過程中,基礎(chǔ)是兩大數(shù)學(xué)學(xué)科:線性代數(shù)和統(tǒng)計學(xué)。這代表了機器學(xué)習(xí)中最主流的兩大類方法的基礎(chǔ)。一種是以研究函數(shù)和變換為重點的代數(shù)方法,比如降維,特征值提取等,一種是以研究統(tǒng)計模型和樣本分布為重點的統(tǒng)計方法,比如圖模型、信息理論模型等。它們側(cè)重雖有不同,但是常常是共同使用的,對于代數(shù)方法,往往需要統(tǒng)計上的解釋,對于統(tǒng)計模型,其具體計算則需要代數(shù)的幫助。以代數(shù)和統(tǒng)計為出發(fā)點,繼續(xù)往深處走,我們會發(fā)現(xiàn)需要更多的數(shù)學(xué)。傳統(tǒng)的統(tǒng)計學(xué)所研究的主要是漸進理論(大樣本情況下的統(tǒng)計性質(zhì)),而樣本數(shù)目通常有限(甚至還十分有限)。人們過去一直采用樣本數(shù)目無窮為假設(shè)條件推導(dǎo)各種算法,然后將算法用于樣本較小的情況,希望能有較好的效果,然而,算法往往不令人滿意。由此,人們提出了學(xué)習(xí)的推廣能力(泛化能力)的重要問題。過去多數(shù)工作集中在對大樣本統(tǒng)計學(xué)習(xí)方法的改進和修改,或利用啟發(fā)式方法設(shè)計特殊算法。
2、微積分
微積分只是數(shù)學(xué)分析體系的基礎(chǔ)。其基礎(chǔ)性作用不言而喻。機器學(xué)習(xí)研究的大部分問題是在連續(xù)的度量空間進行的,無論代數(shù)還是統(tǒng)計,在研究優(yōu)化問題的時候,對一個映射的微分或者梯度的分析總是不可避免。
3、泛函分析
泛函分析體現(xiàn)了數(shù)學(xué)模型從特殊到一般的發(fā)展過程。
函數(shù)在19世紀前期的定義還是數(shù)與數(shù)的對應(yīng)關(guān)系,空間的概念也只有歐幾里德空間。十九世紀以來,數(shù)學(xué)的發(fā)展進入了一個新的階段。這就是,由于對歐幾里得第五公理的研究,引出了非歐幾何這門新的學(xué)科;對于代數(shù)方程求解的一般思考,最后建立并發(fā)展了群論;對數(shù)學(xué)分析的研究又建立了集合論。這些新的理論都為用統(tǒng)一的觀點把古典分析的基本概念和方法一般化準備了條件。泛函分析作為數(shù)學(xué)分析的分支,將函數(shù)擴展到函數(shù)與函數(shù)之間的關(guān)系,乃至任意兩個集合之間的關(guān)系,空間則從有限維空間拓展到無限維空間。
在這個地方,函數(shù)以及其所作用的對象之間存在的對偶關(guān)系扮演了非常重要的角色。機器學(xué)習(xí)發(fā)展至今,也在向無限維延伸——從研究有限維向量的問題到以無限維的函數(shù)為研究對象。內(nèi)核學(xué)習(xí)和高斯過程是其中典型的例子。
4、測度理論
這是和實分析關(guān)系非常密切的學(xué)科。概率本身就是一種測度。測度理論對于機器學(xué)習(xí)的意義是根本的,現(xiàn)代統(tǒng)計學(xué)整個就是建立在測度理論的基礎(chǔ)之上——雖然初級的概率論教科書一般不這樣引入。在一些統(tǒng)計方面的文章中它們會把統(tǒng)計的公式改用測度來表達,這樣做有兩個好處:所有的推導(dǎo)和結(jié)論不用分別給連續(xù)分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續(xù)分布的積分基于Lebesgue測度,離散分布的求和基于計數(shù)測度,而且還能推廣到那種既不連續(xù)又不離散的分布中去。而且,即使是連續(xù)積分,如果不是在歐氏空間進行,而是在更一般的拓撲空間(比如微分流形或者變換群),那么就不能使用傳統(tǒng)的黎曼積分了,需要使用,比如哈爾測度或者Lebesgue-Stieltjes積分。
5、拓撲學(xué)
這是學(xué)術(shù)中很基礎(chǔ)的學(xué)科。它一般不直接提供方法,但是它的很多概念和定理是其它數(shù)學(xué)分支的基石??春芏鄤e的數(shù)學(xué)的時候,會經(jīng)常接觸這樣一些概念:開集,閉集,連續(xù)函數(shù)度量空間,柯西序列,鄰接性,連續(xù)性。很多這些也許在大學(xué)一年級就學(xué)習(xí)過一些,當時是基于極限的概念獲得的。但是看過拓撲學(xué)之后,對這些概念的認識會有根本性的拓展。值得一提的是,計算機學(xué)科的基礎(chǔ)布爾代數(shù)與拓撲學(xué)有重要的聯(lián)系。
6、圖論
圖,由于它在表述各種關(guān)系的強大能力以及優(yōu)雅的理論,高效的算法,越來越受到數(shù)據(jù)挖掘領(lǐng)域的歡迎。而從目前我所接觸的范圍內(nèi),圖論僅在數(shù)據(jù)結(jié)構(gòu)這門課中提到過。經(jīng)典圖論,在數(shù)據(jù)挖掘領(lǐng)域中的一個最重要應(yīng)用就是圖模型了,它被成功運用于分析統(tǒng)計網(wǎng)絡(luò)的結(jié)構(gòu)和規(guī)劃統(tǒng)計推斷。例如,分析社交網(wǎng)絡(luò)的用戶關(guān)系,常用鄰接鏈表和鄰接矩陣綜合表示。在遍歷時也離不開深度優(yōu)先和廣度優(yōu)先算法。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03