
如何進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)挖掘
人們?cè)谠L問(wèn)某網(wǎng)站的同時(shí),便提供了個(gè)人對(duì)網(wǎng)站內(nèi)容的反饋信息:點(diǎn)擊了哪一個(gè)鏈接,在哪里瀏覽時(shí)間最多,用了哪個(gè)搜索項(xiàng)、總體瀏覽時(shí)間、個(gè)人姓名和住址等。所有這些信息都被保存在一個(gè)數(shù)據(jù)庫(kù)中。
從數(shù)據(jù)庫(kù)保存的信息來(lái)看,網(wǎng)站擁有了大量的網(wǎng)站訪問(wèn)者及其訪問(wèn)內(nèi)容的信息,但擁有這些信息卻不見(jiàn)得能夠充分利用。借助數(shù)據(jù)倉(cāng)庫(kù)報(bào)告系統(tǒng)(一般稱作在線分析處理系統(tǒng)),只能報(bào)告可直接觀察到的和簡(jiǎn)單相關(guān)的信息,不能告訴網(wǎng)站信息模式及怎樣對(duì)其進(jìn)行處理,并且它很難深刻分析復(fù)雜信息,需要網(wǎng)站自已加工與處理。
然而,廠商和商業(yè)分析員可以采用數(shù)據(jù)挖掘技術(shù)來(lái)解決上述問(wèn)題,即通過(guò)機(jī)器學(xué)習(xí)算法,找到數(shù)據(jù)庫(kù)中的隱含模式,報(bào)告結(jié)果或按照結(jié)果執(zhí)行。對(duì)于數(shù)據(jù)挖掘技術(shù),我們給廠商提供的最好幫助是:介紹數(shù)據(jù)挖掘技術(shù)所能解決的問(wèn)題,詳述數(shù)據(jù)挖掘技術(shù),并深入討論相關(guān)解決方案。
認(rèn)識(shí)訪問(wèn)者
—- 為了讓網(wǎng)站能夠使用數(shù)據(jù)挖掘技術(shù),廠商必須記錄訪問(wèn)者特征及訪問(wèn)者所使用的條款特征。
—- 訪問(wèn)者特征包括人口統(tǒng)計(jì)特征、心理特征和技術(shù)特征。人口統(tǒng)計(jì)特征是一些可變的屬性,比如家庭地址、收入、購(gòu)買力或所擁有的娛樂(lè)設(shè)備。心理特征包括通過(guò)心理調(diào)查發(fā)現(xiàn)的個(gè)性類型,比如對(duì)兒童的保護(hù)傾向、購(gòu)買時(shí)的沖動(dòng)性及早期的技術(shù)興趣等。技術(shù)特征是指訪問(wèn)者的系統(tǒng)屬性,比如所采用的操作系統(tǒng)、瀏覽器、域名和調(diào)制解調(diào)器的速度等等。
—- 條款特征包括網(wǎng)絡(luò)內(nèi)容信息(介質(zhì)類型、內(nèi)容分類和URL)和產(chǎn)品信息(產(chǎn)品編號(hào)、產(chǎn)品目錄、顏色、體積、價(jià)格、利潤(rùn)、數(shù)量和特價(jià)等級(jí))等內(nèi)容。
—- 當(dāng)訪問(wèn)者訪問(wèn)某網(wǎng)站時(shí),有關(guān)訪問(wèn)者的數(shù)據(jù)便會(huì)被逐漸積累起來(lái)。訪問(wèn)者——條款的交互信息主要包括購(gòu)買歷史、廣告歷史和優(yōu)選信息,其中,購(gòu)買歷史是一個(gè)購(gòu)買產(chǎn)品和購(gòu)買日期的目錄;廣告歷史表明把哪一個(gè)條款展示給訪問(wèn)者;優(yōu)選信息是指訪問(wèn)者訪問(wèn)的優(yōu)先等級(jí);點(diǎn)擊流信息是訪問(wèn)者點(diǎn)擊的超級(jí)鏈接的歷史信息;鏈接機(jī)會(huì)是指提供給訪問(wèn)者的超級(jí)鏈接。訪問(wèn)者——網(wǎng)站統(tǒng)計(jì)信息是指每次會(huì)話的信息,比如總的訪問(wèn)時(shí)間、所瀏覽的網(wǎng)頁(yè)及每次會(huì)話的利潤(rùn)等。訪問(wèn)者——公司信息包括一個(gè)訪問(wèn)者推薦客戶的數(shù)量、每個(gè)月的訪問(wèn)次數(shù)及上一次的訪問(wèn)時(shí)間等,還包括商標(biāo)評(píng)價(jià),即訪問(wèn)者對(duì)商標(biāo)正面或負(fù)面的評(píng)價(jià),此信息可以通過(guò)周期性的廠商調(diào)查來(lái)獲得。
列出目標(biāo)
—- 在網(wǎng)上進(jìn)行交易的最大優(yōu)點(diǎn)是廠商可以更加有效地估計(jì)出訪問(wèn)者的反應(yīng)。當(dāng)廠商有明確的且可以量化的目標(biāo)時(shí),采用數(shù)據(jù)挖掘技術(shù)的效果最好。廠商可以考慮這樣一些目標(biāo):增加每次會(huì)話的平均瀏覽頁(yè)數(shù);增加每次結(jié)賬的平均利潤(rùn);減少退貨;增加顧客數(shù)量;提高商標(biāo)知名度;提高回頭率(比如在30天內(nèi)重新回來(lái)的顧客的數(shù)量);增加每次訪問(wèn)的結(jié)賬次數(shù)。
理解問(wèn)題
—- 解決問(wèn)題的第一步是清楚地描述問(wèn)題。通常,網(wǎng)絡(luò)廠商需要解決的問(wèn)題是如何尋找合適的廣告人群、將網(wǎng)頁(yè)個(gè)性化、把同時(shí)購(gòu)買的貨物放在同一個(gè)網(wǎng)頁(yè)上、自動(dòng)地把商品分類,找出同一類訪問(wèn)者的特征、估計(jì)貨物丟失的數(shù)據(jù)并預(yù)測(cè)未來(lái)行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
尋找目標(biāo)
—- 廠商采用目標(biāo)尋找技術(shù),選擇接收特定廣告的人群,以增加利潤(rùn),提高商標(biāo)知名度,或增加其他可量化的收入。在網(wǎng)上進(jìn)行目標(biāo)尋找必須考慮各種不同的廣告費(fèi)用。
—- 在一個(gè)訪問(wèn)者登記的網(wǎng)站上,登廣告者可以根據(jù)地理信息確定廣告目標(biāo)。比如生活在一個(gè)國(guó)家不同地區(qū)或訪問(wèn)不同網(wǎng)站的人們常常具有不同的購(gòu)物傾向,像購(gòu)買不同運(yùn)動(dòng)隊(duì)的隊(duì)服等。因此,如果廠商將廣告目標(biāo)鎖定最可能購(gòu)買某產(chǎn)品的人群,就可能降低廣告費(fèi)用,并增加總利潤(rùn)。
—- 采用數(shù)據(jù)挖掘技術(shù)可以幫助用戶選定廣告活動(dòng)的目標(biāo)標(biāo)準(zhǔn)。網(wǎng)絡(luò)出版物有一套變量關(guān)系,通過(guò)它們可以選定廣告目標(biāo)。由于在直接的郵購(gòu)活動(dòng)中,目標(biāo)選擇被廣泛使用,因此有許多不同的數(shù)據(jù)挖掘工具支持目標(biāo)定位。
人格化
—- 廠商采用人格化的方法選擇發(fā)給個(gè)人的廣告,以取得最大成果。需要指出的是,本文所談的“廣告”一詞泛指網(wǎng)站提供的任何建議或條款,即使一個(gè)簡(jiǎn)單的超級(jí)鏈接,也可以被認(rèn)為是廣告。
—- 人格化與目標(biāo)選擇相反。目標(biāo)選擇功能是優(yōu)化查看廣告的人的類型,以降低廣告費(fèi)用。它對(duì)尋找那些還沒(méi)有訪問(wèn)廠商站點(diǎn)的人很有作用。但是,在廠商的網(wǎng)站上進(jìn)行目標(biāo)選擇是沒(méi)有用的,所以,不如將自己的產(chǎn)品展示給訪問(wèn)網(wǎng)站的人看。
—- 一些人格化網(wǎng)站需要廠商給訪問(wèn)者寫下零售廣告的規(guī)則,我們稱之為基于規(guī)則的人格化系統(tǒng)。如果網(wǎng)站有歷史信息,廠商可以從第三方購(gòu)買數(shù)據(jù)挖掘工具來(lái)產(chǎn)生規(guī)則。通常,在提供的產(chǎn)品或服務(wù)有限的情況下廠商使用基于規(guī)則的人格化系統(tǒng),比如保險(xiǎn)業(yè)和金融機(jī)構(gòu)。在那些地方,廠商只需寫下少量的規(guī)則即可。
—- 其他的人格化系統(tǒng)強(qiáng)調(diào)提供自動(dòng)且實(shí)時(shí)的條款選擇。這些系統(tǒng)常常在提供大量條款的情況下使用,比如服裝、娛樂(lè)、辦公設(shè)備和消費(fèi)品等。廠商在面對(duì)成千上萬(wàn)的條款時(shí)會(huì)變得束手無(wú)策,在這種情況下,使用自動(dòng)的系統(tǒng)更加有效。從大量的目錄中進(jìn)行人格化是非常復(fù)雜的,需要處理大量的數(shù)據(jù)。
關(guān)聯(lián)
—- 關(guān)聯(lián)是指確定在一次會(huì)話中最可能被購(gòu)買或?yàn)g覽的商品,又稱市場(chǎng)分析。如果網(wǎng)站在網(wǎng)頁(yè)中將這些條款放在一起,就可以提醒網(wǎng)站訪問(wèn)者購(gòu)買或?yàn)g覽可能忘記了的商品。如果在關(guān)聯(lián)的一組商品中有某一項(xiàng)商品是特價(jià),網(wǎng)站很可能會(huì)增加同組中其他商品的購(gòu)買量。
—- 當(dāng)網(wǎng)站使用靜態(tài)的目錄網(wǎng)頁(yè)時(shí),也可以使用關(guān)聯(lián)。在這種情況下,網(wǎng)站會(huì)依賴廠商選擇的且是網(wǎng)站所要查看的第一頁(yè)目錄網(wǎng)頁(yè),并提供相關(guān)的條款。
知識(shí)管理
—- 這些系統(tǒng)設(shè)法確定和支持自然語(yǔ)言文件中的模式。一個(gè)更加確切的詞是“文本分析”。第一步是將單詞和文本與高層的概念相關(guān)聯(lián),可以通過(guò)使用相關(guān)概念標(biāo)記了的文件來(lái)訓(xùn)練一個(gè)系統(tǒng),并直接完成它。于是,系統(tǒng)為每一個(gè)概念建立了一個(gè)模式匹配器,當(dāng)遇到新的概念時(shí),模式匹配器會(huì)確定文檔和那個(gè)概念的相關(guān)程度。
—- 上述方法也可用于將未來(lái)的文檔分類到已預(yù)先定義好的目錄中。網(wǎng)站采用上述方法可為訪問(wèn)者建立自動(dòng)的網(wǎng)址索引,新聞網(wǎng)站采用上述方法可以降低分類費(fèi)用,此外,一些系統(tǒng)也采用上述方法自動(dòng)總結(jié)關(guān)鍵問(wèn)題,尋找相關(guān)的參考文檔。
—- 知識(shí)管理系統(tǒng)可以幫助網(wǎng)站創(chuàng)建自動(dòng)的查詢系統(tǒng)。比如發(fā)給客戶支持E-mail信箱的請(qǐng)求可以被自動(dòng)分類,從FAQ庫(kù)中可以自動(dòng)發(fā)出應(yīng)答信息等。
聚類
—- 聚類有時(shí)也稱分段,是指將具有相同特征的人歸結(jié)為一組,將特征平均,以形成一個(gè)“特征矢量”或“矢心”。聚類系統(tǒng)通常使網(wǎng)站確定一組數(shù)據(jù)有多少類,并設(shè)法找出最能表示大多數(shù)數(shù)據(jù)的一組聚類。聚類被一些提供商用來(lái)直接提供不同訪問(wèn)者特征的報(bào)告。
估計(jì)和預(yù)測(cè)
—- 估計(jì)用來(lái)猜測(cè)未知值,預(yù)測(cè)用來(lái)估計(jì)未來(lái)值。估計(jì)和預(yù)測(cè)可以使用同樣的算法。
—- 估計(jì)通常用來(lái)填空。如果網(wǎng)站不知道某人的收入,可以通過(guò)與收入密切相關(guān)的量來(lái)估計(jì),然后找到具有類似特征的其他人,利用他們來(lái)估計(jì)未知者的收入和信用值。
—- 預(yù)測(cè)用來(lái)估計(jì)一個(gè)人重要的未來(lái)事項(xiàng)。在個(gè)性化應(yīng)用中,網(wǎng)站可以使用這些值。
—- 廠商常收集信息,以了解客戶。即使從不同的方面來(lái)分析以往的事件,也可以提供許多有用的信息。這種簡(jiǎn)單的收集方法被稱作在線分析處理(OLAP)系統(tǒng)。
—- 預(yù)測(cè)可以和OLAP技術(shù)一起總結(jié)訪問(wèn)某網(wǎng)站人群的特點(diǎn),從而使得廠商對(duì)數(shù)據(jù)進(jìn)行剖析,找出是哪個(gè)條款或網(wǎng)站特征引起了最有價(jià)值的客戶的注意力。
—- 決策樹(shù)本質(zhì)上是導(dǎo)致做出某項(xiàng)決策的問(wèn)題或數(shù)據(jù)點(diǎn)的流程圖。比如購(gòu)買汽車的決策樹(shù)可以從是否需要2000年的新型汽車開(kāi)始,接著詢問(wèn)所需車型,然后詢問(wèn)用戶需要?jiǎng)恿π蛙囘€是經(jīng)濟(jì)型車等等,直到確定用戶所需要的最好的車為止。決策樹(shù)系統(tǒng)設(shè)法創(chuàng)建最優(yōu)路徑,將問(wèn)題排序,這樣,經(jīng)過(guò)最少的步驟,便可以做出決定。
—- 許多產(chǎn)品供應(yīng)商在自己的產(chǎn)品選擇系統(tǒng)中都制作了決策樹(shù)系統(tǒng)。這對(duì)帶著特定問(wèn)題來(lái)訪問(wèn)網(wǎng)站的人來(lái)說(shuō)十分重要。一旦做出某項(xiàng)決定,問(wèn)題的答案對(duì)以后的目標(biāo)選擇或人格化作用便不大了。
選擇答案
—- 數(shù)據(jù)挖掘技術(shù)并不適合膽怯的人。網(wǎng)站要面對(duì)3個(gè)主要問(wèn)題:第一,許多優(yōu)秀的數(shù)據(jù)挖掘專家是非常認(rèn)真的;第二,很少有現(xiàn)成的解決方案;第三,有用的東西是非常昂貴的。
—- 對(duì)于某個(gè)問(wèn)題,可能有多種數(shù)據(jù)挖掘算法,但通常只有一個(gè)最好的算法。當(dāng)網(wǎng)站選擇了一個(gè)數(shù)據(jù)挖掘產(chǎn)品時(shí),要弄清楚它的算法是否適合網(wǎng)站想解決的問(wèn)題。
—- 網(wǎng)絡(luò)數(shù)據(jù)挖掘的世界既是地雷陣,同時(shí)又是金礦。通過(guò)保存與訪問(wèn)者、訪問(wèn)內(nèi)容及交互操作相關(guān)的數(shù)據(jù),至少可以保證網(wǎng)站以后可以使用它們。不管有多大困難,廠商可以從現(xiàn)在開(kāi)始考慮評(píng)估和集成數(shù)據(jù)挖掘應(yīng)用。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10