
電子商務(wù)網(wǎng)站營(yíng)銷數(shù)據(jù)分析技術(shù)探討_數(shù)據(jù)分析師
電子商務(wù)(EC)在現(xiàn)代商務(wù)企業(yè)的發(fā)展中占有越來越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點(diǎn)分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。 本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉(cāng)庫的相關(guān)理論知識(shí)。并對(duì)站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。
一、緒論 互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對(duì)廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線發(fā)布。 電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過程就是對(duì)人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過程。對(duì)于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對(duì)它們而言,站點(diǎn)的訪問率絕對(duì)不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。
電子商務(wù)站點(diǎn)用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長(zhǎng)。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。 在此情況下,站點(diǎn)用戶行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對(duì)比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。
另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對(duì)互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對(duì)信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。 在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡(jiǎn)單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營(yíng)銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進(jìn)的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點(diǎn)以及訪問者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。
站點(diǎn)開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點(diǎn)上請(qǐng)求一個(gè)網(wǎng)頁時(shí),這個(gè)請(qǐng)求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點(diǎn)、他們正在看哪些網(wǎng)頁以及他們?cè)谡军c(diǎn)中呆了多長(zhǎng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對(duì)Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報(bào)告。
二、站點(diǎn)信息統(tǒng)計(jì)方法 Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢(shì)。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的 主要特點(diǎn): 1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。 2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。 3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。 4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對(duì)結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。 5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法 Web頁面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。 知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉(cāng)庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢(shì)并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:1.依賴性分析依賴性分析算法搜索數(shù)據(jù)倉(cāng)庫的條目和對(duì)象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對(duì)象的信息來推斷另一數(shù)據(jù)對(duì)象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會(huì)購(gòu)買,因而此種分析影響了商店布局。 2.聚類和分類在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購(gòu)買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。 3.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對(duì)隱式類型進(jìn)行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。
神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉(cāng)庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測(cè)的模型,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。 4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個(gè)商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購(gòu)買的商品種類,每個(gè)屬性(A、B……)代表一種商品,每個(gè)屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}→{D}[2%][60%],規(guī)則的含義是“如果用戶購(gòu)買商品A和B,那么也可能購(gòu)買商品D,因?yàn)橥瑫r(shí)購(gòu)買商品A、B和D的交易記錄占總交易數(shù)的2%而購(gòu)買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。
數(shù)據(jù)只是定性地描述一個(gè)交易是否包含某商品,而對(duì)交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對(duì)決策有幫助的關(guān)聯(lián)規(guī)則,相對(duì)于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。 另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)來自多個(gè)數(shù)據(jù)源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,因而這些都會(huì)嚴(yán)重破壞數(shù)據(jù)的準(zhǔn)確性,導(dǎo)致最終決策的失誤。所有這些問題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10