
Python 爬取淘寶商品數(shù)據(jù)挖掘分析實戰(zhàn)
項目內(nèi)容
本案例選擇>> 商品類目:沙發(fā);
數(shù)量:共100頁 4400個商品;
篩選條件:天貓、銷量從高到低、價格500元以上。
項目目的
1. 對商品標(biāo)題進行文本分析 詞云可視化
2. 不同關(guān)鍵詞word對應(yīng)的sales的統(tǒng)計分析
3. 商品的價格分布情況分析
4. 商品的銷量分布情況分析
5. 不同價格區(qū)間的商品的平均銷量分布
6. 商品價格對銷量的影響分析
7. 商品價格對銷售額的影響分析
8. 不同省份或城市的商品數(shù)量分布
9.不同省份的商品平均銷量分布
注:本項目僅以以上幾項分析為例。
項目步驟
1. 數(shù)據(jù)采集:Python爬取淘寶網(wǎng)商品數(shù)據(jù)
2. 對數(shù)據(jù)進行清洗和處理
3. 文本分析:jieba分詞、wordcloud可視化
4. 數(shù)據(jù)柱形圖可視化 barh
5. 數(shù)據(jù)直方圖可視化 hist
6. 數(shù)據(jù)散點圖可視化 scatter
7. 數(shù)據(jù)回歸分析可視化 regplot
工具&模塊:
工具:本案例代碼編輯工具 Anaconda的Spyder
模塊:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。
原代碼和相關(guān)文檔后臺回復(fù)“淘寶”下載
一、爬取數(shù)據(jù)
因淘寶網(wǎng)是反爬蟲的,雖然使用多線程、修改headers參數(shù),但仍然不能保證每次100%爬取,所以 我增加了循環(huán)爬取,每次循環(huán)爬取未爬取成功的頁 直至所有頁爬取成功停止。
說明:淘寶商品頁為JSON格式 這里使用正則表達(dá)式進行解析;
代碼如下:
二、數(shù)據(jù)清洗、處理:
(此步驟也可以在Excel中完成 再讀入數(shù)據(jù))
代碼如下:
說明:根據(jù)需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 這4列數(shù)據(jù),主要對 標(biāo)題、區(qū)域、價格、銷量 進行分析。
代碼如下:
三、數(shù)據(jù)挖掘與分析:
【1】. 對 raw_title 列標(biāo)題進行文本分析:
使用結(jié)巴分詞器,安裝模塊pip install jieba
對 title_s(list of list 格式)中的每個list的元素(str)進行過濾 剔除不需要的詞語,即 把停用詞表stopwords中有的詞語都剔除掉:
因為下面要統(tǒng)計每個詞語的個數(shù),所以 為了準(zhǔn)確性 這里對過濾后的數(shù)據(jù) title_clean 中的每個list的元素進行去重,即 每個標(biāo)題被分割后的詞語唯一。
觀察 word_count 表中的詞語,發(fā)現(xiàn)jieba默認(rèn)的詞典 無法滿足需求:
有的詞語(如 可拆洗、不可拆洗等)卻被cut,這里根據(jù)需求對詞典加入新詞(也可以直接在詞典dict.txt里面增刪,然后載入修改過的dict.txt)
詞云可視化:
安裝模塊 wordcloud:
方法1: pip install wordcloud
方法2: 下載Packages安裝:pip install 軟件包名稱
軟件包下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
注意:要把下載的軟件包放在Python安裝路徑下。
代碼如下:
分析結(jié)論:
1. 組合、整裝商品占比很高;
2. 從沙發(fā)材質(zhì)看:布藝沙發(fā)占比很高,比皮藝沙發(fā)多;
3. 從沙發(fā)風(fēng)格看:簡約風(fēng)格最多,北歐風(fēng)次之,其他風(fēng)格排名依次是美式、中式、日式、法式 等;
4. 從戶型看:小戶型占比最高、大小戶型次之,大戶型最少。
【2】. 不同關(guān)鍵詞word對應(yīng)的sales之和的統(tǒng)計分析:
(說明:例如 詞語 ‘簡約’,則統(tǒng)計商品標(biāo)題中含有‘簡約’一詞的商品的銷量之和,即求出具有‘簡約’風(fēng)格的商品銷量之和)
代碼如下:
對表df_word_sum 中的 word 和 w_s_sum 兩列數(shù)據(jù)進行可視化
(本例中取銷量排名前30的詞語進行繪圖)
由圖表可知:
1. 組合商品銷量最高 ;
2. 從品類看:布藝沙發(fā)銷量很高,遠(yuǎn)超過皮藝沙發(fā);
3. 從戶型看:小戶型沙發(fā)銷量最高,大小戶型次之,大戶型銷量最少;
4. 從風(fēng)格看:簡約風(fēng)銷量最高,北歐風(fēng)次之,其他依次是中式、美式、日式等;
5. 可拆洗、轉(zhuǎn)角類沙發(fā)銷量可觀,也是頗受消費者青睞的。
【3】. 商品的價格分布情況分析:
分析發(fā)現(xiàn),有一些值太大,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價格小于20000的商品。
代碼如下:
由圖表可知:
1. 商品數(shù)量隨著價格總體呈現(xiàn)下降階梯形勢,價格越高,在售的商品越少;
2. 低價位商品居多,價格在500-1500之間的商品最多,1500-3000之間的次之,價格1萬以上的商品較少;
3. 價格1萬元以上的商品,在售商品數(shù)量差異不大。
【4】. 商品的銷量分布情況分析:
同樣,為了使可視化效果更加直觀,這里我們選擇銷量大于100的商品。
代碼如下:
由圖表及數(shù)據(jù)可知:
1. 銷量100以上的商品僅占3.4% ,其中銷量100-200之間的商品最多,200-300之間的次之;
2. 銷量100-500之間,商品的數(shù)量隨著銷量呈現(xiàn)下降趨勢,且趨勢陡峭,低銷量商品居多;
3. 銷量500以上的商品很少。
【5】. 不同價格區(qū)間的商品的平均銷量分布:
代碼如下:
由圖表可知:
1. 價格在1331-1680之間的商品平均銷量最高,951-1331之間的次之,9684元以上的最低;
2. 總體呈現(xiàn)先增后減的趨勢,但最高峰處于相對低價位階段;
3. 說明廣大消費者對購買沙發(fā)的需求更多處于低價位階段,在1680元以上 價位越高 平均銷量基本是越少。
【6】. 商品價格對銷量的影響分析:
同上,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價格小于20000的商品。
代碼如下:
由圖表可知:
1. 總體趨勢:隨著商品價格增多 其銷量減少,商品價格對其銷量影響很大;
2. 價格500-2500之間的少數(shù)商品銷量沖的很高,價格2500-5000之間的商品多數(shù)銷量偏低,少數(shù)相對較高,但價格5000以上的商品銷量均很低 沒有銷量突出的商品。
【7】. 商品價格對銷售額的影響分析:
代碼如下:
由圖表可知:
1. 總體趨勢:由線性回歸擬合線可以看出,商品銷售額隨著價格增長呈現(xiàn)上升趨勢;
2. 多數(shù)商品的價格偏低,銷售額也偏低;
3. 價格在0-20000的商品只有少數(shù)銷售額較高,價格2萬-6萬的商品只有3個銷售額較高,價格6-10萬的商品有1個銷售額很高,而且是最大值。
【8】. 不同省份的商品數(shù)量分布:
代碼如下:
由圖表可知:
1. 廣東的最多,上海次之,江蘇第三,尤其是廣東的數(shù)量遠(yuǎn)超過江蘇、浙江、上海等地,說明在沙發(fā)這個子類目,廣東的店鋪占主導(dǎo)地位;
2. 江浙滬等地的數(shù)量差異不大,基本相當(dāng)。
【9】. 不同省份的商品平均銷量分布:
代碼如下:
熱力型地圖
作者后記
孫方輝 從事數(shù)據(jù)分析工作,熱愛數(shù)據(jù)統(tǒng)計與挖掘分析,本文獻給學(xué)習(xí)Python的朋友們,歡迎大佬們的指點!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10