
Python 爬取淘寶商品數(shù)據(jù)挖掘分析實(shí)戰(zhàn)
項(xiàng)目?jī)?nèi)容
本案例選擇>> 商品類目:沙發(fā);
數(shù)量:共100頁(yè) 4400個(gè)商品;
篩選條件:天貓、銷量從高到低、價(jià)格500元以上。
項(xiàng)目目的
1. 對(duì)商品標(biāo)題進(jìn)行文本分析 詞云可視化
2. 不同關(guān)鍵詞word對(duì)應(yīng)的sales的統(tǒng)計(jì)分析
3. 商品的價(jià)格分布情況分析
4. 商品的銷量分布情況分析
5. 不同價(jià)格區(qū)間的商品的平均銷量分布
6. 商品價(jià)格對(duì)銷量的影響分析
7. 商品價(jià)格對(duì)銷售額的影響分析
8. 不同省份或城市的商品數(shù)量分布
9.不同省份的商品平均銷量分布
注:本項(xiàng)目?jī)H以以上幾項(xiàng)分析為例。
項(xiàng)目步驟
1. 數(shù)據(jù)采集:Python爬取淘寶網(wǎng)商品數(shù)據(jù)
2. 對(duì)數(shù)據(jù)進(jìn)行清洗和處理
3. 文本分析:jieba分詞、wordcloud可視化
4. 數(shù)據(jù)柱形圖可視化 barh
5. 數(shù)據(jù)直方圖可視化 hist
6. 數(shù)據(jù)散點(diǎn)圖可視化 scatter
7. 數(shù)據(jù)回歸分析可視化 regplot
工具&模塊:
工具:本案例代碼編輯工具 Anaconda的Spyder
模塊:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。
原代碼和相關(guān)文檔后臺(tái)回復(fù)“淘寶”下載
一、爬取數(shù)據(jù)
因淘寶網(wǎng)是反爬蟲(chóng)的,雖然使用多線程、修改headers參數(shù),但仍然不能保證每次100%爬取,所以 我增加了循環(huán)爬取,每次循環(huán)爬取未爬取成功的頁(yè) 直至所有頁(yè)爬取成功停止。
說(shuō)明:淘寶商品頁(yè)為JSON格式 這里使用正則表達(dá)式進(jìn)行解析;
代碼如下:
二、數(shù)據(jù)清洗、處理:
(此步驟也可以在Excel中完成 再讀入數(shù)據(jù))
代碼如下:
說(shuō)明:根據(jù)需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 這4列數(shù)據(jù),主要對(duì) 標(biāo)題、區(qū)域、價(jià)格、銷量 進(jìn)行分析。
代碼如下:
三、數(shù)據(jù)挖掘與分析:
【1】. 對(duì) raw_title 列標(biāo)題進(jìn)行文本分析:
使用結(jié)巴分詞器,安裝模塊pip install jieba
對(duì) title_s(list of list 格式)中的每個(gè)list的元素(str)進(jìn)行過(guò)濾 剔除不需要的詞語(yǔ),即 把停用詞表stopwords中有的詞語(yǔ)都剔除掉:
因?yàn)橄旅嬉y(tǒng)計(jì)每個(gè)詞語(yǔ)的個(gè)數(shù),所以 為了準(zhǔn)確性 這里對(duì)過(guò)濾后的數(shù)據(jù) title_clean 中的每個(gè)list的元素進(jìn)行去重,即 每個(gè)標(biāo)題被分割后的詞語(yǔ)唯一。
觀察 word_count 表中的詞語(yǔ),發(fā)現(xiàn)jieba默認(rèn)的詞典 無(wú)法滿足需求:
有的詞語(yǔ)(如 可拆洗、不可拆洗等)卻被cut,這里根據(jù)需求對(duì)詞典加入新詞(也可以直接在詞典dict.txt里面增刪,然后載入修改過(guò)的dict.txt)
詞云可視化:
安裝模塊 wordcloud:
方法1: pip install wordcloud
方法2: 下載Packages安裝:pip install 軟件包名稱
軟件包下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
注意:要把下載的軟件包放在Python安裝路徑下。
代碼如下:
分析結(jié)論:
1. 組合、整裝商品占比很高;
2. 從沙發(fā)材質(zhì)看:布藝沙發(fā)占比很高,比皮藝沙發(fā)多;
3. 從沙發(fā)風(fēng)格看:簡(jiǎn)約風(fēng)格最多,北歐風(fēng)次之,其他風(fēng)格排名依次是美式、中式、日式、法式 等;
4. 從戶型看:小戶型占比最高、大小戶型次之,大戶型最少。
【2】. 不同關(guān)鍵詞word對(duì)應(yīng)的sales之和的統(tǒng)計(jì)分析:
(說(shuō)明:例如 詞語(yǔ) ‘簡(jiǎn)約’,則統(tǒng)計(jì)商品標(biāo)題中含有‘簡(jiǎn)約’一詞的商品的銷量之和,即求出具有‘簡(jiǎn)約’風(fēng)格的商品銷量之和)
代碼如下:
對(duì)表df_word_sum 中的 word 和 w_s_sum 兩列數(shù)據(jù)進(jìn)行可視化
(本例中取銷量排名前30的詞語(yǔ)進(jìn)行繪圖)
由圖表可知:
1. 組合商品銷量最高 ;
2. 從品類看:布藝沙發(fā)銷量很高,遠(yuǎn)超過(guò)皮藝沙發(fā);
3. 從戶型看:小戶型沙發(fā)銷量最高,大小戶型次之,大戶型銷量最少;
4. 從風(fēng)格看:簡(jiǎn)約風(fēng)銷量最高,北歐風(fēng)次之,其他依次是中式、美式、日式等;
5. 可拆洗、轉(zhuǎn)角類沙發(fā)銷量可觀,也是頗受消費(fèi)者青睞的。
【3】. 商品的價(jià)格分布情況分析:
分析發(fā)現(xiàn),有一些值太大,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價(jià)格小于20000的商品。
代碼如下:
由圖表可知:
1. 商品數(shù)量隨著價(jià)格總體呈現(xiàn)下降階梯形勢(shì),價(jià)格越高,在售的商品越少;
2. 低價(jià)位商品居多,價(jià)格在500-1500之間的商品最多,1500-3000之間的次之,價(jià)格1萬(wàn)以上的商品較少;
3. 價(jià)格1萬(wàn)元以上的商品,在售商品數(shù)量差異不大。
【4】. 商品的銷量分布情況分析:
同樣,為了使可視化效果更加直觀,這里我們選擇銷量大于100的商品。
代碼如下:
由圖表及數(shù)據(jù)可知:
1. 銷量100以上的商品僅占3.4% ,其中銷量100-200之間的商品最多,200-300之間的次之;
2. 銷量100-500之間,商品的數(shù)量隨著銷量呈現(xiàn)下降趨勢(shì),且趨勢(shì)陡峭,低銷量商品居多;
3. 銷量500以上的商品很少。
【5】. 不同價(jià)格區(qū)間的商品的平均銷量分布:
代碼如下:
由圖表可知:
1. 價(jià)格在1331-1680之間的商品平均銷量最高,951-1331之間的次之,9684元以上的最低;
2. 總體呈現(xiàn)先增后減的趨勢(shì),但最高峰處于相對(duì)低價(jià)位階段;
3. 說(shuō)明廣大消費(fèi)者對(duì)購(gòu)買沙發(fā)的需求更多處于低價(jià)位階段,在1680元以上 價(jià)位越高 平均銷量基本是越少。
【6】. 商品價(jià)格對(duì)銷量的影響分析:
同上,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價(jià)格小于20000的商品。
代碼如下:
由圖表可知:
1. 總體趨勢(shì):隨著商品價(jià)格增多 其銷量減少,商品價(jià)格對(duì)其銷量影響很大;
2. 價(jià)格500-2500之間的少數(shù)商品銷量沖的很高,價(jià)格2500-5000之間的商品多數(shù)銷量偏低,少數(shù)相對(duì)較高,但價(jià)格5000以上的商品銷量均很低 沒(méi)有銷量突出的商品。
【7】. 商品價(jià)格對(duì)銷售額的影響分析:
代碼如下:
由圖表可知:
1. 總體趨勢(shì):由線性回歸擬合線可以看出,商品銷售額隨著價(jià)格增長(zhǎng)呈現(xiàn)上升趨勢(shì);
2. 多數(shù)商品的價(jià)格偏低,銷售額也偏低;
3. 價(jià)格在0-20000的商品只有少數(shù)銷售額較高,價(jià)格2萬(wàn)-6萬(wàn)的商品只有3個(gè)銷售額較高,價(jià)格6-10萬(wàn)的商品有1個(gè)銷售額很高,而且是最大值。
【8】. 不同省份的商品數(shù)量分布:
代碼如下:
由圖表可知:
1. 廣東的最多,上海次之,江蘇第三,尤其是廣東的數(shù)量遠(yuǎn)超過(guò)江蘇、浙江、上海等地,說(shuō)明在沙發(fā)這個(gè)子類目,廣東的店鋪占主導(dǎo)地位;
2. 江浙滬等地的數(shù)量差異不大,基本相當(dāng)。
【9】. 不同省份的商品平均銷量分布:
代碼如下:
熱力型地圖
作者后記
孫方輝 從事數(shù)據(jù)分析工作,熱愛(ài)數(shù)據(jù)統(tǒng)計(jì)與挖掘分析,本文獻(xiàn)給學(xué)習(xí)Python的朋友們,歡迎大佬們的指點(diǎn)!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03