
來源 | 36大數(shù)據(jù)
當(dāng)你在網(wǎng)上選購商品時(shí),同類的商品成千上萬,哪些因素會(huì)影響你選購某件商品呢?商品評論一定是一個(gè)重要的參考吧。一般我們總會(huì)看看歷史銷量高不高,用戶評論好不好,然后再去下單。
過去不久的雙11、雙12網(wǎng)絡(luò)購物節(jié)中,無數(shù)網(wǎng)友在各個(gè)電商網(wǎng)站的促銷大旗下開啟了買買買模式。不過,當(dāng)你在網(wǎng)上選購商品時(shí),同類的商品成千上萬,哪些因素會(huì)影響你選購某件商品呢?商品評論一定是一個(gè)重要的參考吧。一般我們總會(huì)看看歷史銷量高不高,用戶評論好不好,然后再去下單。
然而各位一定也有所耳聞,買的不如賣的精,刷單的、刷評論的始終橫行網(wǎng)上,沒準(zhǔn)你看到的評論就是賣家自己刷出來的。事實(shí)上,許多精明的淘寶賣家會(huì)在雙十一等網(wǎng)購高峰期售賣“爆款”,“干一票就撤”,這正是虛假評論的溫床。有時(shí)我們選購商品,經(jīng)常會(huì)發(fā)現(xiàn)許多條看起來十分夸張的評論,如某女鞋的商品評論:
“超級好看的鞋,隨便搭配衣服就覺得自己像女神,又不磨腳,站一天都不會(huì)累。下次還來買,趕快上新款哦!”
“有史以來最滿意的鞋,媽媽看了說是真皮的,賣家態(tài)度又很好,發(fā)貨超快,誠信賣家,特別滿意的一次購物!”
連續(xù)幾百幾千條“真情實(shí)感”的好評這樣刷下來,恐怕會(huì)有許多顧客被洗腦:這個(gè)商品銷量真高,評論也不錯(cuò),那就買這家吧!結(jié)果網(wǎng)上的爆款買回家卻變成了廢品。我們買家真是絕對的信息弱勢方,賣家給出的描述真假尚且不知,刷好評又讓人防不勝防。那么,如何才能識別刷單評論呢?我們在此介紹一種借助文本挖掘模型的破解之道。
首先要解決數(shù)據(jù)來源問題,可以從網(wǎng)站上批量下載這些評論,也就是爬蟲。目前有兩種方法,一種是編程,可以使用python、java等編程語言去編寫爬蟲程序;還有一種是使用成熟爬蟲軟件,可以利用界面操作來爬蟲。筆者決定使用免費(fèi)的gooseeker軟件來做,這個(gè)軟件是Firefox瀏覽器的插件,避免了很多網(wǎng)站動(dòng)態(tài)渲染不好分析的問題,它借助了瀏覽器的功能,只要在瀏覽器上看到的元素就可以方便地下載。該軟件提供了詳細(xì)的教程和用戶社區(qū),可以指導(dǎo)用戶一步步設(shè)置抓取內(nèi)容、抓取路線、連續(xù)動(dòng)作、同類型網(wǎng)頁的重復(fù)抓取,大家可以自行學(xué)習(xí)使用。
筆者最終抓取了四款同類型的鞋子的評論數(shù)據(jù),包括會(huì)員名、商品描述、購買日期、購買型號、評論日期、評論文本等,共計(jì)5000多條數(shù)據(jù)。我們特意選取了具有刷單傾向的商品,可以看出,其中許多評論日期連續(xù)、會(huì)員名相似、買家等級較低;經(jīng)過人眼識別,刷單評論占比約30%。我們意在使用這些數(shù)據(jù)去構(gòu)建刷單評論識別模型,然后可以用這里得出來的規(guī)則去識別其它鞋類商品的刷單評論。
SAS Enterprise Miner 13.2是一款大家熟知的數(shù)據(jù)挖掘工具,它可以針對大型數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果建立精確的預(yù)測和描述模型,因此為我們所選用,不過使用其他軟件也是相同的分析思路。
我們把先前獲取的5000條評論一分為二,其中70%作為訓(xùn)練樣本,30%作為驗(yàn)證樣本。首先,用文本解析將訓(xùn)練樣本中的評論文本內(nèi)容拆詞,在拆詞時(shí)可以選擇忽略缺乏實(shí)際意義的代詞、感嘆詞、介詞、連詞,忽略數(shù)字與標(biāo)點(diǎn)符號。以上拆詞過程相當(dāng)于把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成了結(jié)構(gòu)化數(shù)據(jù),以前的一段文本如今可以用若干列來表示,每列代表一個(gè)詞,如果文本中出現(xiàn)了該詞該列取值為1,否則取值為0。
現(xiàn)在我們還不能直接拿它來建模,通過上圖我們可以發(fā)現(xiàn)很多詞只出現(xiàn)在少部分文章中,可以使用文本過濾器節(jié)點(diǎn)來去除詞頻很低的詞。
在文本過濾器中可以設(shè)置最小文檔數(shù),指定排除小于該文檔出現(xiàn)數(shù)目的詞條,同時(shí)也要排除像“就”、“這”、“是”、“有”這樣詞頻高卻意義不大的詞。除此之外,還可以進(jìn)行同義詞處理,我們可以手動(dòng)添加同義詞,也可以導(dǎo)入外部的同義詞庫。比如,“暖和”與“保暖”是同義詞,“好看”與“漂亮”可以互相替代……
在軟件中還可以查看詞與詞之間的鏈接關(guān)系:
接下來,我們可以使用文本規(guī)則生成器節(jié)點(diǎn)來建模,發(fā)現(xiàn)哪些詞組組合與刷單有直接的關(guān)系:
我們將訓(xùn)練樣本中的真實(shí)評論設(shè)置為0(藍(lán)色),刷單虛假好評設(shè)置為1(紅色)。上圖中可以看出,提到“暖和”(包括同義詞“保暖”)這樣的詞時(shí),評論極可能是真實(shí)的;而寫著“鞋子很時(shí)尚哦”“做工精細(xì),還會(huì)再買”而沒有提到暖和與否的,則多半是虛假好評。
說到這里,你可能會(huì)好奇:為什么“暖和”這樣一個(gè)普通的詞,倒成了真假評論的試金石?
我們不妨回想一下自己作為普通買家的購物經(jīng)歷:在收到貨品并試用之后,通常只會(huì)簡單描述一下自己的使用感受,這些感受一定。而水軍則不然,他們從來沒有真正收到商品,更談不上試穿啦,為了完成業(yè)務(wù)指標(biāo),只好按照賣家提供的商品描述,盡量從質(zhì)量、物流、服務(wù)態(tài)度甚至搭配等多方面強(qiáng)調(diào)商品本身的特性。從我們所做的案例來講,“暖和”自然屬于親身感受,而“真皮”“做工”之類,恐怕不是普通買家最想反饋的性質(zhì)。
那么這個(gè)模型的總體效果如何呢?我們可以用累積提升度這個(gè)指標(biāo)來評價(jià):
我們還留下了30%的驗(yàn)證樣本,現(xiàn)在它們可以現(xiàn)身來驗(yàn)證成果了。請看上圖中的粉紅色曲線:如果用這個(gè)模型去對評論進(jìn)行打分,按照疑似為虛假評論(“1”)的概率去排名,取前5%的評論時(shí),提升度為3倍;我們已知虛假評論約占總體的30%,也就是說,概率排名前5%的評論中有九成都是刷的,從而證明我們的模型相當(dāng)精準(zhǔn)地捕捉了刷單評論。
最后,我們要為賣家說句公道話:淘寶刷單惡性競爭嚴(yán)重,完全不刷好評的店家恐怕不多,不能說有刷評論的店就完全不能下手,90%刷單的商品實(shí)在駭人聽聞,10%刷單的店則或許質(zhì)量尚可接受。這也進(jìn)一步說明了我們的模型的作用:判斷商品的刷單比例,比逐條判斷評論是否虛假更加實(shí)用。
如今網(wǎng)絡(luò)水軍也在持續(xù)進(jìn)化中,寫出的評論越來越真情實(shí)感、具有極強(qiáng)的誤導(dǎo)性,單憑肉眼分辨既浪費(fèi)時(shí)間、又易被迷惑;但虛假評論可以推陳出新,我們的模型更可以隨時(shí)跟進(jìn)“學(xué)習(xí)”。如果將本文中的方法進(jìn)行推廣,則可以形成一個(gè)捕捉評論——文本解析——建立模型——判斷虛假評論比例的標(biāo)準(zhǔn)過程,這樣的方法無疑相當(dāng)具有實(shí)用性。
end
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10