
作者:接地氣的陳老師
來源:接地氣學(xué)堂
一提人工智能大數(shù)據(jù),必有人提啤酒與尿布,有意思的是,都2020年了,還有人信這個老掉牙的都市傳說。今天我們系統(tǒng)講解一下。
1 站在背后的關(guān)聯(lián)規(guī)則
支持啤酒與尿布故事的,是關(guān)聯(lián)規(guī)則算法。注意:關(guān)聯(lián)規(guī)則算法本身沒啥問題,這是一種發(fā)現(xiàn)關(guān)聯(lián)關(guān)系(注意:不是因果關(guān)系哦)的手段,并且它的算法原理非常簡單,需要的數(shù)據(jù)也非常少,因此適用范圍非常廣。
假設(shè)有6種產(chǎn)品,ABCDEF,一個客人買了AB去結(jié)賬,收銀員打出一張小票,上邊有AB產(chǎn)品的名稱、價格,我們可以用0、1代表是否有該商品,簡單把小票表示成:
類似地,如果有5張訂單,可以表示成:
注意,即使沒有計算,用肉眼也能看到,似乎ABC三個產(chǎn)品在訂單里同時出現(xiàn)的幾率很高,這就是關(guān)聯(lián)規(guī)則的基本思路:找到同時出現(xiàn)頻率高的組合。只不過,我們需要用一些指標來衡量:到底什么算高。
因為有六個商品,所以同時出現(xiàn)的組合有很多種:A+B,A+B+C等,我們從最簡單的兩兩組合開始計算,再算三三、四四……計算組合的時候,我們希望組合出現(xiàn)的頻率越高越好,因此有了支持度概念:
兩個商品的購買可能有先后順序,比如先A后B,這時候可以算購買A的情況下,用戶購買B的概率,從而決定在用戶購買A以后推B產(chǎn)品,或者是C、D產(chǎn)品。因此引入置信度概念:
注意,雖然算出來購買A以后有75%概率購買B,但是不一定非等到用戶買A再推薦B。如這個小例子里,直接推B也有80%購買率,顯然非等到買了A再推B會很不劃算,購買率還跌了,因此引入提升度概念:
支持度、置信度、提升度的計算都很簡單,理論上,只需要設(shè)定支持度與置信度的要求,之后按一定順序遍歷所有組合(比如Apriori算法),即能找出所有符合條件的組合。這種方法最大的優(yōu)勢就是簡單,計算方法、計算邏輯都簡單,且需要的數(shù)據(jù)很少,只要有訂單數(shù)據(jù)即可,數(shù)據(jù)采集永遠是算法的頭號大敵,一個需要數(shù)據(jù)少的方法,自然會被極其廣泛的運用。特別是應(yīng)用于購物籃分析。
然而,運用歸運用,你真在哪個超市見過啤酒與尿布堆在一起的嗎。很快講故事的人便發(fā)現(xiàn)了這個bug,于是改口說:國外的超市……欺負大家出國少呀。那事實的真相到底是啥呢?
2 為啥現(xiàn)實中不存在
很遺憾,啤酒與尿布在現(xiàn)實中不存在。首先因為啤酒與尿布是teradata公司的銷售編出來的故事。它完美符合了賣科技產(chǎn)品需要“意料之外,情理之中”的講故事原則,因此才流傳廣泛。在實際運用的時候,無論是技術(shù)上還是業(yè)務(wù)上,類似“啤酒與尿布”的完美案例都不存在。
從技術(shù)上看,關(guān)聯(lián)規(guī)則作為一種無監(jiān)督找規(guī)律方法,更適合做探索性分析,不太適合直接指向一個可落地的SKU組合。注意,上邊的例子是高度濃縮的,所以看起來簡單可行。比如啤酒,實際上還包含了品牌、包裝、價格、是否促銷、是否臨近保質(zhì)期等眾多因素。實際上SKU極其龐大,且單個SKU的數(shù)據(jù)非常零散。
如果只籠統(tǒng)地用“啤酒”這個大品類做關(guān)聯(lián),得出的數(shù)據(jù)幾乎沒啥指導(dǎo)意義。如果細到某一個具體價位具體保質(zhì)期的SKU, 比如“Corona/科羅娜啤酒330ml*24瓶178元非折扣非臨期”與“寶適綠幫紙尿褲S164新生嬰兒超薄透氣干爽款155元”單個具體SKU之間的支持度和置信度都非常低,很難達到落地的程度。
這是導(dǎo)致啤酒與尿布不會出現(xiàn)在超市里根本原因。隨便一個3米5門頭的小超市尿布至少幾十款,啤酒至少幾十款,到底哪個該擺在一起!還要考慮啤酒的冷藏問題,總不能在冰柜里放尿布吧。至于幾百上千平米大超市,啤酒SKU數(shù)幾千款,尿布幾千款,貨架長達數(shù)十米,只能分開放在酒水飲料區(qū)和母嬰用品區(qū)。這倆擺在一起,肯定被商場主管活活毆打致死。
從業(yè)務(wù)上講,關(guān)聯(lián)規(guī)則同所有數(shù)學(xué)、統(tǒng)計學(xué)模型一樣,只能說明兩個數(shù)字之間有關(guān)聯(lián)關(guān)系,無法論證任何實際意義上邏輯關(guān)系?!皨寢寕冑I尿布的時候會順便給爸爸買啤酒”的解釋,完全就是為了圓故事而圓故事。如果真站在買尿布的媽媽的角度,她有100個理由去買更更值得買的東西,比如干紙巾和濕紙巾。給BB換過尿布的人都知道,那紙巾用起來簡直像潑水一樣快。有更直接、更明確的驅(qū)動力存在,為啥要舍近求遠。
3 現(xiàn)實中是怎么玩的
本質(zhì)上,消費者的決策是多因素的,生理性需求,認知層次,產(chǎn)品價格,材質(zhì),廣告、宣傳、都會影響消費者最終決策。因此想帶動關(guān)聯(lián)銷售,方法多的很。
最直接的,基于業(yè)務(wù)規(guī)律的推薦,也就是俗稱的硬規(guī)則。比如有的書就上中下冊,拆開了就是沒頭沒尾;有的藥就是要一起吃,亂吃會死人。這些商品有固定的規(guī)律。這時候就不需要看數(shù)據(jù),而是根據(jù)業(yè)務(wù)規(guī)律直接做推薦。
有些不是硬規(guī)則,但是是人們約定俗成的習慣。比如出去燒烤,就是需要碳、爐子、簽子、醬油、雞翅、可樂;啤酒就是和花生米、小龍蝦、黃瓜拉皮一起吃;比如方便面就是配火腿腸。這種是軟規(guī)則。這些基于用戶習慣的軟規(guī)則,也能成為推薦的工具。比如做生鮮電商,可以一件件散著賣,也能打包一個“養(yǎng)秋膘火鍋套裝”把羊肉卷、湯底料、丸子、香菇等涮鍋食材打包賣。
有些曾經(jīng)不是規(guī)則,但是經(jīng)過商家的宣傳廣告,植入進用戶腦海的規(guī)則。比如女生各種化妝品,男生各種游戲皮膚、套裝;比如最經(jīng)典的:怕上火喝XXX;比如學(xué)數(shù)據(jù)分析要ESP套餐。這些是基于營銷宣傳的偽規(guī)則。雖然沒有啥科學(xué)道理,但是用戶能接受,就能成為推薦準則。
當然,還有最簡單粗暴的,基于打折的惠規(guī)則。最簡單的,用戶加入購物車以后,發(fā)現(xiàn)自己已經(jīng)買了400,還有一張滿500減100的券能用。這時候用戶急著找的就是“哪里有不雞肋的100元東西可以買”。很有可能她會選紙巾、沐浴露、米面油這種能存放的硬通貨。
這些都是業(yè)務(wù)方能發(fā)揮主觀能動性創(chuàng)造出的規(guī)則。所以請同學(xué)們牢記,并轉(zhuǎn)發(fā)給業(yè)務(wù)方看:不存在一個不用你努力,就靜靜躺在數(shù)據(jù)庫里等著被你的數(shù)據(jù)分析師發(fā)現(xiàn)的神秘力量。在2020年,沒有誰家的產(chǎn)品是100%獨特的,想業(yè)績做的比別人好,關(guān)鍵是自己得努力做。
當然,業(yè)務(wù)方想發(fā)揮主觀能動性,也是需要數(shù)據(jù)支持的(如下圖):
——熱門課程推薦:
想從事業(yè)務(wù)型數(shù)據(jù)分析師,您可以點擊>>>“數(shù)據(jù)分析師”了解課程詳情;
想從事大數(shù)據(jù)分析師,您可以點擊>>>“大數(shù)據(jù)就業(yè)”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業(yè)”了解課程詳情;
想了解Python數(shù)據(jù)分析,您可以點擊>>>“Python數(shù)據(jù)分析師”了解課程詳情;
想咨詢互聯(lián)網(wǎng)運營,你可以點擊>>>“互聯(lián)網(wǎng)運營就業(yè)班”了解課程詳情;
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機器學(xué)習解決實際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機器學(xué)習作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務(wù)解決方案 ...
2025-09-09