
數(shù)據(jù)挖掘與生活:算法分類和應(yīng)用
相對于武漢,北京的秋來的真是早,九月初的傍晚,就能夠感覺到絲絲絲絲絲絲的涼意。
最近兩件事挺有感覺的。
看某發(fā)布會,設(shè)計師李劍葉的話挺讓人感動的。“**的設(shè)計是內(nèi)斂和克制的...。希望設(shè)計成為一種,可以被忽略的存在感”。
其次,有感于不斷跳Tone的婦科圣手,馮唐,“有追求、敢放棄”是他的標簽。
“如何分辨出垃圾郵件”、“如何判斷一筆交易是否屬于欺詐”、“如何判斷紅酒的品質(zhì)和檔次”、“掃描王是如何做到文字識別的”、“如何判斷佚名的著作是否出自某位名家之手”、“如何判斷一個細胞是否屬于腫瘤細胞”等等,這些問題似乎都很專業(yè),都不太好回答。但是,如果了解一點點數(shù)據(jù)挖掘(Data Mining)的知識,你,或許會有柳暗花明的感覺。
的確,數(shù)據(jù)挖掘無處不在。它和生活密不可分,就像空氣一樣,彌漫在你的周圍。但是,很多時候,你并不能意識到它。因此,它是陌生的,也是熟悉的。
本文,主要想簡單介紹下數(shù)據(jù)挖掘中的算法,以及它包含的類型。然后,通過現(xiàn)實中觸手可及的、活生生的案例,去詮釋它的真實存在。
一、數(shù)據(jù)挖掘的算法類型
一般來說,數(shù)據(jù)挖掘的算法包含四種類型,即分類、預(yù)測、聚類、關(guān)聯(lián)。前兩種屬于有監(jiān)督學習,后兩種屬于無監(jiān)督學習,屬于描述性的模式識別和發(fā)現(xiàn)。
(一)有監(jiān)督學習
有監(jiān)督的學習,即存在目標變量,需要探索特征變量和目標變量之間的關(guān)系,在目標變量的監(jiān)督下學習和優(yōu)化算法。例如,信用評分模型就是典型的有監(jiān)督學習,目標變量為“是否違約”。算法的目的在于研究特征變量(人口統(tǒng)計、資產(chǎn)屬性等)和目標變量之間的關(guān)系。
(1)分類算法
分類算法和預(yù)測算法的最大區(qū)別在于,前者的目標變量是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),后者的目標變量是連續(xù)型。一般而言,具體的分類算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經(jīng)網(wǎng)絡(luò)等。
(2)預(yù)測算法
預(yù)測類算法,其目標變量一般是連續(xù)型變量。常見的算法,包括線性回歸、回歸樹、神經(jīng)網(wǎng)絡(luò)、SVM等。
(二)無監(jiān)督學習
無監(jiān)督學習,即不存在目標變量,基于數(shù)據(jù)本身,去識別變量之間內(nèi)在的模式和特征。例如關(guān)聯(lián)分析,通過數(shù)據(jù)發(fā)現(xiàn)項目A和項目B之間的關(guān)聯(lián)性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩(wěn)定可區(qū)分的群體。這些都是在沒有目標變量監(jiān)督下的模式識別和分析。
(1)聚類分析
聚類的目的就是實現(xiàn)對樣本的細分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。常見的聚類算法包括kmeans、系譜聚類、密度聚類等。
(2)關(guān)聯(lián)分析
關(guān)聯(lián)分析的目的在于,找出項目(item)之間內(nèi)在的聯(lián)系。常常是指購物籃分析,即消費者常常會同時購買哪些產(chǎn)品(例如游泳褲、防曬霜),從而有助于商家的捆綁銷售。
二、基于數(shù)據(jù)挖掘的案例和應(yīng)用
上文所提到的四種算法類型(分類、預(yù)測、聚類、關(guān)聯(lián)),是比較傳統(tǒng)和常見的。還有其他一些比較有趣的算法分類和應(yīng)用場景,例如協(xié)同過濾、異常值分析、社會網(wǎng)絡(luò)、文本分析等。下面,想針對不同的算法類型,具體的介紹下數(shù)據(jù)挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關(guān)聯(lián)的例子。
(一)基于分類模型的案例
這里面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫(yī)藥領(lǐng)域的應(yīng)用,即腫瘤細胞的判斷和分辨。
(1)垃圾郵件的判別
郵箱系統(tǒng)如何分辨一封Email是否屬于垃圾郵件?這應(yīng)該屬于文本挖掘的范疇,通常會采用樸素貝葉斯的方法進行判別。它的主要原理是,根據(jù)郵件正文中的單詞,是否經(jīng)常出現(xiàn)在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含“報銷”、“發(fā)票”、“促銷”等詞匯時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬于垃圾郵件,應(yīng)該包含以下幾個步驟。第一,把郵件正文拆解成單詞組合,假設(shè)某篇郵件包含100個單詞。第二,根據(jù)貝葉斯條件概率,計算一封已經(jīng)出現(xiàn)了這100個單詞的郵件,屬于垃圾郵件的概率和正常郵件的概率。如果結(jié)果表明,屬于垃圾郵件的概率大于正常郵件的概率。那么該郵件就會被劃為垃圾郵件。
(2)醫(yī)學上的腫瘤判斷
如何判斷細胞是否屬于腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經(jīng)驗的醫(yī)生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統(tǒng)自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。并且,通過主觀(醫(yī)生)+客觀(模型)的方式識別腫瘤細胞,結(jié)果交叉驗證,結(jié)論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特征,例如細胞的半徑、質(zhì)地、周長、面積、光滑度、對稱性、凹凸性等等,構(gòu)成細胞特征的數(shù)據(jù)。其次,在細胞特征寬表的基礎(chǔ)上,通過搭建分類模型進行腫瘤細胞的判斷。
(二)基于預(yù)測模型的案例
這里面主要想介紹兩個案例。即通過化學特性判斷和預(yù)測紅酒的品質(zhì)。另外一個是,通過搜索引擎來預(yù)測和判斷股價的波動和趨勢。
(1)紅酒品質(zhì)的判斷
如何評鑒紅酒?有經(jīng)驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產(chǎn)地、氣候、釀造的工藝等等。但是,統(tǒng)計學家并沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特征就能夠很好地判斷紅酒的品質(zhì)了。并且,現(xiàn)在很多釀酒企業(yè)其實也都這么干了,通過監(jiān)測紅酒中化學成分的含量,從而控制紅酒的品質(zhì)和口感。
那么,如何判斷鑒紅酒的品質(zhì)呢?第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。第二步,通過分類回歸樹模型進行預(yù)測和判斷紅酒的品質(zhì)和等級。
(2)搜索引擎的搜索量和股價波動
一只南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以后,引起美國德克薩斯州的一場龍卷風。你在互聯(lián)網(wǎng)上的搜索是否會影響公司股價的波動?
很早之前,就已經(jīng)有文獻證明,互聯(lián)網(wǎng)關(guān)鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預(yù)測出某地區(qū)流感的爆發(fā)。
同樣,現(xiàn)在也有些學者發(fā)現(xiàn)了這樣一種現(xiàn)象,即公司在互聯(lián)網(wǎng)中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關(guān)注的程度。因此,當一只股票的搜索頻數(shù)增加時,說明投資者對該股票的關(guān)注度提升,從而使得該股票更容易被個人投資者購買,進一步地導(dǎo)致股票價格上升,帶來正向的股票收益。這是已經(jīng)得到無數(shù)論文驗證了的。
(三)基于關(guān)聯(lián)分析的案例:沃爾瑪?shù)钠【颇虿?
啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發(fā)現(xiàn)一個非常有趣的現(xiàn)象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在于,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數(shù)據(jù)中發(fā)現(xiàn)了這種關(guān)聯(lián)性,因此,將這兩種商品并置,從而大大提高了關(guān)聯(lián)銷售。
啤酒尿布主要講的是產(chǎn)品之間的關(guān)聯(lián)性,如果大量的數(shù)據(jù)表明,消費者購買A商品的同時,也會順帶著購買B產(chǎn)品。那么A和B之間存在關(guān)聯(lián)性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關(guān)聯(lián)分析的結(jié)果。
(四)基于聚類分析的案例:零售客戶細分
對客戶的細分,還是比較常見的。細分的功能,在于能夠有效的劃分出客戶群體,使得群體內(nèi)部成員具有相似性,但是群體之間存在差異性。其目的在于識別不同的客戶群體,然后針對不同的客戶群體,精準地進行產(chǎn)品設(shè)計和推送,從而節(jié)約營銷成本,提高營銷效率。
例如,針對商業(yè)銀行中的零售客戶進行細分,基于零售客戶的特征變量(人口特征、資產(chǎn)特征、負債特征、結(jié)算特征),計算客戶之間的距離。然后,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
(五)基于異常值分析的案例:支付中的交易欺詐偵測
采用支付寶支付時,或者刷信用卡支付時,系統(tǒng)會實時判斷這筆刷卡行為是否屬于盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這里面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應(yīng)該是基于一個欺詐規(guī)則庫的??赡馨瑑深愐?guī)則,即事件類規(guī)則和模型類規(guī)則。第一,事件類規(guī)則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經(jīng)常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現(xiàn)商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標準差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規(guī)則,則是通過算法判定交易是否屬于欺詐。一般通過支付數(shù)據(jù)、賣家數(shù)據(jù)、結(jié)算數(shù)據(jù),構(gòu)建模型進行分類問題的判斷。
(六)基于協(xié)同過濾的案例:電商猜你喜歡和推薦引擎
電商中的猜你喜歡,應(yīng)該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有“猜你喜歡”、“根據(jù)您的瀏覽歷史記錄精心為您推薦”、“購買此商品的顧客同時也購買了**商品”、“瀏覽了該商品的顧客最終購買了**商品”,這些都是推薦引擎運算的結(jié)果。
這里面,確實很喜歡亞馬遜的推薦,通過“購買該商品的人同時購買了**商品”,常常會發(fā)現(xiàn)一些質(zhì)量比較高、較為受認可的書。
一般來說,電商的“猜你喜歡”(即推薦引擎)都是在協(xié)同過濾算法(Collaborative Filter)的基礎(chǔ)上,搭建一套符合自身特點的規(guī)則庫。即該算法會同時考慮其他顧客的選擇和行為,在此基礎(chǔ)上搭建產(chǎn)品相似性矩陣和用戶相似性矩陣。基于此,找出最相似的顧客或最關(guān)聯(lián)的產(chǎn)品,從而完成產(chǎn)品的推薦。
(七)基于社會網(wǎng)絡(luò)分析的案例:電信中的種子客戶
種子客戶和社會網(wǎng)絡(luò),最早出現(xiàn)在電信領(lǐng)域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關(guān)系網(wǎng)絡(luò)。電信領(lǐng)域的網(wǎng)絡(luò),一般會分析客戶的影響力和客戶流失、產(chǎn)品擴散的關(guān)系。
基于通話記錄,可以構(gòu)建客戶影響力指標體系。采用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等?;谏鐣绊懥?,分析的結(jié)果表明,高影響力客戶的流失會導(dǎo)致關(guān)聯(lián)客戶的流失。其次,在產(chǎn)品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網(wǎng)絡(luò)在銀行(擔保網(wǎng)絡(luò))、保險(團伙欺詐)、互聯(lián)網(wǎng)(社交互動)中也都有很多的應(yīng)用和案例。
(八)基于文本分析的案例
這里面主要想介紹兩個案例。一個是類似“掃描王”的APP,直接把紙質(zhì)文檔掃描成電子文檔。相信很多人都用過,這里準備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和后四十回,好像并非都是出自曹雪芹之手,這里面準備從統(tǒng)計的角度聊聊。
(1)字符識別:掃描王APP
手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然后把掃描的內(nèi)容自動轉(zhuǎn)化為word。這些屬于圖像識別和字符識別(Optical Character Recognition)。圖像識別比較復(fù)雜,字符識別理解起來比較容易些。
查找了一些資料,字符識別的大概原理如下,以字符S為例。第一,把字符圖像縮小到標準像素尺寸,例如12*16。注意,圖像是由像素構(gòu)成,字符圖像主要包括黑、白兩種像素。
第二,提取字符的特征向量。如何提取字符的特征,采用二維直方圖投影。就是把字符(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數(shù)量、垂直方向各個像素列上的黑色像素的累計數(shù)量。從而得到水平方向12個維度的特征向量取值,垂直方向上16個維度的特征向量取值。這樣就構(gòu)成了包含28個維度的字符特征向量。
第三,基于前面的字符特征向量,通過神經(jīng)網(wǎng)絡(luò)學習,從而識別字符和有效分類。
(2)文學著作與統(tǒng)計:紅樓夢歸屬
這是非常著名的一個爭論,懸而未決。對于紅樓夢的作者,通常認為前80回合是曹雪芹所著,后四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和后40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統(tǒng)計學家比較興奮了。有些學者通過統(tǒng)計名詞、動詞、形容詞、副詞、虛詞出現(xiàn)的頻次,以及不同詞性之間的相關(guān)系做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前后文風的差異。有些學者通過場景(花卉、樹木、飲食、醫(yī)藥與詩詞)頻次的差異,來做統(tǒng)計判斷??偠灾?,主要通過一些指標量化,然后比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10