
互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘
今天早上看了一篇文章,內(nèi)容如題,感覺(jué)寫(xiě)的不錯(cuò)!什么樣是人性化的服務(wù)?
想聽(tīng)一首歌,不必想好其歌名,到搜索引擎里去搜索、下載;而是輸入現(xiàn)在的心情,比如“激昂”,播放器就自動(dòng)播放出《男兒當(dāng)自強(qiáng)》這樣的歌曲,而且一首接著一首。
想去旅游,不必苦思要去什么具體的城市,而是輸入大概想法,比如“浪漫的周末度假”,就能馬上看到十個(gè)建議:包括一家臨海賓館的情侶房、燭光晚餐、一套在周五晚起飛周日晚返歸的機(jī)票。
要完成這些人性化服務(wù)靠搜索引擎是不行的,得靠數(shù)據(jù)挖掘?,F(xiàn)在,數(shù)據(jù)挖掘的各種應(yīng)用離為我們提供上面這些真實(shí)服務(wù)已經(jīng)越來(lái)越近了。
數(shù)據(jù)挖掘(Data Mining)與我們所熟悉的信息檢索(Information Retrieval)的不同之處在于:信息檢索是針對(duì)數(shù)據(jù)的明顯特征來(lái)尋找信息,比如Google等搜索引擎就是尋找含有某關(guān)鍵詞的網(wǎng)頁(yè)、并且根據(jù)鏈接數(shù) 來(lái)判斷其重要性。而數(shù)據(jù)挖掘則要復(fù)雜很多,其目的是要在大量數(shù)據(jù)中“挖掘出有趣的可理解的知識(shí)”,這是搜索引擎不能完成的。所以數(shù)據(jù)挖掘也叫數(shù)據(jù)庫(kù)中知識(shí) 發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)。
本質(zhì)上,數(shù)據(jù)挖掘能夠把海量數(shù)據(jù)變成可被人類可直接
利用的信息,是一個(gè)“把冰冷信息人性化”的過(guò)程?,F(xiàn)在,針對(duì)數(shù)據(jù)挖掘的前沿應(yīng)用已經(jīng)非常之多,覆蓋了不同的領(lǐng)域,以不同的方式呈現(xiàn)出來(lái)。今后,互聯(lián)網(wǎng)用戶
所接觸到的不再只會(huì)是傳統(tǒng)搜索引擎輸出的一排排的網(wǎng)頁(yè),而可能是溫情脈脈的令自己更加親切和感動(dòng)的方式。
本文發(fā)表于博銳管理在線|www.boraid.com|37
音樂(lè)
互 聯(lián)網(wǎng)用戶會(huì)在很多場(chǎng)合,比如博客和論壇里,留下很多自己對(duì)音樂(lè)的看法,比如在某種心情下推薦的歌曲,在某種情緒下整理了一張歌單。就留下了比如“今天我好 亢奮,我在聽(tīng)《男兒當(dāng)自強(qiáng)》”這樣的線索。有道把這千千萬(wàn)萬(wàn)個(gè)用戶的“聲音”整合起來(lái),通過(guò)提煉、去除噪音、自動(dòng)聚合相關(guān)詞、配對(duì),就實(shí)現(xiàn)了心情和音樂(lè)的 一一對(duì)應(yīng)。
Google音樂(lè)里的“挑歌”功能,與有道隨心聽(tīng)也神似。Google挑歌的方式是:提供可供用戶自己調(diào)節(jié)的音調(diào)、音色等搜索
選項(xiàng),每一個(gè)選項(xiàng)都有一個(gè)滑塊可供自由調(diào)節(jié)。用鼠標(biāo)點(diǎn)擊拖動(dòng)滑塊,通過(guò)節(jié)奏的舒緩或強(qiáng)烈、音調(diào)的低沉或尖銳、音色的豐富或單純來(lái)查詢最希望聽(tīng)到的音樂(lè)。筆
者嘗試挑出一首“節(jié)奏舒緩,聲調(diào)低沉,音色適中”的歌,“挑歌”輸出的結(jié)果是張學(xué)友的《相思風(fēng)雨中》和徐小鳳的《蒙蒙夜雨》。
這兩個(gè)產(chǎn)品
會(huì)完全改變以往的尋找音樂(lè)的方式:只有當(dāng)你想好某一首歌的名字后,才能去搜索引擎里把它找出來(lái)。其實(shí)音樂(lè)的歷史遠(yuǎn)遠(yuǎn)早于文字,所以音樂(lè)應(yīng)當(dāng)回歸人類溝通的
本能,挑歌和隨心聽(tīng)的功能可以用音樂(lè)自身特性去搜索音樂(lè),讓音樂(lè)跨越語(yǔ)言和文字的障礙,成為人類最自然的溝通方式。
廣告
創(chuàng)業(yè)公司PeerSet新發(fā)布了一個(gè)廣告數(shù)據(jù)工具,能夠通過(guò)網(wǎng)頁(yè)內(nèi)容分析提供網(wǎng)絡(luò)用戶“心理”方面的特征。Peerset的技術(shù)能夠有機(jī)地把用戶的興趣、價(jià)值觀、生活方式、對(duì)品牌的態(tài)度關(guān)聯(lián)在一起。讓廣告主了解到這些背景信息。
基 本上,Peerset的套路是跟蹤社交媒體上的各種互動(dòng),試圖加以解釋、并且把各種信息加以關(guān)聯(lián),然后為廣告主給出結(jié)果。比如,如果廣告的特征“時(shí)尚”, 那么Peerset就可能根據(jù)對(duì)信息的檢測(cè)和梳理得出:那些談?wù)摗扒橛际小焙汀胞湲?dāng)娜”的人就是合適的受眾。Peerset就是要通過(guò)“心理”方面的特 征把對(duì)不同廣告合適的不同人群找出來(lái)。
Peerset不只是提供關(guān)于目標(biāo)人群的數(shù)據(jù)庫(kù)給廣告主,還會(huì)整合當(dāng)前的廣告系統(tǒng),直接把相應(yīng)的廣 告放到合適的網(wǎng)頁(yè)位置上去。比如,對(duì)于想做廣告的時(shí)尚服裝廣告主,Peerset會(huì)在接單以后,直接把廣告投放到Facebook上一個(gè)喜歡《情欲都市》 電影的那個(gè)用戶的頁(yè)面上。
這種廣告方式又與搜索引擎的廣告有了本質(zhì)的不同。搜索引擎廣告的優(yōu)勢(shì)在于對(duì)準(zhǔn)了有明確購(gòu)買傾向的用戶,而 Peerset廣告能夠把有潛在購(gòu)買傾向的用戶“挖掘”出來(lái)。是的,這種方式與傳統(tǒng)的品牌展示廣告目的相似,不過(guò),Peerset要更有效率。因?yàn)槠放茝V 告是撒大網(wǎng),而Peerset試圖做到“精準(zhǔn)”匹配。
調(diào)研
Facebook手里有3億用戶和每天4000萬(wàn)次狀態(tài)更新, 利用如此巨大的海量數(shù)據(jù),可以對(duì)幾乎任何話題做評(píng)測(cè)。諸如人們最關(guān)注的品牌,最關(guān)心的政治問(wèn)題。于是工程師們決定利用這些數(shù)據(jù),來(lái)評(píng)測(cè)國(guó)民幸福指數(shù) (Gross National Happiness)。這個(gè)新應(yīng)用將最大可能地評(píng)測(cè)美國(guó)Facebook用戶是幸福還是悲觀的。產(chǎn)品開(kāi)發(fā)人員是這樣描述的:
把來(lái)自全國(guó)各 地的數(shù)百萬(wàn)Facebook用戶的狀態(tài)更新數(shù)據(jù)集合在一起,可以說(shuō)明國(guó)民的幸福感有多強(qiáng)。評(píng)測(cè)國(guó)民感到幸運(yùn)、幸福,以及對(duì)生活滿意的程度是這項(xiàng)國(guó)民幸福指 數(shù)評(píng)測(cè)項(xiàng)目的一部分。當(dāng)用戶在狀態(tài)更新中使用比平時(shí)多的積極詞匯(或少的消極詞匯)時(shí),表示這一天比平時(shí)更幸福。
這些數(shù)據(jù)都是匿名從 Facebook論壇上收集的。為確定某些狀態(tài)信息究竟表示幸福還是悲傷,或兩者都不是,這項(xiàng)應(yīng)用還必須搜索開(kāi)發(fā)人員確定的與每個(gè)情緒相聯(lián)系的流行短語(yǔ)和 詞匯。結(jié)果是:周一人們的幸福指數(shù)最低,然后一直到周末,幸福指數(shù)不斷上升,在下一周開(kāi)始時(shí),又跌至最低。通常,幸福指數(shù)在假期附近較高。今年6月底,人 們的幸福指數(shù)急速下滑,這可能與流行音樂(lè)之王Michael Jackson的逝世有關(guān)。
旅游
Center?d是由 YahooLocal這款產(chǎn)品的前總經(jīng)理Dulski掌舵的一個(gè)活動(dòng)組織網(wǎng)站,也就是把促成一個(gè)聚會(huì)活動(dòng)所需要的三要素便捷地組織起來(lái):人,地點(diǎn),計(jì)劃 (people,place,plan)。不過(guò),Cener?d特別之處是,在其搜索結(jié)果里加入了“語(yǔ)義分析”,號(hào)稱其結(jié)果要比同類網(wǎng)站的“關(guān)鍵詞”搜索 結(jié)果更好。
Center?d已經(jīng)積累了100萬(wàn)次的針對(duì)活動(dòng)的搜索,并把這些搜索根據(jù)其目的進(jìn)行分類。為此,Center?d的自主大量的分析發(fā)生在網(wǎng)上的關(guān)于某個(gè)活動(dòng)的談話或者討論,以對(duì)這個(gè)活動(dòng)打上“正面”或者“負(fù)面”的標(biāo)簽。然后形成數(shù)據(jù)庫(kù),再形成圖表。
Dulski 認(rèn)為,這種基于語(yǔ)義的分析要比普通的關(guān)鍵詞搜索更好,因?yàn)槟軌蚝Y除很多不精確的匹配。比如,一個(gè)“不適合同性戀的Party”,就不會(huì)出現(xiàn)在一個(gè)對(duì)“同性 戀Party”做搜索的結(jié)果里。因?yàn)镃enter?d已經(jīng)通過(guò)語(yǔ)義分析知道了,“同性戀”前面的“不合適”就表示一個(gè)“負(fù)面”評(píng)價(jià)。
基于這個(gè)數(shù)據(jù)庫(kù),Center?d就能夠形成一個(gè)針對(duì)不同標(biāo)準(zhǔn)的活動(dòng)指南。比如,在北京的浪漫之旅、廉價(jià)旅游四川等等。這些特定標(biāo)準(zhǔn)的搜索結(jié)果大部分由數(shù)據(jù)庫(kù)自動(dòng)生成,但也有少量編輯參與其中,以確保質(zhì)量。
Dulski 說(shuō),很多用戶來(lái)到Center?d時(shí)其實(shí)腦袋里并沒(méi)有一個(gè)明確的目的,所以諸如“北京的浪漫之旅”或者“兒童們的六一節(jié)日”這樣的柔性、感性、概念性的東 西能夠容易激起他們的興趣,并且一步步誘導(dǎo)他們完成一次活動(dòng)的準(zhǔn)備???,這個(gè)看法跟Google挑歌和有道隨心聽(tīng)的邏輯是多么神似。唯一不同的是所針對(duì)的 對(duì)象不一樣。
任何服務(wù)或者工具面對(duì)的都不是一個(gè)對(duì)自己需求有明確認(rèn)識(shí)的理性人,而是一個(gè)有著一點(diǎn)感覺(jué),但需要被引導(dǎo)的感性人。這無(wú)疑是一條正確的發(fā)展之路。
產(chǎn)品改進(jìn)
數(shù)據(jù)挖掘也在幫助產(chǎn)品經(jīng)理們改善用戶體驗(yàn)。在很多大的互聯(lián)網(wǎng)公司,這實(shí)際上成為了輔佐公司戰(zhàn)略的數(shù)字神經(jīng)系統(tǒng)。
互聯(lián)網(wǎng)公司一般都記錄了所有用戶在其網(wǎng)站(尤其是網(wǎng)絡(luò)游戲和社交網(wǎng)絡(luò))上的所有點(diǎn)擊、行為路徑、相應(yīng)的時(shí)間。如果用戶嘗試一個(gè)新產(chǎn)品,用一兩秒鐘就退出來(lái)了,說(shuō)明這個(gè)產(chǎn)品可能有問(wèn)題,而不是用戶不想用;而其中出問(wèn)題的很可能就在用戶的最后一次點(diǎn)擊發(fā)生的地方。
比如騰訊就一款網(wǎng)游中的子彈射出后的彈道設(shè)置做研究,根據(jù)對(duì)用戶的挖掘數(shù)據(jù)認(rèn)為,游戲原本設(shè)計(jì)的逼真效果對(duì)中國(guó)用戶并不合適,而用戶對(duì)一種新設(shè)計(jì)的“比較爽快的、節(jié)奏快的、鮮明的”的彈道設(shè)計(jì)更加興奮。
在 網(wǎng)游業(yè),數(shù)據(jù)挖掘的最系統(tǒng)應(yīng)用就是盛大的“平臺(tái)”戰(zhàn)略。也就是,把任意一款游戲拿到其從2004年就開(kāi)始建立的一套“評(píng)測(cè)”體系去走流程,就可以知道這款 游戲到底會(huì)不會(huì)受到玩家的歡迎。其根據(jù),就來(lái)自于盛大在過(guò)去運(yùn)營(yíng)的上百款游戲的用戶數(shù)據(jù)的記錄、分析、關(guān)聯(lián)、最后建立模型?;谶@套評(píng)測(cè)流程,盛大就可以 對(duì)一款新游戲做出判斷,到底該不該運(yùn)營(yíng)、如何去改進(jìn)、潛力有多大,都有了一套從數(shù)字出發(fā)的答案。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10