
互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘
今天早上看了一篇文章,內(nèi)容如題,感覺寫的不錯(cuò)!什么樣是人性化的服務(wù)?
想聽一首歌,不必想好其歌名,到搜索引擎里去搜索、下載;而是輸入現(xiàn)在的心情,比如“激昂”,播放器就自動(dòng)播放出《男兒當(dāng)自強(qiáng)》這樣的歌曲,而且一首接著一首。
想去旅游,不必苦思要去什么具體的城市,而是輸入大概想法,比如“浪漫的周末度假”,就能馬上看到十個(gè)建議:包括一家臨海賓館的情侶房、燭光晚餐、一套在周五晚起飛周日晚返歸的機(jī)票。
要完成這些人性化服務(wù)靠搜索引擎是不行的,得靠數(shù)據(jù)挖掘?,F(xiàn)在,數(shù)據(jù)挖掘的各種應(yīng)用離為我們提供上面這些真實(shí)服務(wù)已經(jīng)越來越近了。
數(shù)據(jù)挖掘(Data Mining)與我們所熟悉的信息檢索(Information Retrieval)的不同之處在于:信息檢索是針對(duì)數(shù)據(jù)的明顯特征來尋找信息,比如Google等搜索引擎就是尋找含有某關(guān)鍵詞的網(wǎng)頁(yè)、并且根據(jù)鏈接數(shù) 來判斷其重要性。而數(shù)據(jù)挖掘則要復(fù)雜很多,其目的是要在大量數(shù)據(jù)中“挖掘出有趣的可理解的知識(shí)”,這是搜索引擎不能完成的。所以數(shù)據(jù)挖掘也叫數(shù)據(jù)庫(kù)中知識(shí) 發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)。
本質(zhì)上,數(shù)據(jù)挖掘能夠把海量數(shù)據(jù)變成可被人類可直接
利用的信息,是一個(gè)“把冰冷信息人性化”的過程?,F(xiàn)在,針對(duì)數(shù)據(jù)挖掘的前沿應(yīng)用已經(jīng)非常之多,覆蓋了不同的領(lǐng)域,以不同的方式呈現(xiàn)出來。今后,互聯(lián)網(wǎng)用戶
所接觸到的不再只會(huì)是傳統(tǒng)搜索引擎輸出的一排排的網(wǎng)頁(yè),而可能是溫情脈脈的令自己更加親切和感動(dòng)的方式。
本文發(fā)表于博銳管理在線|www.boraid.com|37
音樂
互 聯(lián)網(wǎng)用戶會(huì)在很多場(chǎng)合,比如博客和論壇里,留下很多自己對(duì)音樂的看法,比如在某種心情下推薦的歌曲,在某種情緒下整理了一張歌單。就留下了比如“今天我好 亢奮,我在聽《男兒當(dāng)自強(qiáng)》”這樣的線索。有道把這千千萬萬個(gè)用戶的“聲音”整合起來,通過提煉、去除噪音、自動(dòng)聚合相關(guān)詞、配對(duì),就實(shí)現(xiàn)了心情和音樂的 一一對(duì)應(yīng)。
Google音樂里的“挑歌”功能,與有道隨心聽也神似。Google挑歌的方式是:提供可供用戶自己調(diào)節(jié)的音調(diào)、音色等搜索
選項(xiàng),每一個(gè)選項(xiàng)都有一個(gè)滑塊可供自由調(diào)節(jié)。用鼠標(biāo)點(diǎn)擊拖動(dòng)滑塊,通過節(jié)奏的舒緩或強(qiáng)烈、音調(diào)的低沉或尖銳、音色的豐富或單純來查詢最希望聽到的音樂。筆
者嘗試挑出一首“節(jié)奏舒緩,聲調(diào)低沉,音色適中”的歌,“挑歌”輸出的結(jié)果是張學(xué)友的《相思風(fēng)雨中》和徐小鳳的《蒙蒙夜雨》。
這兩個(gè)產(chǎn)品
會(huì)完全改變以往的尋找音樂的方式:只有當(dāng)你想好某一首歌的名字后,才能去搜索引擎里把它找出來。其實(shí)音樂的歷史遠(yuǎn)遠(yuǎn)早于文字,所以音樂應(yīng)當(dāng)回歸人類溝通的
本能,挑歌和隨心聽的功能可以用音樂自身特性去搜索音樂,讓音樂跨越語(yǔ)言和文字的障礙,成為人類最自然的溝通方式。
廣告
創(chuàng)業(yè)公司PeerSet新發(fā)布了一個(gè)廣告數(shù)據(jù)工具,能夠通過網(wǎng)頁(yè)內(nèi)容分析提供網(wǎng)絡(luò)用戶“心理”方面的特征。Peerset的技術(shù)能夠有機(jī)地把用戶的興趣、價(jià)值觀、生活方式、對(duì)品牌的態(tài)度關(guān)聯(lián)在一起。讓廣告主了解到這些背景信息。
基 本上,Peerset的套路是跟蹤社交媒體上的各種互動(dòng),試圖加以解釋、并且把各種信息加以關(guān)聯(lián),然后為廣告主給出結(jié)果。比如,如果廣告的特征“時(shí)尚”, 那么Peerset就可能根據(jù)對(duì)信息的檢測(cè)和梳理得出:那些談?wù)摗扒橛际小焙汀胞湲?dāng)娜”的人就是合適的受眾。Peerset就是要通過“心理”方面的特 征把對(duì)不同廣告合適的不同人群找出來。
Peerset不只是提供關(guān)于目標(biāo)人群的數(shù)據(jù)庫(kù)給廣告主,還會(huì)整合當(dāng)前的廣告系統(tǒng),直接把相應(yīng)的廣 告放到合適的網(wǎng)頁(yè)位置上去。比如,對(duì)于想做廣告的時(shí)尚服裝廣告主,Peerset會(huì)在接單以后,直接把廣告投放到Facebook上一個(gè)喜歡《情欲都市》 電影的那個(gè)用戶的頁(yè)面上。
這種廣告方式又與搜索引擎的廣告有了本質(zhì)的不同。搜索引擎廣告的優(yōu)勢(shì)在于對(duì)準(zhǔn)了有明確購(gòu)買傾向的用戶,而 Peerset廣告能夠把有潛在購(gòu)買傾向的用戶“挖掘”出來。是的,這種方式與傳統(tǒng)的品牌展示廣告目的相似,不過,Peerset要更有效率。因?yàn)槠放茝V 告是撒大網(wǎng),而Peerset試圖做到“精準(zhǔn)”匹配。
調(diào)研
Facebook手里有3億用戶和每天4000萬次狀態(tài)更新, 利用如此巨大的海量數(shù)據(jù),可以對(duì)幾乎任何話題做評(píng)測(cè)。諸如人們最關(guān)注的品牌,最關(guān)心的政治問題。于是工程師們決定利用這些數(shù)據(jù),來評(píng)測(cè)國(guó)民幸福指數(shù) (Gross National Happiness)。這個(gè)新應(yīng)用將最大可能地評(píng)測(cè)美國(guó)Facebook用戶是幸福還是悲觀的。產(chǎn)品開發(fā)人員是這樣描述的:
把來自全國(guó)各 地的數(shù)百萬Facebook用戶的狀態(tài)更新數(shù)據(jù)集合在一起,可以說明國(guó)民的幸福感有多強(qiáng)。評(píng)測(cè)國(guó)民感到幸運(yùn)、幸福,以及對(duì)生活滿意的程度是這項(xiàng)國(guó)民幸福指 數(shù)評(píng)測(cè)項(xiàng)目的一部分。當(dāng)用戶在狀態(tài)更新中使用比平時(shí)多的積極詞匯(或少的消極詞匯)時(shí),表示這一天比平時(shí)更幸福。
這些數(shù)據(jù)都是匿名從 Facebook論壇上收集的。為確定某些狀態(tài)信息究竟表示幸福還是悲傷,或兩者都不是,這項(xiàng)應(yīng)用還必須搜索開發(fā)人員確定的與每個(gè)情緒相聯(lián)系的流行短語(yǔ)和 詞匯。結(jié)果是:周一人們的幸福指數(shù)最低,然后一直到周末,幸福指數(shù)不斷上升,在下一周開始時(shí),又跌至最低。通常,幸福指數(shù)在假期附近較高。今年6月底,人 們的幸福指數(shù)急速下滑,這可能與流行音樂之王Michael Jackson的逝世有關(guān)。
旅游
Center?d是由 YahooLocal這款產(chǎn)品的前總經(jīng)理Dulski掌舵的一個(gè)活動(dòng)組織網(wǎng)站,也就是把促成一個(gè)聚會(huì)活動(dòng)所需要的三要素便捷地組織起來:人,地點(diǎn),計(jì)劃 (people,place,plan)。不過,Cener?d特別之處是,在其搜索結(jié)果里加入了“語(yǔ)義分析”,號(hào)稱其結(jié)果要比同類網(wǎng)站的“關(guān)鍵詞”搜索 結(jié)果更好。
Center?d已經(jīng)積累了100萬次的針對(duì)活動(dòng)的搜索,并把這些搜索根據(jù)其目的進(jìn)行分類。為此,Center?d的自主大量的分析發(fā)生在網(wǎng)上的關(guān)于某個(gè)活動(dòng)的談話或者討論,以對(duì)這個(gè)活動(dòng)打上“正面”或者“負(fù)面”的標(biāo)簽。然后形成數(shù)據(jù)庫(kù),再形成圖表。
Dulski 認(rèn)為,這種基于語(yǔ)義的分析要比普通的關(guān)鍵詞搜索更好,因?yàn)槟軌蚝Y除很多不精確的匹配。比如,一個(gè)“不適合同性戀的Party”,就不會(huì)出現(xiàn)在一個(gè)對(duì)“同性 戀Party”做搜索的結(jié)果里。因?yàn)镃enter?d已經(jīng)通過語(yǔ)義分析知道了,“同性戀”前面的“不合適”就表示一個(gè)“負(fù)面”評(píng)價(jià)。
基于這個(gè)數(shù)據(jù)庫(kù),Center?d就能夠形成一個(gè)針對(duì)不同標(biāo)準(zhǔn)的活動(dòng)指南。比如,在北京的浪漫之旅、廉價(jià)旅游四川等等。這些特定標(biāo)準(zhǔn)的搜索結(jié)果大部分由數(shù)據(jù)庫(kù)自動(dòng)生成,但也有少量編輯參與其中,以確保質(zhì)量。
Dulski 說,很多用戶來到Center?d時(shí)其實(shí)腦袋里并沒有一個(gè)明確的目的,所以諸如“北京的浪漫之旅”或者“兒童們的六一節(jié)日”這樣的柔性、感性、概念性的東 西能夠容易激起他們的興趣,并且一步步誘導(dǎo)他們完成一次活動(dòng)的準(zhǔn)備。看,這個(gè)看法跟Google挑歌和有道隨心聽的邏輯是多么神似。唯一不同的是所針對(duì)的 對(duì)象不一樣。
任何服務(wù)或者工具面對(duì)的都不是一個(gè)對(duì)自己需求有明確認(rèn)識(shí)的理性人,而是一個(gè)有著一點(diǎn)感覺,但需要被引導(dǎo)的感性人。這無疑是一條正確的發(fā)展之路。
產(chǎn)品改進(jìn)
數(shù)據(jù)挖掘也在幫助產(chǎn)品經(jīng)理們改善用戶體驗(yàn)。在很多大的互聯(lián)網(wǎng)公司,這實(shí)際上成為了輔佐公司戰(zhàn)略的數(shù)字神經(jīng)系統(tǒng)。
互聯(lián)網(wǎng)公司一般都記錄了所有用戶在其網(wǎng)站(尤其是網(wǎng)絡(luò)游戲和社交網(wǎng)絡(luò))上的所有點(diǎn)擊、行為路徑、相應(yīng)的時(shí)間。如果用戶嘗試一個(gè)新產(chǎn)品,用一兩秒鐘就退出來了,說明這個(gè)產(chǎn)品可能有問題,而不是用戶不想用;而其中出問題的很可能就在用戶的最后一次點(diǎn)擊發(fā)生的地方。
比如騰訊就一款網(wǎng)游中的子彈射出后的彈道設(shè)置做研究,根據(jù)對(duì)用戶的挖掘數(shù)據(jù)認(rèn)為,游戲原本設(shè)計(jì)的逼真效果對(duì)中國(guó)用戶并不合適,而用戶對(duì)一種新設(shè)計(jì)的“比較爽快的、節(jié)奏快的、鮮明的”的彈道設(shè)計(jì)更加興奮。
在 網(wǎng)游業(yè),數(shù)據(jù)挖掘的最系統(tǒng)應(yīng)用就是盛大的“平臺(tái)”戰(zhàn)略。也就是,把任意一款游戲拿到其從2004年就開始建立的一套“評(píng)測(cè)”體系去走流程,就可以知道這款 游戲到底會(huì)不會(huì)受到玩家的歡迎。其根據(jù),就來自于盛大在過去運(yùn)營(yíng)的上百款游戲的用戶數(shù)據(jù)的記錄、分析、關(guān)聯(lián)、最后建立模型?;谶@套評(píng)測(cè)流程,盛大就可以 對(duì)一款新游戲做出判斷,到底該不該運(yùn)營(yíng)、如何去改進(jìn)、潛力有多大,都有了一套從數(shù)字出發(fā)的答案。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03