
使用SPSS 文本挖掘工具構(gòu)建社交媒體數(shù)據(jù)集市
文本挖掘 指的是用來從不同文字來源提取信息的技術(shù)。它為何如此重要呢?據(jù)普遍估計(jì),在所有與業(yè)務(wù)有關(guān)的信息中,有 80% 的信息是非結(jié)構(gòu)化文本數(shù)據(jù)和半結(jié)構(gòu)化文本數(shù)據(jù)。換言之,如果不對(duì)這 80% 的信息所代表的大量數(shù)據(jù)應(yīng)用文本分析,所有嵌入的業(yè)務(wù)信息和消費(fèi)者行為數(shù)據(jù)都會(huì)被浪費(fèi)。術(shù)語文本挖掘 常常被稱為文本分析 具有很多的實(shí)際意義,比如垃圾過濾、從電子商務(wù)網(wǎng)站上的意見和建議中提取信息、在博客和評(píng)論網(wǎng)站中進(jìn)行社交收聽和意見挖掘、增強(qiáng)客戶服務(wù)和電子郵件支持、業(yè)務(wù)文檔的自動(dòng)化處理、法律領(lǐng)域的電子發(fā)現(xiàn)、衡量消費(fèi)者的偏好、索賠分析和欺詐檢測,以及網(wǎng)絡(luò)犯罪和國家安全應(yīng)用程序。
文本挖掘類似于數(shù)據(jù)挖掘,因?yàn)樗册槍?duì)的識(shí)別出數(shù)據(jù)內(nèi)的有趣模式。雖然手動(dòng)(而且是高度勞動(dòng)密集)文本挖掘出現(xiàn)于二十世紀(jì)八十年代。在近些年來,對(duì)于通過定義搜索引擎結(jié)果算法和篩選數(shù)據(jù)源來發(fā)現(xiàn)未知信息而言,文本挖掘領(lǐng)域十分重要。諸如機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)、計(jì)算語言學(xué)和數(shù)據(jù)挖掘這樣的技術(shù)均在這個(gè)過程中發(fā)揮了重要作用。例如,文本的知識(shí)發(fā)現(xiàn)目標(biāo)是使用自然語言處理 (NLP) 從文本、內(nèi)容和暗示的上下文中檢測底層的語義關(guān)系。這個(gè)過程旨在使用 NLP 進(jìn)行復(fù)制,然后衡量相同類型的語言區(qū)別、模式識(shí)別以及閱讀和處理文本時(shí)的理解。
文本挖掘領(lǐng)域中有各種方法。下面將介紹文本挖掘所涉及到的一系列常見步驟和后續(xù)步驟。
文本挖掘的第一個(gè)步驟是識(shí)別出想要分析的基于文本的源,并通過信息檢索或選擇包含這組文本文件和感興趣內(nèi)容的語法庫來收集這種材料。擴(kuò)展 NLP 的部署可以調(diào)用 “部分詞類標(biāo)注” 和文本順序來解析語法(即語匯單元化 文本),并應(yīng)用 Named Entity Recognition(即確認(rèn)品牌、人的姓名、地點(diǎn)、常見縮略語等內(nèi)容的提及)。而迭代的 Filter Stopwords 步驟則涉及禁用詞的刪除,從而提煉出所需的主題內(nèi)容。Pattern Identified Entities 能識(shí)別電子郵件地址和電話號(hào)碼,Coreference 則能識(shí)別文本內(nèi)的名詞短語以及相關(guān)對(duì)象,后跟 Relationship, Fact and Event Extraction。通常會(huì)生成 N-Grams,它創(chuàng)建一系列連續(xù)單詞作為術(shù)語。最后,執(zhí)行語義分析,社交媒體偵聽和分類工具如今廣泛使用采用這種方式來提取對(duì)某個(gè)對(duì)象或主題的態(tài)度信息。很多時(shí)候,各種映射和繪制功能還提供了可視化,以便進(jìn)行進(jìn)一步的準(zhǔn)確驗(yàn)證。
文本挖掘軟件和應(yīng)用程序有很多商業(yè)和開源選項(xiàng)。IBM 提供了種類繁多且強(qiáng)健的文本挖掘解決方案。利用了 IBM? InfoSphere? BigInsights? 大數(shù)據(jù)功能的一種功能強(qiáng)大的方案提供了附加文本分析模塊,能夠從 InfoSphere BigInsights 集群運(yùn)行文本分析提取。IBM SPSS? 方案規(guī)模和范圍都很廣泛。對(duì)于搜索文檔并將它分配給一個(gè)主題非常有效的一個(gè)工具是 IBM SPSS Modeler,它能提供一個(gè)圖形界面來執(zhí)行通常的文本文檔分類和分析。另一個(gè)產(chǎn)品 IBM SPSS Text Analytics for Surveys 則使用了 NLP,對(duì)于分析文檔內(nèi)開放的調(diào)查問題非常有用。IBM SPSS Modeler Premium 與 SPSS Text Analytics for Surveys 運(yùn)行在同一個(gè)引擎上,但是可伸縮性更高,能處理一個(gè)有助于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成的綜合工作臺(tái)內(nèi)文檔(PDF、Web 頁面、博客、電子郵件、Twitter 提要等)的整個(gè)語料庫。面向 Facebook 的一個(gè)相關(guān)的自定義代碼節(jié)點(diǎn)擴(kuò)展了 SPSS Modeler Premium 的功能,以便能夠直接從 Facebook wall 直接讀取數(shù)據(jù),并與 SPSS Modeler 內(nèi)的 Twitter 提要相集成,從而獲得多社交媒體渠道觀點(diǎn)。
在開源文本挖掘工具中,RapidMiner 和 R 這兩個(gè)工具最為流行。R 有更大的用戶群,它是一種需要源代碼的編程語言,有許多算法選擇。但可伸縮性一直是 R 的一個(gè)問題,所以,對(duì)于大型數(shù)據(jù)集,如果沒有變通方案,R 不是一個(gè)理想選擇。RapidMiner 的用戶群較小,但它不要求源代碼,并且有一個(gè)強(qiáng)大的用戶界面 (UI)。而且它是高度可伸縮的,能夠處理集群和數(shù)據(jù)庫內(nèi)編程。IBM 提供了一個(gè)將查詢內(nèi)的 R 項(xiàng)目集成在一起的 Jaql R 模塊,它允許 MapReduce 作業(yè)并行運(yùn)行 R 計(jì)算。
現(xiàn)在我們將簡要介紹 NoSQL 和 Structured Query Language (SQL) 選項(xiàng)和技術(shù)堆棧的選擇過程。當(dāng)數(shù)據(jù)源變得難以處理時(shí),正如社交媒體數(shù)據(jù)中經(jīng)常出現(xiàn)的情形那樣,能夠有效集成 Hadoop 和其他功能擴(kuò)展的開源工具的商業(yè) NoSQL 選項(xiàng)(比如 IBM InfoSphere BigInsights)組合就顯得十分必要。圖形數(shù)據(jù)庫、關(guān)鍵值和文檔存儲(chǔ)都是可用的,可基于主要用例做出最佳選擇。對(duì)文本挖掘和分析感興趣的公司通常會(huì)選擇將 Hadoop 并與其他的開源工具相集成,比如 Apache Mahout,這是一種可提供分類、集群和協(xié)作過濾的機(jī)器學(xué)習(xí)引擎。Storm 的元組和流可以管理實(shí)時(shí)分析,操縱 Hadoop 的高延遲性。
在將文本挖掘應(yīng)用于社交媒體數(shù)據(jù)時(shí),有一些獨(dú)特的挑戰(zhàn)。社交網(wǎng)絡(luò)站點(diǎn)、博客和論壇生成的數(shù)據(jù)屬于通常所說的大數(shù)據(jù) 范疇。數(shù)據(jù)是未結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),每天會(huì)圍繞較大品牌生成數(shù)千兆字節(jié)的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)庫無法有效擴(kuò)展來支持基于這些數(shù)據(jù)的實(shí)時(shí)分析。因此需要提供大數(shù)據(jù)和 NoSQL 數(shù)據(jù)庫解決方案。
如果沒有定期收集并充分存儲(chǔ)社交媒體數(shù)據(jù),這些數(shù)據(jù)是很容易遭到破壞。大多數(shù)開源社交偵聽工具僅存儲(chǔ)社交媒體評(píng)論歷史記錄的幾天內(nèi)的記錄。Twitter 也是最近才宣布會(huì)保存整個(gè)數(shù)據(jù)歷史記錄,但僅限于由帳戶持有人明確發(fā)布的評(píng)論。通過之前提及的一些更大型的社交數(shù)據(jù)提供商,比如 Gnip 和 DataSift,以及基于量和調(diào)用的應(yīng)用程序編程接口(API)和其他工具,可以獲得這類數(shù)據(jù)。但是,雖然可以獲得這類數(shù)據(jù)(對(duì)于 Twitter),除了那些最大的品牌之外,價(jià)格對(duì)于一般人而言顯得尤為昂貴。
每個(gè)社交媒體網(wǎng)站對(duì)這個(gè)問題的處理方式都是大相徑庭的。根據(jù)數(shù)據(jù)的量和數(shù)據(jù)的特性,可以使用搜索請求和提供 JavaScript Object Notation (JSON) 格式響應(yīng),這些響應(yīng)包含未解析的數(shù)據(jù),以便立即包含在一個(gè) MySQL 或 NoSQL 數(shù)據(jù)庫中。
回頁首
品牌為文本挖掘提供了不同的目標(biāo):
像 Sears 這樣的公司,如 示例 1 所示,可能有興趣在新產(chǎn)品線啟動(dòng)后通過社交媒體評(píng)論和 Facebook 頁面粉絲的交互來直接跟蹤消費(fèi)者的觀點(diǎn)。這樣一來,更容易理解圍繞圖片、產(chǎn)品和啟動(dòng)產(chǎn)品而引起的對(duì)話集群的基本反響。通過這種實(shí)時(shí)的反饋可以實(shí)現(xiàn)快速的消息更新和非流行內(nèi)容的刪除,并且 Facebook 的粉絲們成為了實(shí)時(shí)焦點(diǎn)群,提供了產(chǎn)品特性的即時(shí)反饋。
JACT Media 公司的任務(wù)是構(gòu)建品牌和視頻游戲玩家之間的關(guān)系。該公司提供了一個(gè)游戲內(nèi)的臨時(shí)設(shè)施,在玩家玩常玩游戲的同時(shí)向玩家展示各種具有針對(duì)性的、已安排好的內(nèi)容。玩家贏得 JACT 虛擬貨幣,而這些 JACT BUX 可兌換獎(jiǎng)品,包括虛擬的和可下載的商品。玩家在 Facebook 頁面或 Twitter 上與 JACT 交互,并頻繁在游戲論壇經(jīng)常提及 JACT BUX。這種原始的評(píng)論數(shù)據(jù)可從各種來源獲取,并且可以存儲(chǔ)個(gè)人級(jí)別的評(píng)論和偏好。比如,如果玩家對(duì)某個(gè)視頻游戲特別感興趣,或是在 tweet 上提到了自己的獎(jiǎng)品,那么基于特定游戲的游戲內(nèi)目標(biāo)鎖定和獎(jiǎng)品類型可能比隨機(jī)的獎(jiǎng)勵(lì)更能促進(jìn)忠誠度的增加。
超市也能夠使用社交媒體數(shù)據(jù)來識(shí)別更為有價(jià)值的購物者、對(duì)客服的印象、商店的環(huán)境、產(chǎn)品的偏好、包裝的偏好和定價(jià)。將這類信息與 Twitter 或移動(dòng)設(shè)備提供的位置數(shù)據(jù)匯總在一起,超市就能從某個(gè)角度進(jìn)行定位,量身定制購物體驗(yàn)。而這對(duì)于庫存、定價(jià)、廣告、個(gè)人數(shù)字和郵寄優(yōu)惠券等都有影響。
第一個(gè)示例是一個(gè) SPSS Modeler Premium 用例。在此場景中,啟動(dòng)了一個(gè)新的產(chǎn)品線,該公司有興趣跟蹤社會(huì)媒體數(shù)據(jù)中的消費(fèi)者反應(yīng)。SPSS Modeler Premium Facebook 節(jié)點(diǎn)被用來跟蹤 Sears Facebook 頁面上的新 Kardashian 產(chǎn)品線,如 圖 1 所示。
在跟蹤和分析評(píng)論數(shù)據(jù)的第一個(gè)步驟中,涉及到要求用戶指定用戶名以及在 SPSS Modeler Premium Facebook 節(jié)點(diǎn)中用于評(píng)論的頁面和線程的數(shù)量,如 圖 2 所示。
然后,會(huì)從 Sears Facebook 頁面提取評(píng)論數(shù)據(jù),并在 SPSS Modeler 中使用它,如 圖 3 所示。
(請查看 圖 3 的大圖。)
下一個(gè)步驟涉及到添加過濾器和執(zhí)行概念提取,從而形象地描述圍繞該品牌的內(nèi)容類別。這個(gè)用戶友好的圖形 UI 可在整個(gè)過程中引導(dǎo)用戶,并且不需要使用 API 從 Twitter 或 Facebook 中提取社交數(shù)據(jù)。其結(jié)果是獲得一個(gè)容易理解的概念地圖,并了解連接線的厚度所代表的概念集群的敏感性,如 圖 4 所示。
(請查看圖 4 的大圖。)
下列的社交媒體數(shù)據(jù)集市組裝過程描述了一個(gè)簡單的手動(dòng)文本挖掘過程。在這個(gè)示例中,我們希望使用借助了 SPSS Statistics Base 的文本挖掘來獲取和存儲(chǔ)來自社交媒體數(shù)據(jù)的各種產(chǎn)品偏好。本例包括一個(gè)從 Twitter 和 Facebook 提取超市品牌數(shù)據(jù)的分步指南。過程架構(gòu)如 圖 5 所示。
(請查看 圖 5 的大圖。)
第一步是確定感興趣的品牌。設(shè)置一個(gè)例程來通過一個(gè) API 過程收集與品牌相關(guān)的提及。這是通過 圖 6 中所示的搜索請求來完成的,結(jié)果是以 JSON 格式返回的。一個(gè) JSON 庫會(huì)解析數(shù)據(jù),并將每個(gè)記錄分成多個(gè)字段,這些字段包含了像用戶 ID、數(shù)據(jù)和未處理的文本消息評(píng)論這樣的信息。然后,此數(shù)據(jù)會(huì)存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,并且可供文本挖掘使用。
(請查看 圖 6 的大圖。)
這個(gè)簡化的文本挖掘練習(xí)的目標(biāo)是確定特定消費(fèi)者產(chǎn)品偏好和消費(fèi)模式。然后,此信息會(huì)存儲(chǔ)在社交媒體數(shù)據(jù)集市在。對(duì)于這個(gè)特定示例,假設(shè)您想要確定蔬菜玉米的所有消費(fèi)者。圖 7 顯示了 Character Index 函數(shù)的使用情況,該函數(shù)可識(shí)別原始評(píng)論數(shù)據(jù)中使用了單詞 corn 的所有實(shí)例。
(請查看 圖 7 的大圖。)
這些結(jié)果還需要進(jìn)一步的過濾,并且需要通過各種迭代來應(yīng)用禁止詞,從而提高分類的準(zhǔn)確性。通過應(yīng)用像 popcorn、candy corn、corndog 和 corn syrup 這樣的禁止詞,并限制實(shí)例為四個(gè)字符的組合,可以讓玉米產(chǎn)品的識(shí)別更準(zhǔn)確一些。然后可以使用 'corn_consumer_flag'=1 在數(shù)據(jù)庫中標(biāo)記這些用戶名,并在未來市場營銷活動(dòng)中,為特定于玉米的產(chǎn)品和食品而選中它們。(請查看 圖 8。)
在獲得詳盡的列表之后,您就可以執(zhí)行用戶 ID 聚合,并填充表來捕獲產(chǎn)品購買、包裝方面的評(píng)論和其他存儲(chǔ)了個(gè)人級(jí)別消費(fèi)者行為的變量。在本例中,原始社交媒體數(shù)據(jù)存儲(chǔ)在一個(gè) NoSQL 數(shù)據(jù)庫內(nèi),而所得到的產(chǎn)品偏好標(biāo)志則存儲(chǔ)在一個(gè) MySQL 數(shù)據(jù)集市內(nèi),其中用戶 ID 是一個(gè)主匹配鍵(參見 圖 9)。
文本挖掘愈來愈流行,因?yàn)楹芏喙驹u(píng)估使用社交媒體作為一種市場營銷和品牌交互渠道的潛在回報(bào)。許多公司都急于實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)方案,以便存儲(chǔ)未結(jié)構(gòu)化的數(shù)據(jù),并將這些數(shù)據(jù)與傳統(tǒng)的交易類型數(shù)據(jù)相集成。社交媒體評(píng)論和與品牌相關(guān)的交互數(shù)據(jù)提供了對(duì)消費(fèi)者偏好的洞察,可以利用這些偏好信息來設(shè)計(jì)相關(guān)的產(chǎn)品特性,并采用與消費(fèi)者需求和預(yù)期相吻合的方式進(jìn)行市場營銷。如果為了獲得更深入的品牌體驗(yàn)定制而將這類個(gè)人級(jí)別的行為和偏好數(shù)據(jù)存儲(chǔ)在社交媒體數(shù)據(jù)集市中,那么這將會(huì)將信息置于公司的手中,公司可以使用這些信息來充實(shí)消費(fèi)者與品牌的關(guān)系,促使消費(fèi)者參與其品牌體驗(yàn)的自我管理。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03