99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀使用SPSS 文本挖掘工具構(gòu)建社交媒體數(shù)據(jù)集市
使用SPSS 文本挖掘工具構(gòu)建社交媒體數(shù)據(jù)集市
2016-08-22
收藏

使用SPSS 文本挖掘工具構(gòu)建社交媒體數(shù)據(jù)集市

文本挖掘 指的是用來從不同文字來源提取信息的技術(shù)。它為何如此重要呢?據(jù)普遍估計(jì),在所有與業(yè)務(wù)有關(guān)的信息中,有 80% 的信息是非結(jié)構(gòu)化文本數(shù)據(jù)和半結(jié)構(gòu)化文本數(shù)據(jù)。換言之,如果不對(duì)這 80% 的信息所代表的大量數(shù)據(jù)應(yīng)用文本分析,所有嵌入的業(yè)務(wù)信息和消費(fèi)者行為數(shù)據(jù)都會(huì)被浪費(fèi)。術(shù)語文本挖掘 常常被稱為文本分析 具有很多的實(shí)際意義,比如垃圾過濾、從電子商務(wù)網(wǎng)站上的意見和建議中提取信息、在博客和評(píng)論網(wǎng)站中進(jìn)行社交收聽和意見挖掘、增強(qiáng)客戶服務(wù)和電子郵件支持、業(yè)務(wù)文檔的自動(dòng)化處理、法律領(lǐng)域的電子發(fā)現(xiàn)、衡量消費(fèi)者的偏好、索賠分析和欺詐檢測,以及網(wǎng)絡(luò)犯罪和國家安全應(yīng)用程序。

文本挖掘類似于數(shù)據(jù)挖掘,因?yàn)樗册槍?duì)的識(shí)別出數(shù)據(jù)內(nèi)的有趣模式。雖然手動(dòng)(而且是高度勞動(dòng)密集)文本挖掘出現(xiàn)于二十世紀(jì)八十年代。在近些年來,對(duì)于通過定義搜索引擎結(jié)果算法和篩選數(shù)據(jù)源來發(fā)現(xiàn)未知信息而言,文本挖掘領(lǐng)域十分重要。諸如機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)、計(jì)算語言學(xué)和數(shù)據(jù)挖掘這樣的技術(shù)均在這個(gè)過程中發(fā)揮了重要作用。例如,文本的知識(shí)發(fā)現(xiàn)目標(biāo)是使用自然語言處理 (NLP) 從文本、內(nèi)容和暗示的上下文中檢測底層的語義關(guān)系。這個(gè)過程旨在使用 NLP 進(jìn)行復(fù)制,然后衡量相同類型的語言區(qū)別、模式識(shí)別以及閱讀和處理文本時(shí)的理解。

文本挖掘領(lǐng)域中有各種方法。下面將介紹文本挖掘所涉及到的一系列常見步驟和后續(xù)步驟。

文本挖掘的第一個(gè)步驟是識(shí)別出想要分析的基于文本的源,并通過信息檢索或選擇包含這組文本文件和感興趣內(nèi)容的語法庫來收集這種材料。擴(kuò)展 NLP 的部署可以調(diào)用 “部分詞類標(biāo)注” 和文本順序來解析語法(即語匯單元化 文本),并應(yīng)用 Named Entity Recognition(即確認(rèn)品牌、人的姓名、地點(diǎn)、常見縮略語等內(nèi)容的提及)。而迭代的 Filter Stopwords 步驟則涉及禁用詞的刪除,從而提煉出所需的主題內(nèi)容。Pattern Identified Entities 能識(shí)別電子郵件地址和電話號(hào)碼,Coreference 則能識(shí)別文本內(nèi)的名詞短語以及相關(guān)對(duì)象,后跟 Relationship, Fact and Event Extraction。通常會(huì)生成 N-Grams,它創(chuàng)建一系列連續(xù)單詞作為術(shù)語。最后,執(zhí)行語義分析,社交媒體偵聽和分類工具如今廣泛使用采用這種方式來提取對(duì)某個(gè)對(duì)象或主題的態(tài)度信息。很多時(shí)候,各種映射和繪制功能還提供了可視化,以便進(jìn)行進(jìn)一步的準(zhǔn)確驗(yàn)證。

文本挖掘工具

文本挖掘軟件和應(yīng)用程序有很多商業(yè)和開源選項(xiàng)。IBM 提供了種類繁多且強(qiáng)健的文本挖掘解決方案。利用了 IBM? InfoSphere? BigInsights? 大數(shù)據(jù)功能的一種功能強(qiáng)大的方案提供了附加文本分析模塊,能夠從 InfoSphere BigInsights 集群運(yùn)行文本分析提取。IBM SPSS? 方案規(guī)模和范圍都很廣泛。對(duì)于搜索文檔并將它分配給一個(gè)主題非常有效的一個(gè)工具是 IBM SPSS Modeler,它能提供一個(gè)圖形界面來執(zhí)行通常的文本文檔分類和分析。另一個(gè)產(chǎn)品 IBM SPSS Text Analytics for Surveys 則使用了 NLP,對(duì)于分析文檔內(nèi)開放的調(diào)查問題非常有用。IBM SPSS Modeler Premium 與 SPSS Text Analytics for Surveys 運(yùn)行在同一個(gè)引擎上,但是可伸縮性更高,能處理一個(gè)有助于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成的綜合工作臺(tái)內(nèi)文檔(PDF、Web 頁面、博客、電子郵件、Twitter 提要等)的整個(gè)語料庫。面向 Facebook 的一個(gè)相關(guān)的自定義代碼節(jié)點(diǎn)擴(kuò)展了 SPSS Modeler Premium 的功能,以便能夠直接從 Facebook wall 直接讀取數(shù)據(jù),并與 SPSS Modeler 內(nèi)的 Twitter 提要相集成,從而獲得多社交媒體渠道觀點(diǎn)。

在開源文本挖掘工具中,RapidMiner 和 R 這兩個(gè)工具最為流行。R 有更大的用戶群,它是一種需要源代碼的編程語言,有許多算法選擇。但可伸縮性一直是 R 的一個(gè)問題,所以,對(duì)于大型數(shù)據(jù)集,如果沒有變通方案,R 不是一個(gè)理想選擇。RapidMiner 的用戶群較小,但它不要求源代碼,并且有一個(gè)強(qiáng)大的用戶界面 (UI)。而且它是高度可伸縮的,能夠處理集群和數(shù)據(jù)庫內(nèi)編程。IBM 提供了一個(gè)將查詢內(nèi)的 R 項(xiàng)目集成在一起的 Jaql R 模塊,它允許 MapReduce 作業(yè)并行運(yùn)行 R 計(jì)算。

社交媒體數(shù)據(jù)集市和大數(shù)據(jù)

NoSQLSQL 選項(xiàng)

現(xiàn)在我們將簡要介紹 NoSQL 和 Structured Query Language (SQL) 選項(xiàng)和技術(shù)堆棧的選擇過程。當(dāng)數(shù)據(jù)源變得難以處理時(shí),正如社交媒體數(shù)據(jù)中經(jīng)常出現(xiàn)的情形那樣,能夠有效集成 Hadoop 和其他功能擴(kuò)展的開源工具的商業(yè) NoSQL 選項(xiàng)(比如 IBM InfoSphere BigInsights)組合就顯得十分必要。圖形數(shù)據(jù)庫、關(guān)鍵值和文檔存儲(chǔ)都是可用的,可基于主要用例做出最佳選擇。對(duì)文本挖掘和分析感興趣的公司通常會(huì)選擇將 Hadoop 并與其他的開源工具相集成,比如 Apache Mahout,這是一種可提供分類、集群和協(xié)作過濾的機(jī)器學(xué)習(xí)引擎。Storm 的元組和流可以管理實(shí)時(shí)分析,操縱 Hadoop 的高延遲性。

在將文本挖掘應(yīng)用于社交媒體數(shù)據(jù)時(shí),有一些獨(dú)特的挑戰(zhàn)。社交網(wǎng)絡(luò)站點(diǎn)、博客和論壇生成的數(shù)據(jù)屬于通常所說的大數(shù)據(jù) 范疇。數(shù)據(jù)是未結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),每天會(huì)圍繞較大品牌生成數(shù)千兆字節(jié)的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)庫無法有效擴(kuò)展來支持基于這些數(shù)據(jù)的實(shí)時(shí)分析。因此需要提供大數(shù)據(jù)和 NoSQL 數(shù)據(jù)庫解決方案。

如果沒有定期收集并充分存儲(chǔ)社交媒體數(shù)據(jù),這些數(shù)據(jù)是很容易遭到破壞。大多數(shù)開源社交偵聽工具僅存儲(chǔ)社交媒體評(píng)論歷史記錄的幾天內(nèi)的記錄。Twitter 也是最近才宣布會(huì)保存整個(gè)數(shù)據(jù)歷史記錄,但僅限于由帳戶持有人明確發(fā)布的評(píng)論。通過之前提及的一些更大型的社交數(shù)據(jù)提供商,比如 Gnip 和 DataSift,以及基于量和調(diào)用的應(yīng)用程序編程接口(API)和其他工具,可以獲得這類數(shù)據(jù)。但是,雖然可以獲得這類數(shù)據(jù)(對(duì)于 Twitter),除了那些最大的品牌之外,價(jià)格對(duì)于一般人而言顯得尤為昂貴。

每個(gè)社交媒體網(wǎng)站對(duì)這個(gè)問題的處理方式都是大相徑庭的。根據(jù)數(shù)據(jù)的量和數(shù)據(jù)的特性,可以使用搜索請求和提供 JavaScript Object Notation (JSON) 格式響應(yīng),這些響應(yīng)包含未解析的數(shù)據(jù),以便立即包含在一個(gè) MySQL 或 NoSQL 數(shù)據(jù)庫中。

回頁首

文本挖掘的商業(yè)用例

品牌為文本挖掘提供了不同的目標(biāo):

像 Sears 這樣的公司,如 示例 1 所示,可能有興趣在新產(chǎn)品線啟動(dòng)后通過社交媒體評(píng)論和 Facebook 頁面粉絲的交互來直接跟蹤消費(fèi)者的觀點(diǎn)。這樣一來,更容易理解圍繞圖片、產(chǎn)品和啟動(dòng)產(chǎn)品而引起的對(duì)話集群的基本反響。通過這種實(shí)時(shí)的反饋可以實(shí)現(xiàn)快速的消息更新和非流行內(nèi)容的刪除,并且 Facebook 的粉絲們成為了實(shí)時(shí)焦點(diǎn)群,提供了產(chǎn)品特性的即時(shí)反饋。

JACT Media 公司的任務(wù)是構(gòu)建品牌和視頻游戲玩家之間的關(guān)系。該公司提供了一個(gè)游戲內(nèi)的臨時(shí)設(shè)施,在玩家玩常玩游戲的同時(shí)向玩家展示各種具有針對(duì)性的、已安排好的內(nèi)容。玩家贏得 JACT 虛擬貨幣,而這些 JACT BUX 可兌換獎(jiǎng)品,包括虛擬的和可下載的商品。玩家在 Facebook 頁面或 Twitter 上與 JACT 交互,并頻繁在游戲論壇經(jīng)常提及 JACT BUX。這種原始的評(píng)論數(shù)據(jù)可從各種來源獲取,并且可以存儲(chǔ)個(gè)人級(jí)別的評(píng)論和偏好。比如,如果玩家對(duì)某個(gè)視頻游戲特別感興趣,或是在 tweet 上提到了自己的獎(jiǎng)品,那么基于特定游戲的游戲內(nèi)目標(biāo)鎖定和獎(jiǎng)品類型可能比隨機(jī)的獎(jiǎng)勵(lì)更能促進(jìn)忠誠度的增加。

超市也能夠使用社交媒體數(shù)據(jù)來識(shí)別更為有價(jià)值的購物者、對(duì)客服的印象、商店的環(huán)境、產(chǎn)品的偏好、包裝的偏好和定價(jià)。將這類信息與 Twitter 或移動(dòng)設(shè)備提供的位置數(shù)據(jù)匯總在一起,超市就能從某個(gè)角度進(jìn)行定位,量身定制購物體驗(yàn)。而這對(duì)于庫存、定價(jià)、廣告、個(gè)人數(shù)字和郵寄優(yōu)惠券等都有影響。

示例 1:SPSS Modeler Premium 中的社交媒體數(shù)據(jù)和文本挖掘

第一個(gè)示例是一個(gè) SPSS Modeler Premium 用例。在此場景中,啟動(dòng)了一個(gè)新的產(chǎn)品線,該公司有興趣跟蹤社會(huì)媒體數(shù)據(jù)中的消費(fèi)者反應(yīng)。SPSS Modeler Premium Facebook 節(jié)點(diǎn)被用來跟蹤 Sears Facebook 頁面上的新 Kardashian 產(chǎn)品線,如 圖 1 所示。

圖 1. 零售商在 Facebook 上啟動(dòng)了一個(gè)新的產(chǎn)品線

零售商的新產(chǎn)品頁面的屏幕截圖

在跟蹤和分析評(píng)論數(shù)據(jù)的第一個(gè)步驟中,涉及到要求用戶指定用戶名以及在 SPSS Modeler Premium Facebook 節(jié)點(diǎn)中用于評(píng)論的頁面和線程的數(shù)量,如 圖 2 所示。

圖 2. 用于通過提取 Facebook wall 評(píng)論來識(shí)別啟動(dòng)后的評(píng)論反饋分析的 SPSS Modeler

用于通過提取 Facebook wall 評(píng)論來識(shí)別啟動(dòng)后的評(píng)論反饋分析的 SPSS Modeler

然后,會(huì)從 Sears Facebook 頁面提取評(píng)論數(shù)據(jù),并在 SPSS Modeler 中使用它,如 圖 3 所示。

圖 3. 可直接通過 SPSS Modeler Facebook 節(jié)點(diǎn)查看的原始評(píng)論數(shù)據(jù)

可直接通過 SPSS Modeler Facebook 節(jié)點(diǎn)查看的原始評(píng)論數(shù)據(jù)

(請查看 圖 3 的大圖。)

下一個(gè)步驟涉及到添加過濾器和執(zhí)行概念提取,從而形象地描述圍繞該品牌的內(nèi)容類別。這個(gè)用戶友好的圖形 UI 可在整個(gè)過程中引導(dǎo)用戶,并且不需要使用 API 從 Twitter 或 Facebook 中提取社交數(shù)據(jù)。其結(jié)果是獲得一個(gè)容易理解的概念地圖,并了解連接線的厚度所代表的概念集群的敏感性,如 圖 4 所示。

圖 4. 概念地圖為品牌提供了概念強(qiáng)度類別的可視化

概念地圖為品牌提供了概念強(qiáng)度類別的可視化

(請查看圖 4 的大圖。)

示例 2:在 SPSS Statistics Base 中使用了提取內(nèi)容和禁止詞的超市產(chǎn)品偏好示例

下列的社交媒體數(shù)據(jù)集市組裝過程描述了一個(gè)簡單的手動(dòng)文本挖掘過程。在這個(gè)示例中,我們希望使用借助了 SPSS Statistics Base 的文本挖掘來獲取和存儲(chǔ)來自社交媒體數(shù)據(jù)的各種產(chǎn)品偏好。本例包括一個(gè)從 Twitter 和 Facebook 提取超市品牌數(shù)據(jù)的分步指南。過程架構(gòu)如 圖 5 所示。

圖 5. BrandMeter 社交媒體數(shù)據(jù)集市架構(gòu)

BrandMeter 社交媒體<a href='/map/shujujishi/' style='color:#000;font-size:inherit;'>數(shù)據(jù)集市</a>架構(gòu)

(請查看 圖 5 的大圖。)

第一步是確定感興趣的品牌。設(shè)置一個(gè)例程來通過一個(gè) API 過程收集與品牌相關(guān)的提及。這是通過 圖 6 中所示的搜索請求來完成的,結(jié)果是以 JSON 格式返回的。一個(gè) JSON 庫會(huì)解析數(shù)據(jù),并將每個(gè)記錄分成多個(gè)字段,這些字段包含了像用戶 ID、數(shù)據(jù)和未處理的文本消息評(píng)論這樣的信息。然后,此數(shù)據(jù)會(huì)存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,并且可供文本挖掘使用。

圖 6. 用來訪問原始 Twitter 和 Facebook 評(píng)論數(shù)據(jù)的示例 API

用來訪問原始 Twitter 和 Facebook 評(píng)論數(shù)據(jù)的示例 API

(請查看 圖 6 的大圖。)

這個(gè)簡化的文本挖掘練習(xí)的目標(biāo)是確定特定消費(fèi)者產(chǎn)品偏好和消費(fèi)模式。然后,此信息會(huì)存儲(chǔ)在社交媒體數(shù)據(jù)集市在。對(duì)于這個(gè)特定示例,假設(shè)您想要確定蔬菜玉米的所有消費(fèi)者。圖 7 顯示了 Character Index 函數(shù)的使用情況,該函數(shù)可識(shí)別原始評(píng)論數(shù)據(jù)中使用了單詞 corn 的所有實(shí)例。

圖 7. 用 SPSS Base Character Index 函數(shù)提取文本

用 SPSS Base Character Index 函數(shù)提取文本

(請查看 圖 7 的大圖。)

這些結(jié)果還需要進(jìn)一步的過濾,并且需要通過各種迭代來應(yīng)用禁止詞,從而提高分類的準(zhǔn)確性。通過應(yīng)用像 popcorn、candy corn、corndog 和 corn syrup 這樣的禁止詞,并限制實(shí)例為四個(gè)字符的組合,可以讓玉米產(chǎn)品的識(shí)別更準(zhǔn)確一些。然后可以使用 'corn_consumer_flag'=1 在數(shù)據(jù)庫中標(biāo)記這些用戶名,并在未來市場營銷活動(dòng)中,為特定于玉米的產(chǎn)品和食品而選中它們。(請查看 圖 8。)

圖 8. 使用了禁止詞的原始評(píng)論分類過程

使用了禁止詞的原始評(píng)論分類過程

在獲得詳盡的列表之后,您就可以執(zhí)行用戶 ID 聚合,并填充表來捕獲產(chǎn)品購買、包裝方面的評(píng)論和其他存儲(chǔ)了個(gè)人級(jí)別消費(fèi)者行為的變量。在本例中,原始社交媒體數(shù)據(jù)存儲(chǔ)在一個(gè) NoSQL 數(shù)據(jù)庫內(nèi),而所得到的產(chǎn)品偏好標(biāo)志則存儲(chǔ)在一個(gè) MySQL 數(shù)據(jù)集市內(nèi),其中用戶 ID 是一個(gè)主匹配鍵(參見 圖 9)。

圖 9. 用 SPSS Base Aggregate 函數(shù)將評(píng)論數(shù)據(jù)聚合到用戶 ID 級(jí)別

用 SPSS Base Aggregate 函數(shù)將評(píng)論數(shù)據(jù)聚合到用戶 ID 級(jí)別

結(jié)束語

文本挖掘愈來愈流行,因?yàn)楹芏喙驹u(píng)估使用社交媒體作為一種市場營銷和品牌交互渠道的潛在回報(bào)。許多公司都急于實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)方案,以便存儲(chǔ)未結(jié)構(gòu)化的數(shù)據(jù),并將這些數(shù)據(jù)與傳統(tǒng)的交易類型數(shù)據(jù)相集成。社交媒體評(píng)論和與品牌相關(guān)的交互數(shù)據(jù)提供了對(duì)消費(fèi)者偏好的洞察,可以利用這些偏好信息來設(shè)計(jì)相關(guān)的產(chǎn)品特性,并采用與消費(fèi)者需求和預(yù)期相吻合的方式進(jìn)行市場營銷。如果為了獲得更深入的品牌體驗(yàn)定制而將這類個(gè)人級(jí)別的行為和偏好數(shù)據(jù)存儲(chǔ)在社交媒體數(shù)據(jù)集市中,那么這將會(huì)將信息置于公司的手中,公司可以使用這些信息來充實(shí)消費(fèi)者與品牌的關(guān)系,促使消費(fèi)者參與其品牌體驗(yàn)的自我管理。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }