
Social Network 社交網(wǎng)絡(luò)分析_數(shù)據(jù)分析師
一:什么是SNA-社交網(wǎng)絡(luò)分析
社交網(wǎng)絡(luò)分析的威力何在?我想幾個(gè)案例來(lái)說(shuō)明。
案例1:對(duì)一個(gè)毫無(wú)了解的組織(這個(gè)組織可以是一個(gè)公司,亦或是一個(gè)組織),如果能夠拿到這個(gè)組織成員之間的信息流動(dòng)記錄(例如通話(huà)記錄/或郵件記錄),那么通過(guò)SNA可以分析出誰(shuí)是這個(gè)組織的實(shí)際控制者(要知道有必要加上實(shí)際二字),誰(shuí)是這些成員中有影響力的人,那些成員更傾向于聚集在一起。對(duì)上述問(wèn)題的回答可以用來(lái)做公關(guān)-把精力用在對(duì)的人身上;用來(lái)處理組織架構(gòu);用來(lái)游說(shuō)獲得支持--關(guān)系緊密的人會(huì)更傾向于支持同一種意見(jiàn),一方面是由于觀(guān)點(diǎn)相同所以關(guān)系緊密,另一方面你的大部分朋友都支持的事情你總不會(huì)下臉來(lái)做那個(gè)少數(shù)派吧。
案例2:舉個(gè)現(xiàn)實(shí)中的例子吧,鵝廠(chǎng)剛推出朋友圈的時(shí)候我對(duì)這個(gè)產(chǎn)品的印象非常好,因?yàn)樗o我推薦的朋友有一些是很多年都沒(méi)有聯(lián)系,不特意提起都想不起來(lái)名字的“朋友”。包括人人網(wǎng)推薦的好友也是很精準(zhǔn)的。這些產(chǎn)品的背后就是用的SNA-朋友的朋友也是我的朋友,敵人的朋友是我的敵人,敵人的敵人是我的朋友,朋友的敵人是我的敵人。
這兩個(gè)案例是直觀(guān)印象中的社交網(wǎng)絡(luò)分析,網(wǎng)絡(luò)中的節(jié)點(diǎn)是人。如果把SNA只用在人身上那就太狹隘了。相同的思想完全可以用在物身上。例如:
案例3:豆瓣FM也是我很喜歡的一款產(chǎn)品---與你喜歡的音樂(lè)不期而遇。一些歌曲是我對(duì)某一個(gè)時(shí)期的感覺(jué)印記,有些印記記憶猶新,有些印記逐漸模糊。時(shí)不時(shí)就能在豆瓣FM和這些或清晰或模糊的印記不期而遇,讓人驚喜。為什么豆瓣FM能做到這點(diǎn)那?是它對(duì)歌曲按照什么節(jié)奏/曲調(diào)/風(fēng)格/歌詞做了分類(lèi)嗎?如果你這樣認(rèn)為那就太傻太天真了。這里的SNA每一首歌就是網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn),而你的喜歡或不再播放就給你聽(tīng)過(guò)的歌曲之間加強(qiáng)/減弱了聯(lián)系。
經(jīng)過(guò)上面三個(gè)案例,可以對(duì)SNA有個(gè)初步了解。
二:我的好友圈
一般來(lái)說(shuō)有兩大途徑來(lái)獲得好友圈:1)社交應(yīng)用/社交網(wǎng)站,比如人人/微博/微信。2)通信記錄-電話(huà)/郵件/短信。后者數(shù)據(jù)都掌握在相應(yīng)的運(yùn)營(yíng)商,前者的數(shù)據(jù)可以從應(yīng)用開(kāi)放的API或者簡(jiǎn)單粗暴一點(diǎn)自己寫(xiě)蜘蛛爬。
我采用寫(xiě)爬蟲(chóng)的方式得到了人人的好友圈。抓了兩層好友,即我的好友,和我好友的好友。其實(shí)這個(gè)層數(shù)可以自己設(shè)定,用遞歸函數(shù)很容易實(shí)現(xiàn)。唯一消耗的是運(yùn)行時(shí)間和存儲(chǔ)。即使只抓兩層好友圈,用我的筆記本也跑了15分鐘。
接下來(lái)該networkx登場(chǎng)了。一通運(yùn)算之后得到如下結(jié)果:
1)兩層好友圈
這是對(duì)7169個(gè)好友關(guān)系的做圖。當(dāng)然最中心的點(diǎn)是我自己??梢钥吹街?chē)蝗κ窍鄬?duì)孤立的“云”,那是因?yàn)槲抑蛔チ藘蓪拥脑颉?/span>
七千多個(gè)好友,這么多層關(guān)系,如何分析?別擔(dān)心,社交網(wǎng)絡(luò)分析不是一個(gè)新興的領(lǐng)域,看米國(guó)文獻(xiàn)說(shuō)這個(gè)領(lǐng)域從六七十年代就有了,只不過(guò)是近十年火起來(lái)的。所以有一大堆現(xiàn)成的算法來(lái)基本搞定你的大部分需求。
對(duì)七千多個(gè)好友的基本分析如下:
---------------2014-06-08 21時(shí)32分16秒開(kāi)始整體分析----------------
社交網(wǎng)總共有7169個(gè)好友
排名前10的好友數(shù)
1--徐希文--909
2--劉杉--607
3--李超--505
4--colipso--405
5--呂秀芳--343
6--藏新汀--336
7--王大舸--312
8--王卉卉--258
9--孫昊--255
10--楊子旭--248
--------2014-06-08 21時(shí)32分16秒開(kāi)始受歡迎指數(shù)分析(基于closenes centrality)------------
受歡迎指數(shù)排名前10的好友為
1--colipso--0.51
2--馬佳--0.50
3--徐希文--0.40
4--賈麗娜--0.40
5--洛鋒--0.39
6--張偉--0.39
7--陳欣--0.39
8--王蘊(yùn)杰--0.39
9--孫峰--0.39
10--張寧--0.38
---------2014-06-08 21時(shí)35分15秒開(kāi)始樞紐指數(shù)分析(基于Betweenness centrality算法 )----------
處于樞紐節(jié)點(diǎn)的前10好友為
1--徐希文--0.21
2--colipso--0.20
3--劉杉--0.14
4--馬佳--0.12
5--李超--0.11
6--呂秀芳--0.08
7--藏新汀--0.08
8--王大舸--0.08
9--王卉卉--0.06
10--陳欣--0.05
----------2014-06-08 21時(shí)49分07秒開(kāi)始幕后黑手指數(shù)分析(基于Eigenvector centrality算法)---------
Not defined for multigraphs.
-------2014-06-08 21時(shí)49分07秒開(kāi)始Google PageRank指數(shù)分析(基于Google PageRank算法)-------
pagerank() not defined for graphs with multiedges.
對(duì)一些詞解釋下:
樞紐:一個(gè)人同時(shí)屬于兩個(gè)不怎么想干的群體,那么這個(gè)人就處于樞紐的位置。
幕后黑手:顧名思義,一個(gè)人不怎么和大部分人聯(lián)系,只和關(guān)鍵人物發(fā)生聯(lián)系,通過(guò)關(guān)鍵人來(lái)影響群體。
在分析中后兩個(gè)算法因?yàn)榈讓訑?shù)據(jù)構(gòu)造的社交網(wǎng)絡(luò)為無(wú)向網(wǎng)絡(luò),所以在這一個(gè)具體分析中不適用。
2)核心交往圈
扯那么多基本人我不可能都認(rèn)識(shí),networkx還提供了分析某人的核心交往圈的算法,還是以我為例:
---------------2014-06-08 21時(shí)20分39秒開(kāi)始整體分析----------------
社交網(wǎng)總共有502個(gè)好友
其他的分析因?yàn)槭怯猛粋€(gè)模塊來(lái)實(shí)現(xiàn)的,和上面相同,就不重復(fù)了。
3)圈里圈外
上面的還只是宏觀(guān)層面的結(jié)果,從微觀(guān)層面看,在大群體中也總是少不了一個(gè)一個(gè)的小圈子,這個(gè)圈子里的人關(guān)系更為緊密,有著共同的話(huà)題,一般對(duì)圈子之外的人有一定的排斥性,而對(duì)圈子里的人信任度會(huì)很高,正所謂圈里圈外。
對(duì)于一門(mén)發(fā)展了將近半個(gè)世紀(jì)的學(xué)科,還是那句話(huà),你想到的東西早就有人想到了。
比如我的好友圈中:
第45個(gè)小圈子為:
崔文英 殷渤濤 鄭新玉 孫昊 陳欣 張辰星 陸伯文
這是我的一幫高中同學(xué)。
4)最短路徑
已經(jīng)有非常成熟的算法來(lái)尋找社交網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)之間的最短路徑。也就是所謂的六度空間。即我如果想認(rèn)識(shí)某某,那么應(yīng)該找那些最少的中間人來(lái)達(dá)到目的?
舉一反三一下,如果是由各種書(shū)籍來(lái)組成的一個(gè)網(wǎng)絡(luò),書(shū)是節(jié)點(diǎn),一個(gè)人如果讀過(guò)兩本書(shū),那么這兩本書(shū)就有個(gè)連線(xiàn)。問(wèn)題來(lái)了,在各種小說(shuō)APP上,如果一個(gè)人讀了兩本書(shū),如何給他推薦第三本書(shū)?這兩本書(shū)最短路徑上的其它書(shū)嘛,有人會(huì)問(wèn),這不是兩本書(shū)已經(jīng)有連線(xiàn)了,路徑不是最短了嗎?這就涉及到了路徑的權(quán)重問(wèn)題,有了權(quán)重,直接的連線(xiàn)就不一定最短咯。權(quán)重如何得到?Well,It depands.
由于我只抓了兩層好友,so,最短路徑不會(huì)超過(guò)2.
隨便找一個(gè):colipso ---谷雨--- 范文卓 我想認(rèn)識(shí)范,那么找谷雨就對(duì)了。
5)三人行
對(duì)于任意三個(gè)人,可以有如下16種關(guān)系:
比如對(duì)于012C這種類(lèi)型,作為中間人,是不是可以介紹另外兩人認(rèn)識(shí)那?
看看我的交往圈里面這16種類(lèi)型各占多少:
201類(lèi)型的三節(jié)點(diǎn)有94109個(gè)
021C類(lèi)型的三節(jié)點(diǎn)有0個(gè)
021D類(lèi)型的三節(jié)點(diǎn)有0個(gè)
210類(lèi)型的三節(jié)點(diǎn)有0個(gè)
120U類(lèi)型的三節(jié)點(diǎn)有0個(gè)
030C類(lèi)型的三節(jié)點(diǎn)有0個(gè)
003類(lèi)型的三節(jié)點(diǎn)有19747819個(gè)
300類(lèi)型的三節(jié)點(diǎn)有3605個(gè)
012類(lèi)型的三節(jié)點(diǎn)有0個(gè)
021U類(lèi)型的三節(jié)點(diǎn)有0個(gè)
120D類(lèi)型的三節(jié)點(diǎn)有0個(gè)
102類(lèi)型的三節(jié)點(diǎn)有1112967個(gè)
111U類(lèi)型的三節(jié)點(diǎn)有0個(gè)
030T類(lèi)型的三節(jié)點(diǎn)有0個(gè)
120C類(lèi)型的三節(jié)點(diǎn)有0個(gè)
111D類(lèi)型的三節(jié)點(diǎn)有0個(gè)
當(dāng)然,因?yàn)槲抑蛔チ藘蓪咏煌?,可以說(shuō)還是比較核心的交往圈,所以很多三節(jié)點(diǎn)類(lèi)型都沒(méi)有出現(xiàn),如果抓取的層數(shù)更多,結(jié)果會(huì)更顯著。
仍然是舉一反三,網(wǎng)絡(luò)中的節(jié)點(diǎn)無(wú)論是人還是物,對(duì)于16種結(jié)構(gòu)中的每一種其實(shí)都可以制定一定的策略來(lái)達(dá)到一定的目的。上述分析已經(jīng)完成了行動(dòng)的第一步,識(shí)別目標(biāo)。
三:亂七八糟的一些想法
1)傳統(tǒng)統(tǒng)計(jì)和現(xiàn)代分析
最近同時(shí)在研究R和社交網(wǎng)絡(luò)分析,發(fā)現(xiàn)傳統(tǒng)統(tǒng)計(jì)分析方法和現(xiàn)代分析方法還是有一些差別的。
傳統(tǒng)統(tǒng)計(jì)分析方法起源于19世紀(jì),無(wú)論是點(diǎn)估計(jì)/區(qū)間估計(jì)/假設(shè)檢驗(yàn)都是依賴(lài)于一定的分布假設(shè)前提,更不要提貝葉斯統(tǒng)計(jì),有大量的學(xué)術(shù)研究搞定了小樣本下檢驗(yàn)整體的方法,目的是想方設(shè)法降低計(jì)算量。但問(wèn)題是現(xiàn)在的環(huán)境/用戶(hù)偏好變化非常快,也就是分布變化快。用傳統(tǒng)統(tǒng)計(jì)方法在分析的群體變化,分析的參數(shù)變化下還是有一定局限。
而現(xiàn)代的分析方法無(wú)論是蒙特卡洛模擬還是社交網(wǎng)絡(luò)分析都是基于密集計(jì)算,管你什么分布,模擬100次不夠,那就模擬10000次,100000次。根據(jù)大數(shù)定律,結(jié)果跑也跑出來(lái)了,八九不離十。
2)工具
上面的所有分析都是用python 和networkx模塊完成。Python的靈活數(shù)據(jù)結(jié)構(gòu),大量的開(kāi)源模塊(numpy/scipy/matplotlib/networkx/webpy等等)可以說(shuō)是居家旅行,數(shù)據(jù)分析的必備良藥。清晰的語(yǔ)言規(guī)范也避免了括號(hào)風(fēng)暴。我很欣賞。
networkx分析規(guī)模的瓶頸首先在于內(nèi)存/存儲(chǔ),其次在于算法的合理性。對(duì)于10萬(wàn)以?xún)?nèi)的節(jié)點(diǎn)數(shù)還是容易應(yīng)付的。如果節(jié)點(diǎn)數(shù)量級(jí)在于千萬(wàn)甚至億,那就得好好設(shè)計(jì)了。
3)分析價(jià)值
分析能產(chǎn)生的價(jià)值一種是用于決策/一種用在產(chǎn)品。決策的對(duì)錯(cuò)在中長(zhǎng)期能看到效果。產(chǎn)品則更直接,分析價(jià)值快速見(jiàn)于用戶(hù)數(shù)量/意見(jiàn)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03