
華爾街如何玩轉(zhuǎn)社交網(wǎng)絡(luò)大數(shù)據(jù)_數(shù)據(jù)分析師考試
5月28日,當(dāng)上證指數(shù)以重挫6.5%結(jié)束一天行情時(shí),網(wǎng)絡(luò)上到處彌漫著恐慌與迷茫的情緒。就在投資者在堅(jiān)守和撤離之間難做抉擇之時(shí),有一種軟件已在后臺(tái)搜集這些情緒數(shù)據(jù),并進(jìn)行量化分析,形成具體的投資意見。這就是美國(guó)華爾街投行、對(duì)沖基金、甚至紐約證券交易所都在使用的社交網(wǎng)絡(luò)股市情緒量化分析法。
我國(guó)的股市情緒量化分析,也隨著股票雷達(dá)、投資脈搏以及百度股市通等應(yīng)用的出現(xiàn),進(jìn)入了起步階段。在大市走向震蕩加劇的當(dāng)下,將感性的情緒量化為理性數(shù)據(jù),不失為投資者縱觀全局的參考指標(biāo)。
2015年4月,總部位于波士頓的對(duì)沖基金Tashtego宣布,將依靠數(shù)據(jù)算法,利用社交網(wǎng)絡(luò)分析客戶情緒和投資者行為進(jìn)行交易。這則消息,向大眾揭開了華爾街使用的情緒量化分析法的神秘面紗。
實(shí)際上,從2013年美國(guó)證監(jiān)會(huì)(SEC)允許上市公司在社交網(wǎng)絡(luò)披露公司信息起,美國(guó)股市情緒分析應(yīng)用如雨后春筍般冒出,華爾街投行、對(duì)沖基金等紛紛加入到這股互聯(lián)網(wǎng)金融浪潮中。
社交數(shù)據(jù)分析公司受追捧
2013年3月8日,紐約數(shù)據(jù)分析公司Dataminr(數(shù)據(jù)礦工)的客戶收到一條緊急推送,稱一艘皇家加勒比海游輪抵達(dá)佛羅里達(dá)的埃弗格萊茲港,船上的105名乘客和3名船員全部感染諾如病毒(常見伴隨癥狀是食物中毒和腹瀉)。這則經(jīng)確認(rèn)的新聞剛公布,皇家加勒比海游輪公司的股價(jià)旋即急跌2.9%。Dataminr的客戶在新聞公布前48分鐘即得知此事件。
引起Dataminr員工警覺的,是南佛羅里達(dá)新聞電臺(tái)WSVN于當(dāng)天下午1點(diǎn)發(fā)布的一條推文?!拔覀冃闹芯徱徽稹保珼ataminr公司創(chuàng)始人彼得·貝利說,后臺(tái)語義算法系統(tǒng)發(fā)現(xiàn)這條推文與曾經(jīng)產(chǎn)生過類似價(jià)值的信息行文類同。當(dāng)天下午1點(diǎn)02分,即該推文發(fā)布兩分鐘后,Dataminr公司的相關(guān)客戶就收到一封警示郵件。
上述Dataminr提供的服務(wù),不過是美國(guó)近幾年社交網(wǎng)絡(luò)股市情緒分析浪潮中的一例。
諸如Social Market Analytics(社交市場(chǎng)分析公司SMA)和Hedge chatter等公司都以Twitter、Facebook等社交網(wǎng)絡(luò)大數(shù)據(jù)為基礎(chǔ),收集并分析網(wǎng)絡(luò)上對(duì)上市公司或某一事件的看法評(píng)論,并作出與股價(jià)有關(guān)的預(yù)測(cè)分析。
全球最大社交數(shù)據(jù)提供商GNIP2014年發(fā)布白皮書指出,社交網(wǎng)絡(luò)股市情緒分析最早始于2010年,用途還只限于企業(yè)分析客戶感受。2013年,美國(guó)證監(jiān)會(huì)(SEC)允許上市公司在社交網(wǎng)絡(luò)披露公司信息后,包括湯森·路透、彭博社在內(nèi)的全球著名數(shù)據(jù)提供商也開始提供社交網(wǎng)絡(luò)數(shù)據(jù)分析服務(wù)。
面向機(jī)構(gòu)和個(gè)人的相關(guān)應(yīng)用如雨后春筍般冒出。Dataminr創(chuàng)始人彼得·貝利透露,他們的客戶就包括華爾街前5大超級(jí)投資銀行中的3家,和一家估值150億美元的股權(quán)避險(xiǎn)基金公司。
SMA與全球領(lǐng)先的數(shù)據(jù)分析商Markit合作,向超3000家機(jī)構(gòu)投資者提供信息,里面就包括中央銀行、華爾街投行、對(duì)沖基金、政府機(jī)構(gòu)和保險(xiǎn)公司等。值得注意的是,SMA甚至打入了交易所內(nèi)部,向美國(guó)紐約交易所用戶訂閱欄目提供實(shí)時(shí)數(shù)據(jù)分析結(jié)果。
理論基礎(chǔ)和數(shù)據(jù)池更成熟
對(duì)市場(chǎng)情緒的分析早有理論基礎(chǔ)。2002年,心理學(xué)家丹尼爾·卡納曼和經(jīng)濟(jì)學(xué)家弗農(nóng)·史密斯因?qū)Y(jié)合了心理學(xué)和經(jīng)濟(jì)分析的行為經(jīng)濟(jì)學(xué)的研究,分享了這一年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng),讓這一細(xì)分學(xué)科在沉寂了幾十年后真正走進(jìn)了公眾視野。
2010年,美國(guó)印第安納大學(xué)和英國(guó)曼徹斯特大學(xué)的三位學(xué)者合作發(fā)表了一篇題為《Twitter情緒預(yù)測(cè)股市》的論文,指出基于大量推文而分析出的公眾情緒與道瓊斯工業(yè)指數(shù)相關(guān)聯(lián),甚至具有預(yù)測(cè)性。
他們選取2008年2月28日至12月19日近1000萬條推文作為樣本,采用兩種情緒追蹤工具將其分類。一種是開源工具OpinionFinder,將推文二分為積極和消極情緒;另一種是以臨床醫(yī)學(xué)使用的情緒狀態(tài)量表(POMS)基礎(chǔ)而新開發(fā)的情緒測(cè)試工具GPOMS,能將公眾的情緒分為冷靜、警惕、確信、活力、友善和幸福這六個(gè)類別。
研究者發(fā)現(xiàn),將“冷靜”情緒指數(shù)后移3天,竟然與道瓊斯工業(yè)平均指數(shù)驚人一致,也就是說,Twitter反映出的情緒能在一定程度上預(yù)測(cè)3~4天后的股市變化。另外,研究者還測(cè)試了一個(gè)稱為SOFNN的股市預(yù)測(cè)模型。當(dāng)僅輸入股市數(shù)據(jù)時(shí),模型已經(jīng)有73.3%的準(zhǔn)確率;加入“冷靜”的情感信息后,準(zhǔn)確率更升至86.7%。
分析軟件如何在全球每天數(shù)百億推文中篩選有效信息,成為量化市場(chǎng)情緒的關(guān)鍵,專業(yè)的算法成為篩選有效信息的利器。
對(duì)相對(duì)成熟的美國(guó)公司來說,其能利用的數(shù)據(jù)池非常廣泛?!睹咳战?jīng)濟(jì)新聞》記者注意到,Dataminr、SMA和Hedge chatter三家業(yè)界主力的信息來源分為兩種。
一種是依托全球最大專業(yè)數(shù)據(jù)提供公司英國(guó)DataSift(數(shù)據(jù)雨燕)和美國(guó)GNIP。DataSift數(shù)據(jù)池共有超過21家網(wǎng)站,擁有強(qiáng)大的信息過濾算法,每秒能挖掘12萬條推文,數(shù)據(jù)池除了主要的Twitter、Facebook、Wordpress和Tumblr外,還有圖片社交網(wǎng)站Instagram、視頻分享網(wǎng)站Youtube和Dailymotion等,其中Datasift還取得了新浪微博、騰訊微博的資源授權(quán)。
二是公司用自己的語義分析法對(duì)數(shù)據(jù)進(jìn)行細(xì)分。例如SMA鎖定超過30萬的專業(yè)投資者,這部分人密切關(guān)注資本市場(chǎng)動(dòng)向,有規(guī)定地發(fā)布股市推文。因此成為SMA數(shù)據(jù)庫的基礎(chǔ)來源,并每月自動(dòng)篩選替換。
國(guó)內(nèi)篇
A股情緒量化分析剛起步 深度待提高
在國(guó)內(nèi),首款情緒分析軟件股票雷達(dá)已面世三年多;基于印第安納大學(xué)研究成立的投資脈搏網(wǎng)站推出心情指數(shù),直觀感受股市情緒與大盤變化走勢(shì);基于百度搜集大數(shù)據(jù)的百度股市通也公布了不俗的成績(jī),我國(guó)的股市情緒量化分析已在起步。
作為2012年就利用社交情緒預(yù)測(cè)股市的公司,股票雷達(dá)創(chuàng)始人馮月在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示,股票雷達(dá)中的雷達(dá)關(guān)注功能是一款針對(duì)A股的個(gè)股資訊聚合分析工具,它通過捕捉全網(wǎng)各類股票資訊,統(tǒng)計(jì)網(wǎng)絡(luò)中所有人的看漲看跌觀點(diǎn),再利用自身大數(shù)據(jù)技術(shù)分析出目前市場(chǎng)整體看好的股票是哪些。
與美國(guó)此類軟件數(shù)據(jù)來源不同的是,馮月向記者介紹,股票雷達(dá)后臺(tái)數(shù)據(jù)來源于全網(wǎng),只要與股票有關(guān)的網(wǎng)站,包括微博在內(nèi),都是股票雷達(dá)分析來源。這主要是因?yàn)锳股客戶相對(duì)分散?!睹咳战?jīng)濟(jì)新聞》記者注意到,投資脈搏網(wǎng)站的股市心情指數(shù),數(shù)據(jù)來源于股吧、新浪財(cái)經(jīng)、搜狐財(cái)經(jīng)等,并利用自家的算法程序在社交數(shù)據(jù)中提取最核心關(guān)鍵內(nèi)容,辨別“漲跌、買賣”等關(guān)鍵指標(biāo),得出大多數(shù)股民對(duì)大市的心理預(yù)測(cè)值,且用戶也能在投資脈搏網(wǎng)站上對(duì)當(dāng)天股票的整體行情評(píng)分,取值范圍是從-100~100之間,代表看空或看多情緒的強(qiáng)烈程度。
相較于分析股市情緒的上述兩款應(yīng)用,除了分析全網(wǎng)股市情緒外,百度在今年2月推出的百度股市通APP還利用了百度的大數(shù)據(jù)引擎技術(shù),智能分析股市行情熱點(diǎn),根據(jù)百度股市通5月13日公布的數(shù)據(jù)顯示,百度股市通所有熱點(diǎn)事件股票的上漲概率達(dá)78%,股票日均漲幅達(dá)1.7%。
馮月向?qū)τ浾弑硎荆瑥膰?guó)內(nèi)應(yīng)用提供的服務(wù)看,我國(guó)的社交網(wǎng)絡(luò)情緒分析還處于起步階段,也暫時(shí)缺乏健全的市場(chǎng)監(jiān)管和指導(dǎo)。記者注意到,相較于美國(guó)社交網(wǎng)絡(luò)情緒分析已深入華爾街,我國(guó)的股市情緒分析還有很大提升空間。
美國(guó)軟件公司對(duì)市場(chǎng)情緒的量化已進(jìn)入可視化階段,能將一只股票的實(shí)時(shí)情緒變化走勢(shì)形象地表現(xiàn)出來,甚至能將這些數(shù)據(jù)通過Excel下載并自行統(tǒng)計(jì),其所能達(dá)到的直觀效果與分析深度不言而喻。
我國(guó)的相關(guān)軟件多是一攬子聚合信息服務(wù)中的一項(xiàng),且只涉及后臺(tái)分析,向投資者提供市場(chǎng)情緒看漲或看跌的個(gè)股,目前還不能像東方財(cái)富、同花順等交易軟件一樣,向投資者提供具象數(shù)據(jù)。
爭(zhēng)議篇
情緒指數(shù)非萬能 但有助于理性投資
情緒跟股市之間的聯(lián)系似乎得到了理論的論證,那么在“真刀實(shí)槍”的投資行為里,情緒指數(shù)是只能做提供分析參考的“助攻者”,還是可以直接指導(dǎo)投資的“得分手”,其預(yù)測(cè)個(gè)股的可靠程度又有多少,國(guó)內(nèi)外對(duì)此的爭(zhēng)議從未間斷。
判斷大市優(yōu)于個(gè)股預(yù)測(cè)
對(duì)于個(gè)股預(yù)測(cè),美國(guó)印第安納大學(xué)信息科學(xué)及計(jì)算技術(shù)副教授約翰·博倫認(rèn)為情緒預(yù)測(cè)大市趨勢(shì)比預(yù)測(cè)個(gè)股更有用。
約翰·博倫質(zhì)疑道,僅僅監(jiān)測(cè)Twitter上的一個(gè)子集(如金融板塊),到底有多大價(jià)值:“從表面的角度來看,這是一個(gè)顯而易見的事情。但你必須問問:為什么有人要針對(duì)一只股票發(fā)推文,為什么推文比其他指標(biāo)更有價(jià)值?”他補(bǔ)充說,如果你了解一點(diǎn)市場(chǎng)內(nèi)幕,肯定不會(huì)和別人分享。
但博倫也認(rèn)為,整體的互聯(lián)網(wǎng)情緒分析能產(chǎn)生重大收獲。他建立了一家趨勢(shì)分析企業(yè),試圖發(fā)現(xiàn)“金礦”。他說:“我們?cè)趯ふ译[藏的社會(huì)潛流?!?/span>
同校的休伯曼教授呼應(yīng)了這一觀點(diǎn):用社交媒體衡量公共情緒,只在整體意義上有用,“除非喬治·索羅斯和沃倫·巴菲特在發(fā)微博,否則Twitter用戶并不是那些能夠影響市場(chǎng)走向的人?!?/span>
但股票雷達(dá)創(chuàng)始人馮月并不認(rèn)為情緒分析個(gè)股有失準(zhǔn)確。他說,股票雷達(dá)從2012年1月13日開始,每天開盤前都會(huì)在新浪微博貼出策略帖,堅(jiān)持了9個(gè)月,最終收益超過40%,而同期大盤大跌。當(dāng)然,馮月也表示,股票雷達(dá)不是股神,也有跌的時(shí)候,比如2013年3月它的收益就是-11%。
專業(yè)判斷仍不可或缺
美國(guó)圣母大學(xué)的研究者則質(zhì)疑社交網(wǎng)絡(luò)對(duì)突發(fā)事件的預(yù)測(cè)。他們?cè)谘芯恐邪l(fā)現(xiàn),2008年10月13日,美國(guó)聯(lián)邦儲(chǔ)備委員會(huì)突然啟動(dòng)一項(xiàng)銀行紓困計(jì)劃,令道瓊斯指數(shù)反彈,而3天前的Twitter冷靜指數(shù)毫無征兆。而且,研究者自己也意識(shí)到,Twitter用戶與股市投資者并不完全重合,這樣的樣本代表性有待商榷。
美國(guó)特許金融分析師(CFA)協(xié)會(huì)創(chuàng)新與新興媒體主管萊恩·科斯塔也不贊成Twitter情緒指數(shù)的濫用:“對(duì)于嚴(yán)肅的專業(yè)投資者來說,在作出投資決定時(shí),沒有什么可以替代合理的審慎、獨(dú)立的專業(yè)判斷和由適當(dāng)?shù)难芯颗c調(diào)查支持的基礎(chǔ)?!?/span>
在A股市場(chǎng)震蕩加劇的當(dāng)下,馮月希望股民在做投資決定的時(shí)候能越來越理性。他說,股票是一個(gè)眾人博弈的游戲,再“精準(zhǔn)”的推薦也是有風(fēng)險(xiǎn)的?;诖耍麄儾皇呛?jiǎn)單地給出推薦股票,而是會(huì)將該只股票的所有相關(guān)信息全部呈現(xiàn)給用戶,包括所有看好和不看好這支股票的言論內(nèi)容,以及這些言論發(fā)表者的身份、背景和歷史言論。當(dāng)用戶了解完所有這些信息之后,他的決定則會(huì)趨于理性。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11