
基于微信大數(shù)據(jù)的股票預(yù)測研究
大數(shù)據(jù)是近些年來的熱門話題,無論國際上還是國內(nèi),影響很大。經(jīng)濟(jì)學(xué)、政治學(xué)、社會學(xué)和許多科學(xué)門類都會發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進(jìn)而影響人類的價值體系、知識體系和生活方式。而全球經(jīng)濟(jì)目前生成了史無前例的大量數(shù)據(jù),如果把每天產(chǎn)生的大量數(shù)據(jù)比作神話時期的大洪水是完全正確的,這個數(shù)據(jù)洪流是我們前所未見的,他是全新的、強(qiáng)大的、當(dāng)然,也是讓人恐慌但又極端刺激的。
而我所分享的話題,正是在互聯(lián)網(wǎng)環(huán)境下,如何利用大數(shù)據(jù)技術(shù),進(jìn)行股票預(yù)測的研究。–今天,我想分享我認(rèn)為有意義的四點(diǎn)。
根據(jù)大數(shù)據(jù),我們可以有效地進(jìn)行故障、人流、流量、用電量、股票市場、疾病預(yù)防、交通、食物配送、產(chǎn)業(yè)供需等方面的預(yù)測。而本文我們所關(guān)心的內(nèi)容是股票市場的預(yù)測。
大數(shù)據(jù)的核心是預(yù)測,預(yù)測依賴于對數(shù)據(jù)的分析。那么分析的方法是否是基于隨機(jī)采樣的結(jié)果而設(shè)計的,這樣的分析方法是否會有誤差?
從傳統(tǒng)認(rèn)識上,由于資源和科技的局限,如人和計算資源受限、從計算機(jī)處理能力來講無法處理全部數(shù)據(jù)來獲取人們所關(guān)注的結(jié)果。因此隨機(jī)采樣應(yīng)運(yùn)而生,通過所選取的個體來代表全體,如使用隨機(jī)抽取的方式來使得推論結(jié)果更科學(xué)。但既然提到了大數(shù)據(jù),它是資源發(fā)展到一定程度、以及技術(shù)發(fā)展到一定階段產(chǎn)生的一個新的認(rèn)識。如同電力的出現(xiàn),使人類進(jìn)入了一個快速發(fā)展階段,大數(shù)據(jù)也一樣,它的含義是全體樣本,從整體樣本來做推論。在本文大數(shù)據(jù)的含義是所有股票在整個社交網(wǎng)絡(luò)上的流動信息,從數(shù)據(jù)源上講,本文沒有采用所有社交網(wǎng)絡(luò)上的數(shù)據(jù),只分析了微信這個最具代表性的社交媒體作為信息源。
互動數(shù)據(jù)能反映用戶情緒,搜索數(shù)據(jù)能反映用戶的關(guān)注點(diǎn)和意圖,在股市預(yù)測時這兩種數(shù)據(jù)哪種更具有參考價值?
我認(rèn)為都有價值,互動數(shù)據(jù)反映了用戶對某一特定股票的喜好和厭惡,可以簡單描述為對該股票的操作是繼續(xù)持有還是賣出;而搜索數(shù)據(jù)則代表用戶在收集該股票信息的過程,它是關(guān)注度的概念,某只股票搜索度高則意味著消息的影響力大。互動代表著方向,搜索代表著振幅。
我們知道這兩種數(shù)據(jù)得出的結(jié)論會有差異,您是如何平衡這兩種數(shù)據(jù)反映的情況來進(jìn)行預(yù)測的?
正如上一個問題里提到的,如果是股票推薦,買進(jìn)賣出等原則問題,則應(yīng)該考慮互動數(shù)據(jù),但如果已經(jīng)買到手了,搜索數(shù)據(jù)可以提供一個幅度的概念,類似債券評級A級、AA級、AAA級等,供投資者參考,因?yàn)椴煌顿Y者對風(fēng)險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發(fā)布,是否意味著主要發(fā)布渠道是微博?現(xiàn)在微信公眾號很火,有沒有考慮通過這個渠道也發(fā)布消息?
事實(shí)上,信息傳播的方式很多,微信作為新媒體當(dāng)然影響力不容小覷,但目前技術(shù)投入最小的還是郵件、短信等方式,未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息,那么推送的消息會不會作為數(shù)據(jù)來源被再次采集?這會有多大的影響?
會被采集,但互聯(lián)網(wǎng)上的每日關(guān)于個股的信息數(shù)量會達(dá)到很大,該推送會增加推薦股票1點(diǎn)權(quán)重,每只股票的權(quán)重成百上千,因此影響極小。
數(shù)據(jù)來源是微信公眾號,除了準(zhǔn)確性的考慮之外,是否還考慮過這樣收集數(shù)據(jù)會較少觸犯個人隱私?
從法律角度來看,搜索微信或其他個人聊天記錄,是侵犯個人隱私權(quán)的,因此如果騰訊開放了這樣的接口,每個公民都可以對這樣的行為進(jìn)行投訴、抗議、甚至進(jìn)行法律起訴直至其改正過錯、賠償損失的。
這樣是否意味著即使存在違法的行為,其結(jié)果也是由騰訊來承擔(dān),而我們作為數(shù)據(jù)的使用方不需要承擔(dān)任何法律責(zé)任?
在整個社會,我們作為系統(tǒng)技術(shù)提供方,應(yīng)恪守大數(shù)據(jù)的倫理道德,遵守國家法律,如侵犯個人隱私,系統(tǒng)不會采集,谷歌有一句座右銘“谷歌不作惡”,本文提到的系統(tǒng)也一樣。
股票的及時度反應(yīng)了微信文章所發(fā)布的時效性,及時度越高,數(shù)據(jù)價值就越大。
股票的熱度反應(yīng)了當(dāng)前某只股票被關(guān)注的頻度,關(guān)注頻度越大,上漲的可能性越高。
數(shù)據(jù)的完整性:我們采用循環(huán)的方式對所有深滬兩地發(fā)行約2236只股票(創(chuàng)業(yè)版除外)在微信搜索網(wǎng)站上的搜索結(jié)果進(jìn)行保存。
數(shù)據(jù)的一致性:文件格式由負(fù)責(zé)保存數(shù)據(jù)文件的程序決定,單一的流程保障了文件的一致性。
數(shù)據(jù)的準(zhǔn)確性:由于所分析的訂閱號文章的是由微信公共平臺的公眾號所提供,在一定程度上杜絕了虛假消息對于預(yù)測系統(tǒng)的破壞。
數(shù)據(jù)的及時性:考慮到磁盤讀寫以及采集程序所處的網(wǎng)絡(luò)帶寬,以及搜索引擎對于采集程序的屏蔽,程序中采集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個小時)可收集完當(dāng)日推薦所需要的數(shù)據(jù)。對于每個交易日,在9點(diǎn)-9點(diǎn)30分之間采集所有數(shù)據(jù),需要7臺以上的設(shè)備可達(dá)到最佳效果。本次試驗(yàn)受限于試驗(yàn)設(shè)備,在一臺設(shè)備上,交易日每天早六時開始進(jìn)行數(shù)據(jù)采集,也滿足及時性要求。
數(shù)據(jù)分析:查看三個高優(yōu)先級的股票,該股票當(dāng)日的開盤價與收盤價,再與當(dāng)日(2015-4-8)上證綜指進(jìn)行比較,可得在收益上該算法是優(yōu)于上證綜指為樣本的整體股票的股價差收益的。
實(shí)驗(yàn)結(jié)論:按照上述方式,系統(tǒng)每天推薦出當(dāng)日股票,在開盤時進(jìn)行買進(jìn),在第二個交易日進(jìn)行賣出。經(jīng)過一個月21個交易日(2015-3-1至2015-3-31),系統(tǒng)的收益為20%/月。通過微信搜索公眾號來預(yù)測市場走勢和投資情緒呈現(xiàn)出正相關(guān)性,因此可以作為股票甄選的因子。
網(wǎng)絡(luò)數(shù)據(jù)分成三種:
一是瀏覽數(shù)據(jù),主要用于電商領(lǐng)域的消費(fèi)者行為分析,瀏覽數(shù)據(jù)反映了用戶每一步的訪問腳步,進(jìn)一步刻畫出用戶的訪問路徑,分析不同頁面的跳轉(zhuǎn)概率等。
二是搜索數(shù)據(jù),主要指搜索引擎記錄的關(guān)鍵詞被搜索頻次的時間序列數(shù)據(jù),能反映數(shù)億用戶的興趣、關(guān)注點(diǎn)、意圖。
三是互動數(shù)據(jù),主要是微博、微信、社交網(wǎng)站的數(shù)據(jù),反映用戶的傾向性和情緒因素。
2013年諾貝爾經(jīng)濟(jì)學(xué)獎得主羅伯特?席勒的觀點(diǎn)被無數(shù)采訪對象引述。席勒于上世紀(jì)80年代設(shè)計的投資模型至今仍被業(yè)內(nèi)稱道。在他的模型中,主要參考三個變量:投資項(xiàng)目計劃的現(xiàn)金流、公司資本的估算成本、股票市場對投資的反應(yīng)(市場情緒)。他認(rèn)為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產(chǎn)價格。
計算機(jī)通過分析新聞、研究報告、社交信息、搜索行為等,借助自然語言處理方法,提取有用的信息;而借助機(jī)器學(xué)習(xí)智能分析,過去量化投資只能覆蓋幾十個策略,大數(shù)據(jù)投資則可以覆蓋成千上萬個策略。
基于互聯(lián)網(wǎng)搜索數(shù)據(jù)和社交行為的經(jīng)濟(jì)預(yù)測研究,已逐漸成為一個新的學(xué)術(shù)熱點(diǎn),并在經(jīng)濟(jì)、社會以及健康等領(lǐng)域的研究中取得了一定成果。在資本市場應(yīng)用上,研究發(fā)現(xiàn)搜索數(shù)據(jù)可有效預(yù)測未來股市活躍度(以交易量指標(biāo)衡量)及股價走勢的變化。
對于搜索數(shù)據(jù):互聯(lián)網(wǎng)搜索行為與股票市場的關(guān)聯(lián)機(jī)理。這個研究屬于行為金融與互聯(lián)網(wǎng)的交叉領(lǐng)域,其原理是:股票量價調(diào)整是投資者行為在股票市場上的反應(yīng);與此同時,投資者行為在互聯(lián)網(wǎng)搜索市場也有相應(yīng)地行為跡象,我們要做到是:找到互聯(lián)網(wǎng)搜索市場中領(lǐng)先于股票交易的行為指標(biāo),綜合眾多投資者的先行搜索指標(biāo),對未來的股票交易做出預(yù)判。
如同天氣預(yù)報那樣,不斷優(yōu)化模型、灌入海量信息,然后給出結(jié)果。并且在處理的信息中,有80%是“非結(jié)構(gòu)化”數(shù)據(jù),例如政策文件、自然事件、地理環(huán)境、科技創(chuàng)新等,這類信息通常是電腦和模型難以消化的。采用了語義分析法,可以將互動數(shù)據(jù)里的金融對話量化為“-1(極度看空)”到“1(極度看多)”之間的投資建議,通過分析互動數(shù)據(jù)的數(shù)據(jù)文本,作為股市投資的信號。
大數(shù)據(jù)并不是一個充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的將來。
大數(shù)據(jù)在實(shí)用層面的影響很廣泛,解決了大量的日常問題。大數(shù)據(jù)更是利害攸關(guān)的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著一個僵局,比其他劃時代創(chuàng)新引起的社會信息范圍和規(guī)模急劇擴(kuò)大所帶來的影響更大。我們腳下的地面在移動。過去確定無疑的事情正在受到質(zhì)疑。大數(shù)據(jù)需要人們重新討論決策、命運(yùn)和正義的性質(zhì)。擁有知識曾意味著掌握過去,現(xiàn)在則意味著能夠預(yù)測未來。
大數(shù)據(jù)并不是一個充斥著算法和機(jī)器的冰冷世界,其中仍需要人類扮演重要角色。人類獨(dú)有的弱點(diǎn)、錯覺、錯誤都是十分必要的,因?yàn)檫@些特性的另一頭牽著的是人類的創(chuàng)造力、直覺和天賦。這提示我們應(yīng)該樂于接受類似的不準(zhǔn)確,因?yàn)椴粶?zhǔn)確正是我們之所以為人的特征之一。就好像我們學(xué)習(xí)處理混亂數(shù)據(jù)一樣,因?yàn)檫@些數(shù)據(jù)服務(wù)的是更加廣大的目標(biāo)。必將混亂構(gòu)成了世界的本質(zhì),也構(gòu)成了人腦的本職,而無論是世界的混亂還是人腦的混亂,學(xué)會接受和應(yīng)用他們才能得益。
我相信,利用基礎(chǔ)數(shù)據(jù)、搜索數(shù)據(jù)、互動數(shù)據(jù)再進(jìn)行加權(quán)計算,可以對所有股票進(jìn)行大數(shù)據(jù)遴選,從而給出投資建議。我認(rèn)為,我們的肉身剛剛步入大數(shù)據(jù)時代,但我們的精神還滯留在小數(shù)據(jù)、采樣思維之中,率先用理性擊碎固有思維的人,也將率先獲得大數(shù)據(jù)帶來的益處。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11