
基于微信大數(shù)據(jù)的股票預(yù)測研究
大數(shù)據(jù)是近些年來的熱門話題,無論國際上還是國內(nèi),影響很大。經(jīng)濟學(xué)、政治學(xué)、社會學(xué)和許多科學(xué)門類都會發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進而影響人類的價值體系、知識體系和生活方式。而全球經(jīng)濟目前生成了史無前例的大量數(shù)據(jù),如果把每天產(chǎn)生的大量數(shù)據(jù)比作神話時期的大洪水是完全正確的,這個數(shù)據(jù)洪流是我們前所未見的,他是全新的、強大的、當(dāng)然,也是讓人恐慌但又極端刺激的。
而我所分享的話題,正是在互聯(lián)網(wǎng)環(huán)境下,如何利用大數(shù)據(jù)技術(shù),進行股票預(yù)測的研究。–今天,我想分享我認為有意義的四點。
根據(jù)大數(shù)據(jù),我們可以有效地進行故障、人流、流量、用電量、股票市場、疾病預(yù)防、交通、食物配送、產(chǎn)業(yè)供需等方面的預(yù)測。而本文我們所關(guān)心的內(nèi)容是股票市場的預(yù)測。
大數(shù)據(jù)的核心是預(yù)測,預(yù)測依賴于對數(shù)據(jù)的分析。那么分析的方法是否是基于隨機采樣的結(jié)果而設(shè)計的,這樣的分析方法是否會有誤差?
從傳統(tǒng)認識上,由于資源和科技的局限,如人和計算資源受限、從計算機處理能力來講無法處理全部數(shù)據(jù)來獲取人們所關(guān)注的結(jié)果。因此隨機采樣應(yīng)運而生,通過所選取的個體來代表全體,如使用隨機抽取的方式來使得推論結(jié)果更科學(xué)。但既然提到了大數(shù)據(jù),它是資源發(fā)展到一定程度、以及技術(shù)發(fā)展到一定階段產(chǎn)生的一個新的認識。如同電力的出現(xiàn),使人類進入了一個快速發(fā)展階段,大數(shù)據(jù)也一樣,它的含義是全體樣本,從整體樣本來做推論。在本文大數(shù)據(jù)的含義是所有股票在整個社交網(wǎng)絡(luò)上的流動信息,從數(shù)據(jù)源上講,本文沒有采用所有社交網(wǎng)絡(luò)上的數(shù)據(jù),只分析了微信這個最具代表性的社交媒體作為信息源。
互動數(shù)據(jù)能反映用戶情緒,搜索數(shù)據(jù)能反映用戶的關(guān)注點和意圖,在股市預(yù)測時這兩種數(shù)據(jù)哪種更具有參考價值?
我認為都有價值,互動數(shù)據(jù)反映了用戶對某一特定股票的喜好和厭惡,可以簡單描述為對該股票的操作是繼續(xù)持有還是賣出;而搜索數(shù)據(jù)則代表用戶在收集該股票信息的過程,它是關(guān)注度的概念,某只股票搜索度高則意味著消息的影響力大?;哟碇较?,搜索代表著振幅。
我們知道這兩種數(shù)據(jù)得出的結(jié)論會有差異,您是如何平衡這兩種數(shù)據(jù)反映的情況來進行預(yù)測的?
正如上一個問題里提到的,如果是股票推薦,買進賣出等原則問題,則應(yīng)該考慮互動數(shù)據(jù),但如果已經(jīng)買到手了,搜索數(shù)據(jù)可以提供一個幅度的概念,類似債券評級A級、AA級、AAA級等,供投資者參考,因為不同投資者對風(fēng)險的承受度是不同的。
將股票和市場的消息整理成140字的短消息發(fā)布,是否意味著主要發(fā)布渠道是微博?現(xiàn)在微信公眾號很火,有沒有考慮通過這個渠道也發(fā)布消息?
事實上,信息傳播的方式很多,微信作為新媒體當(dāng)然影響力不容小覷,但目前技術(shù)投入最小的還是郵件、短信等方式,未來會考慮使用公眾號來推送股票和市場消息。
如果在未來通過微信公眾號推送消息,那么推送的消息會不會作為數(shù)據(jù)來源被再次采集?這會有多大的影響?
會被采集,但互聯(lián)網(wǎng)上的每日關(guān)于個股的信息數(shù)量會達到很大,該推送會增加推薦股票1點權(quán)重,每只股票的權(quán)重成百上千,因此影響極小。
數(shù)據(jù)來源是微信公眾號,除了準確性的考慮之外,是否還考慮過這樣收集數(shù)據(jù)會較少觸犯個人隱私?
從法律角度來看,搜索微信或其他個人聊天記錄,是侵犯個人隱私權(quán)的,因此如果騰訊開放了這樣的接口,每個公民都可以對這樣的行為進行投訴、抗議、甚至進行法律起訴直至其改正過錯、賠償損失的。
這樣是否意味著即使存在違法的行為,其結(jié)果也是由騰訊來承擔(dān),而我們作為數(shù)據(jù)的使用方不需要承擔(dān)任何法律責(zé)任?
在整個社會,我們作為系統(tǒng)技術(shù)提供方,應(yīng)恪守大數(shù)據(jù)的倫理道德,遵守國家法律,如侵犯個人隱私,系統(tǒng)不會采集,谷歌有一句座右銘“谷歌不作惡”,本文提到的系統(tǒng)也一樣。
股票的及時度反應(yīng)了微信文章所發(fā)布的時效性,及時度越高,數(shù)據(jù)價值就越大。
股票的熱度反應(yīng)了當(dāng)前某只股票被關(guān)注的頻度,關(guān)注頻度越大,上漲的可能性越高。
數(shù)據(jù)的完整性:我們采用循環(huán)的方式對所有深滬兩地發(fā)行約2236只股票(創(chuàng)業(yè)版除外)在微信搜索網(wǎng)站上的搜索結(jié)果進行保存。
數(shù)據(jù)的一致性:文件格式由負責(zé)保存數(shù)據(jù)文件的程序決定,單一的流程保障了文件的一致性。
數(shù)據(jù)的準確性:由于所分析的訂閱號文章的是由微信公共平臺的公眾號所提供,在一定程度上杜絕了虛假消息對于預(yù)測系統(tǒng)的破壞。
數(shù)據(jù)的及時性:考慮到磁盤讀寫以及采集程序所處的網(wǎng)絡(luò)帶寬,以及搜索引擎對于采集程序的屏蔽,程序中采集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個小時)可收集完當(dāng)日推薦所需要的數(shù)據(jù)。對于每個交易日,在9點-9點30分之間采集所有數(shù)據(jù),需要7臺以上的設(shè)備可達到最佳效果。本次試驗受限于試驗設(shè)備,在一臺設(shè)備上,交易日每天早六時開始進行數(shù)據(jù)采集,也滿足及時性要求。
數(shù)據(jù)分析:查看三個高優(yōu)先級的股票,該股票當(dāng)日的開盤價與收盤價,再與當(dāng)日(2015-4-8)上證綜指進行比較,可得在收益上該算法是優(yōu)于上證綜指為樣本的整體股票的股價差收益的。
實驗結(jié)論:按照上述方式,系統(tǒng)每天推薦出當(dāng)日股票,在開盤時進行買進,在第二個交易日進行賣出。經(jīng)過一個月21個交易日(2015-3-1至2015-3-31),系統(tǒng)的收益為20%/月。通過微信搜索公眾號來預(yù)測市場走勢和投資情緒呈現(xiàn)出正相關(guān)性,因此可以作為股票甄選的因子。
網(wǎng)絡(luò)數(shù)據(jù)分成三種:
一是瀏覽數(shù)據(jù),主要用于電商領(lǐng)域的消費者行為分析,瀏覽數(shù)據(jù)反映了用戶每一步的訪問腳步,進一步刻畫出用戶的訪問路徑,分析不同頁面的跳轉(zhuǎn)概率等。
二是搜索數(shù)據(jù),主要指搜索引擎記錄的關(guān)鍵詞被搜索頻次的時間序列數(shù)據(jù),能反映數(shù)億用戶的興趣、關(guān)注點、意圖。
三是互動數(shù)據(jù),主要是微博、微信、社交網(wǎng)站的數(shù)據(jù),反映用戶的傾向性和情緒因素。
2013年諾貝爾經(jīng)濟學(xué)獎得主羅伯特?席勒的觀點被無數(shù)采訪對象引述。席勒于上世紀80年代設(shè)計的投資模型至今仍被業(yè)內(nèi)稱道。在他的模型中,主要參考三個變量:投資項目計劃的現(xiàn)金流、公司資本的估算成本、股票市場對投資的反應(yīng)(市場情緒)。他認為,市場本身帶有主觀判斷因素,投資者情緒會影響投資行為,而投資行為直接影響資產(chǎn)價格。
計算機通過分析新聞、研究報告、社交信息、搜索行為等,借助自然語言處理方法,提取有用的信息;而借助機器學(xué)習(xí)智能分析,過去量化投資只能覆蓋幾十個策略,大數(shù)據(jù)投資則可以覆蓋成千上萬個策略。
基于互聯(lián)網(wǎng)搜索數(shù)據(jù)和社交行為的經(jīng)濟預(yù)測研究,已逐漸成為一個新的學(xué)術(shù)熱點,并在經(jīng)濟、社會以及健康等領(lǐng)域的研究中取得了一定成果。在資本市場應(yīng)用上,研究發(fā)現(xiàn)搜索數(shù)據(jù)可有效預(yù)測未來股市活躍度(以交易量指標衡量)及股價走勢的變化。
對于搜索數(shù)據(jù):互聯(lián)網(wǎng)搜索行為與股票市場的關(guān)聯(lián)機理。這個研究屬于行為金融與互聯(lián)網(wǎng)的交叉領(lǐng)域,其原理是:股票量價調(diào)整是投資者行為在股票市場上的反應(yīng);與此同時,投資者行為在互聯(lián)網(wǎng)搜索市場也有相應(yīng)地行為跡象,我們要做到是:找到互聯(lián)網(wǎng)搜索市場中領(lǐng)先于股票交易的行為指標,綜合眾多投資者的先行搜索指標,對未來的股票交易做出預(yù)判。
如同天氣預(yù)報那樣,不斷優(yōu)化模型、灌入海量信息,然后給出結(jié)果。并且在處理的信息中,有80%是“非結(jié)構(gòu)化”數(shù)據(jù),例如政策文件、自然事件、地理環(huán)境、科技創(chuàng)新等,這類信息通常是電腦和模型難以消化的。采用了語義分析法,可以將互動數(shù)據(jù)里的金融對話量化為“-1(極度看空)”到“1(極度看多)”之間的投資建議,通過分析互動數(shù)據(jù)的數(shù)據(jù)文本,作為股市投資的信號。
大數(shù)據(jù)并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的將來。
大數(shù)據(jù)在實用層面的影響很廣泛,解決了大量的日常問題。大數(shù)據(jù)更是利害攸關(guān)的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著一個僵局,比其他劃時代創(chuàng)新引起的社會信息范圍和規(guī)模急劇擴大所帶來的影響更大。我們腳下的地面在移動。過去確定無疑的事情正在受到質(zhì)疑。大數(shù)據(jù)需要人們重新討論決策、命運和正義的性質(zhì)。擁有知識曾意味著掌握過去,現(xiàn)在則意味著能夠預(yù)測未來。
大數(shù)據(jù)并不是一個充斥著算法和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創(chuàng)造力、直覺和天賦。這提示我們應(yīng)該樂于接受類似的不準確,因為不準確正是我們之所以為人的特征之一。就好像我們學(xué)習(xí)處理混亂數(shù)據(jù)一樣,因為這些數(shù)據(jù)服務(wù)的是更加廣大的目標。必將混亂構(gòu)成了世界的本質(zhì),也構(gòu)成了人腦的本職,而無論是世界的混亂還是人腦的混亂,學(xué)會接受和應(yīng)用他們才能得益。
我相信,利用基礎(chǔ)數(shù)據(jù)、搜索數(shù)據(jù)、互動數(shù)據(jù)再進行加權(quán)計算,可以對所有股票進行大數(shù)據(jù)遴選,從而給出投資建議。我認為,我們的肉身剛剛步入大數(shù)據(jù)時代,但我們的精神還滯留在小數(shù)據(jù)、采樣思維之中,率先用理性擊碎固有思維的人,也將率先獲得大數(shù)據(jù)帶來的益處。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07