99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀證券數(shù)據(jù)挖掘探索及實(shí)踐
證券數(shù)據(jù)挖掘探索及實(shí)踐
2016-11-23
收藏

證券數(shù)據(jù)挖掘探索及實(shí)踐

在券商企業(yè)多年來的運(yùn)營中,積累了大量投資者真實(shí)的第一手買賣金融產(chǎn)品數(shù)據(jù),近年互聯(lián)網(wǎng)金融的發(fā)展,加速了各類運(yùn)營數(shù)據(jù)的產(chǎn)生,也讓數(shù)據(jù)真正成為了價(jià)值的核心,數(shù)據(jù)成為了數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資產(chǎn)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行分析和挖掘,找出其中蘊(yùn)含的價(jià)值,助推證券行業(yè)的業(yè)務(wù)創(chuàng)新、服務(wù)創(chuàng)新、產(chǎn)品創(chuàng)新。本文在簡要介紹數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,探討了證券數(shù)據(jù)挖掘的方法論和挖掘方向,并結(jié)合華泰證券的數(shù)據(jù)挖掘實(shí)踐證明,數(shù)據(jù)分析和挖掘確能給企業(yè)的業(yè)務(wù)發(fā)展提供有益的幫助。

1.引言

證券市場是國家經(jīng)濟(jì)的晴雨表,國家經(jīng)濟(jì)的細(xì)微波動(dòng)都會(huì)在證券市場及時(shí)地反映出來。因而證券業(yè)的經(jīng)營對(duì)數(shù)據(jù)的實(shí)時(shí)性、準(zhǔn)確性和安全性的要求都很高。在國內(nèi)證券行業(yè)領(lǐng)域政策日趨開放的大環(huán)境下,證券業(yè)的競爭也越來越激烈。這就要求證券公司在做分析決策時(shí)不僅需要大量數(shù)據(jù)資料,更需要通過數(shù)據(jù),發(fā)掘其運(yùn)行規(guī)律和未來走勢。

數(shù)據(jù)挖掘技術(shù)在證券領(lǐng)域中的應(yīng)用,就是將證券交易及證券活動(dòng)中所產(chǎn)生的海量數(shù)據(jù)及時(shí)提取出來,通過清洗和變換,采用分類、聚類、關(guān)聯(lián)分析等方法發(fā)現(xiàn)新知識(shí),及時(shí)為證券從業(yè)人員提供參考咨詢服務(wù)、分析客戶交易行為、掌握企業(yè)經(jīng)營狀況、控制證券交易風(fēng)險(xiǎn)。從而幫助從業(yè)人員在證券交易中增強(qiáng)決策的智能性和前瞻性。

2.數(shù)據(jù)挖掘簡介

2.1.數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。這個(gè)定義包括幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。這里的知識(shí)一般指規(guī)則、概念、規(guī)律及模式等。

2.2.數(shù)據(jù)挖掘建模過程

通常,數(shù)據(jù)挖掘的建模過程如圖1所示:

圖1 數(shù)據(jù)挖掘建模過程

定義挖掘目標(biāo)

針對(duì)具體的數(shù)據(jù)挖掘應(yīng)用需求,首先要非常清楚,本次挖掘的目標(biāo)是什么?系統(tǒng)完成后能達(dá)到什么樣的效果?因此我們必須分析應(yīng)用領(lǐng)域,包括應(yīng)用中的各種知識(shí)和應(yīng)用目標(biāo)。了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶需求。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結(jié)果。

數(shù)據(jù)取樣

數(shù)據(jù)采集前首要考慮的問題包括:

哪些數(shù)據(jù)源可用,哪些數(shù)據(jù)與當(dāng)前挖掘目標(biāo)相關(guān)

如何保證取樣數(shù)據(jù)的質(zhì)量

是否在足夠范圍內(nèi)有代表性

數(shù)據(jù)樣本取多少合適

如何分類(訓(xùn)練集、驗(yàn)證集、測試集)

在明確了需要進(jìn)行數(shù)據(jù)挖掘的目標(biāo)后,接下來就需要從業(yè)務(wù)系統(tǒng)中抽取一個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。抽取數(shù)據(jù)的標(biāo)準(zhǔn),一是相關(guān)性,二是可靠性,三是最新性。

進(jìn)行數(shù)據(jù)取樣一定要嚴(yán)把質(zhì)量關(guān),在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,即使是從一個(gè)數(shù)據(jù)倉庫中進(jìn)行 數(shù)據(jù)取樣,也不要忘記檢查其質(zhì)量如何。因?yàn)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘是探索企業(yè)運(yùn)作的內(nèi)在規(guī)律,原始數(shù)據(jù)有誤,就很難從中探索規(guī)律性。

數(shù)據(jù)探索

當(dāng)拿到一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們原來設(shè)想的要求,其中有沒有什么明顯的規(guī)律和趨勢,有沒有出現(xiàn)從未設(shè)想過的數(shù)據(jù)狀態(tài),因素之間有什么相關(guān)性,它們可區(qū)分成怎樣一些類別,這都是要首先探索的內(nèi)容。數(shù)據(jù)探索和預(yù)處理的目的是為了保證樣本數(shù)據(jù)的質(zhì)量,從而為保證預(yù)測質(zhì)量打下基礎(chǔ)。數(shù)據(jù)探索包括:異常值分析、缺失值分析、相關(guān)分析、周期性分析、樣本交叉驗(yàn)證等。

預(yù)處理

采樣數(shù)據(jù)維度過大,如何進(jìn)行降維處理,采用數(shù)據(jù)中的缺失值如何處理,這些都是數(shù)據(jù)預(yù)處理需要解決的問題。數(shù)據(jù)預(yù)處理主要包含如下內(nèi)容:數(shù)據(jù)篩選,數(shù)據(jù)變量轉(zhuǎn)換,缺失值處理,壞數(shù)據(jù)處理,數(shù)據(jù)標(biāo)準(zhǔn)化,主成分分析,屬性選擇等。

模式發(fā)現(xiàn)

樣本抽取完成并經(jīng)預(yù)處理后,接下來要考慮的問題是:本次建模屬于數(shù)據(jù)挖掘應(yīng)用中的哪類問題(分類、聚類關(guān)聯(lián)規(guī)則或者時(shí)序分析),選用哪種算法進(jìn)行模型構(gòu)建?

模型構(gòu)建的前提是在樣本數(shù)據(jù)集中發(fā)現(xiàn)模式,比如關(guān)聯(lián)規(guī)則、分類預(yù)測、聚類分析、時(shí)序模式等。在目標(biāo)進(jìn)一步明確化的基礎(chǔ)上,我們就可以按照問題的具體要求來重新審視已經(jīng)采集的數(shù)據(jù),看它是否適合挖掘的需要。

針對(duì)挖掘目標(biāo)的需要可能需要對(duì)數(shù)據(jù)進(jìn)行增刪,也可能按照對(duì)整個(gè)數(shù)據(jù)挖掘過程的新認(rèn)識(shí),要組合或者新生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效的描述。在挖掘目標(biāo)進(jìn)一步明確,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進(jìn)一步調(diào)整的基礎(chǔ)上,下一步數(shù)據(jù)挖掘應(yīng)采用的技術(shù)手段就更加清晰、明確了。

模型構(gòu)建

模型構(gòu)建是反映的是采樣數(shù)據(jù)內(nèi)部結(jié)構(gòu)的一般特征,并與該采樣數(shù)據(jù)的具體結(jié)構(gòu)基本吻合。對(duì)于預(yù)測模型(包括分類與回歸模型、時(shí)序預(yù)測模型)來說,模型的具體化就是預(yù)測公式,公式可以產(chǎn)生與觀察值有類似結(jié)構(gòu)的輸出,這就是預(yù)測值。預(yù)測模型是多種多樣的,可以適用于不同結(jié)構(gòu)的樣本數(shù)據(jù)。正確選擇預(yù)測模型是數(shù)據(jù)挖掘很關(guān)鍵的一步,有時(shí)由于模型選擇不當(dāng),造成預(yù)測誤差過大,就需要改換模型。必要時(shí),可同時(shí)采用幾種預(yù)測模型進(jìn)行運(yùn)算以便對(duì)比、選擇。對(duì)建立模型來說,要記住最重要的就是它是一個(gè)反復(fù)的過程,需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)解決問題最有效。

預(yù)測模型的構(gòu)建通常包括模型建立、模型訓(xùn)練、模型驗(yàn)證和模型預(yù)測 4個(gè)步驟,但根據(jù)不同的數(shù)據(jù)挖掘分類應(yīng)用會(huì)有細(xì)微的變化。

模型評(píng)價(jià)

評(píng)價(jià)的目的之一就是從這些模型中自動(dòng)找出一個(gè)最好的模型來,另外就是要針對(duì)業(yè)務(wù)對(duì)模型進(jìn)行解釋和應(yīng)用。預(yù)測模型評(píng)價(jià)和聚類模型的評(píng)價(jià)方法是不同的。

預(yù)測模型對(duì)訓(xùn)練集進(jìn)行預(yù)測而得出的準(zhǔn)確率并不能很好地反映分類模型未來的性能,為了能預(yù)測分類模型在新數(shù)據(jù)上的性能表現(xiàn),需要一組沒有參與分類模型建立的數(shù)據(jù)集,并在該數(shù)據(jù)集上評(píng)價(jià)分類器的準(zhǔn)確率,這組獨(dú)立的數(shù)據(jù)集就是測試集。這是一種基于驗(yàn)證的評(píng)估方法,常用的方法有保持法、隨機(jī)二次抽樣、自助法、交叉驗(yàn)證等。

聚類分群效果可以用向量數(shù)據(jù)之間的相似度來衡量,向量數(shù)據(jù)之間的相似度定義為兩個(gè)向量之間的距離(實(shí)時(shí)向量數(shù)據(jù)與聚類中心向量數(shù)據(jù)),距離越近則相似度越大,即該實(shí)時(shí)向量數(shù)據(jù)歸為某個(gè)聚類

2.3.常用建模技術(shù)簡介

分類

分類指將數(shù)據(jù)映射到預(yù)先定義好的類標(biāo)簽上。因?yàn)樵诜治鰷y試數(shù)據(jù)之前,類別就已經(jīng)確定了,所以分類通常被稱為有監(jiān)督的學(xué)習(xí)。分類就是構(gòu)造一個(gè)分類函數(shù)(分類模型),把具有某些特征的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別上。

步驟分為兩步:1)模型創(chuàng)建:通過對(duì)訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)來建立分類模型。2)模型使用:使用分類模型對(duì)測試數(shù)據(jù)和新的數(shù)據(jù)進(jìn)行分類。其中訓(xùn)練數(shù)據(jù)集是帶有類標(biāo)號(hào)的,也就是說在分類之前,要?jiǎng)澐值念悇e已經(jīng)確定。常用分類算法有:決策樹(如 CART、ID3、ASSISTANT、C4.5),KNN 算法(K- 近鄰),NB算法(樸素貝葉斯),SVM支持向量機(jī)),神經(jīng)網(wǎng)絡(luò)等。

回歸

回歸:用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢?;貧w首先假設(shè)一些已知類型的函數(shù)(例如線性函數(shù)、Logistic函數(shù)等)可以擬合目標(biāo)數(shù)據(jù),然后利用某種誤差分析確定一個(gè)與目標(biāo)數(shù)據(jù)擬合程度最好的函數(shù)。

回歸模式的函數(shù)定義與分類模式相似,主要差別在于分類模式采用離散預(yù)測值(例如類標(biāo)號(hào)),而回歸模式采用連續(xù)的預(yù)測值。在這種觀點(diǎn)下,分類和回歸都是預(yù)測問題,但數(shù)據(jù)挖掘業(yè)界普遍認(rèn)為:用預(yù)測法預(yù)測分類標(biāo)號(hào)為分類,預(yù)測連續(xù)值為預(yù)測。許多問題可以用線性回歸解決,許多非線性問題可以通過對(duì)變量進(jìn)行變化,從而轉(zhuǎn)換為線性問題來解決。常用算法有:邏輯回歸,多元線性回歸模型等。

聚類

聚類分析:是在沒有給定分類的情況下,根據(jù)信息相似度進(jìn)行信息聚類的一種方法,因此聚類又稱為無指導(dǎo)的學(xué)習(xí)。

與分類不同,分類需要先定義類別和訓(xùn)練樣本,是有指導(dǎo)的學(xué)習(xí)。聚類就是將數(shù)據(jù)劃分或分割成相交或者不相交的群組的過程,通過確定數(shù)據(jù)之間在預(yù)先指定的屬性上的相似性,就可以完成聚類任務(wù)。

聚類的輸入是一組未被標(biāo)記的數(shù)據(jù),根據(jù)數(shù)據(jù)自身的距離或相似度進(jìn)行劃分。劃分的原則是保持最大的組內(nèi)相似性和最小的組間相似性,也就是使不同簇中的數(shù)據(jù)盡可能地不同,而同一類聚類中的數(shù)據(jù)盡可能相似。比如根據(jù)股票價(jià)格的波動(dòng)情況,可以將股票分成不同的類,總共可以分成幾類,各類包含哪些股票,每一類的特征是什么,這對(duì)投資者,尤其是基金的人來說,可能是很重要的信息。當(dāng)然,聚類除了將樣本分類外,還可以完成孤立點(diǎn)挖掘,如將其應(yīng)用于網(wǎng)絡(luò)入侵檢測或金融風(fēng)險(xiǎn)欺詐探測中。常用算法有:k-means,CURE,BIRCH,DBSCAN,OPTICS,DENCLUE等。

關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則:揭示數(shù)據(jù)之間的相互關(guān)系,而這種關(guān)系沒有在數(shù)據(jù)中直接表示出來。關(guān)聯(lián)分析的主要任務(wù)就是發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則或稱相關(guān)程度。

關(guān)聯(lián)規(guī)則的一般形式是:

如果A發(fā)生,則  B有百分之 C的可能性發(fā)生。C稱為關(guān)聯(lián)規(guī)則的置信度。利用關(guān)聯(lián)分析能尋找數(shù)據(jù)庫中大量數(shù)據(jù)的相互關(guān)系。常用算法有:Apriori  算法,FP-Growth等。

時(shí)序模式

時(shí)序模式:描述基于時(shí)間或其他序列的經(jīng)常發(fā)生的規(guī)律或趨勢,并對(duì)其建模。

與回歸一樣,它也用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。序列模式將關(guān)聯(lián)模式和時(shí)間序列模式結(jié)合起來,重點(diǎn)考慮數(shù)據(jù)之間在時(shí)間維度上的關(guān)聯(lián)性。時(shí)序模式包含時(shí)間序列分析和序列發(fā)現(xiàn)。

離群點(diǎn)檢測

離群點(diǎn):是對(duì)差異和極端特例的描述,如分類中的反常實(shí)例、聚類外的離群值、不滿足規(guī)則的特例等。

離群點(diǎn)檢測:用來發(fā)現(xiàn)與正常情況不同的異常和變化,并進(jìn)一步分析這種變化有意的詐騙行為,還是正常的變化。大部分數(shù)據(jù)挖掘方法都將這種差異信息視為噪聲而丟棄,然后一些應(yīng)用中,罕見的數(shù)據(jù)可能比正常的數(shù)據(jù)更有用。

3.證券數(shù)據(jù)挖掘方法論

3.1.證券數(shù)據(jù)特點(diǎn)

與其他領(lǐng)域的數(shù)據(jù)相比較,證券數(shù)據(jù)具很多特點(diǎn)。(1)證券數(shù)據(jù)具有多樣性,作為社會(huì)經(jīng)濟(jì)系統(tǒng)的一部分,證券系統(tǒng)的數(shù)據(jù)不僅受到客戶數(shù)據(jù)、交易數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)等的影響,而且受到網(wǎng)絡(luò)信息、心理行為信息的強(qiáng)烈影響,甚至一些主觀數(shù)據(jù)的變化也會(huì)導(dǎo)致證券市場的劇烈波動(dòng)。(2)證券數(shù)據(jù)的關(guān)系復(fù)雜,證券市場是一個(gè)復(fù)雜系統(tǒng),數(shù)據(jù)之間的關(guān)系有時(shí)很難用一個(gè)簡單的數(shù)學(xué)公式或者線性函數(shù)來表示,呈現(xiàn)出高度的復(fù)雜性和非線性性。(3)證券數(shù)據(jù)具有動(dòng)態(tài)性,證券市場隨著時(shí)間的推移會(huì)發(fā)生劇烈變化,但仍受前期市場的影響,呈現(xiàn)出動(dòng)態(tài)特征。

為了更好地研究證券市場,需要利用這些物理數(shù)據(jù)、網(wǎng)絡(luò)信息及心理行為信息,這些信息是不斷變化的,便形成一個(gè)巨大的數(shù)據(jù)倉庫。證券數(shù)據(jù)的高度復(fù)雜性,使得一般的數(shù)據(jù)建模方法在進(jìn)行金融數(shù)據(jù)建模時(shí)失效,而數(shù)據(jù)挖掘方法具有靈活性、自適應(yīng)性及非線性等特征,在處理證券數(shù)據(jù)時(shí)可以達(dá)到較好的應(yīng)用效果。

證券行業(yè)的數(shù)據(jù)倉庫是由證券交易過程中的基礎(chǔ)數(shù)據(jù)(主要是數(shù)據(jù)庫數(shù)據(jù))組成的。證券業(yè)基礎(chǔ)數(shù)據(jù)主要包括四部分:

業(yè)務(wù)數(shù)據(jù)

包括結(jié)算數(shù)據(jù)、過戶數(shù)據(jù)、交易系統(tǒng)數(shù)據(jù)。結(jié)算數(shù)據(jù)是由深圳和上海證券登記公司以交易席位為單位發(fā)布的證券公司當(dāng)日資金、股份交收明細(xì)以及分紅、送股、配股等數(shù)據(jù)。過戶數(shù)據(jù)是由深圳和上海證券交易所以交易席位為單位發(fā)布的證券公司當(dāng)日投資者買賣證券的過戶明細(xì)數(shù)據(jù)。結(jié)算數(shù)據(jù)和過戶數(shù)據(jù)由證券交易所通過地面和衛(wèi)星網(wǎng)絡(luò)系統(tǒng)發(fā)送到證券公司。交易系統(tǒng)數(shù)據(jù)是證券公司最重要和最實(shí)時(shí)的數(shù)據(jù)。它由交易系統(tǒng)在實(shí)時(shí)交易中產(chǎn)生,是進(jìn)行數(shù)據(jù)挖掘、客戶分析、構(gòu)建CRM系統(tǒng)的主要基礎(chǔ)數(shù)據(jù)。

行情數(shù)據(jù)

行情數(shù)據(jù)是由深圳、上海證券交易所在開市期間發(fā)布的證券實(shí)時(shí)交易的成交撮合數(shù)據(jù),是進(jìn)行股市行情分析的關(guān)鍵數(shù)據(jù)。

證券文本數(shù)據(jù)

狹義的證券文本數(shù)據(jù)是指由證券交易所通過證券衛(wèi)星發(fā)送的證券領(lǐng)域有關(guān)政策和各股資訊等實(shí)時(shí)信息。廣義的證券文本數(shù)據(jù)是指由各種傳媒方式發(fā)布的與證券相關(guān)的信息,主要包括衛(wèi)星、電視、廣播、英特網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、書刊雜志等傳媒方式,其中,英特網(wǎng)和移動(dòng)互聯(lián)網(wǎng)是涵蓋信息量最多的傳媒方式。

用戶和客戶行為數(shù)據(jù)

移動(dòng)互聯(lián)網(wǎng)及互聯(lián)網(wǎng)金融的發(fā)展,使得證券服務(wù)的外延得到了很大的擴(kuò)展,不但證券公司開戶的用戶能使用證券公司的服務(wù),不在證券公司開戶的用戶也能通過多種形式如證券軟件、證券互聯(lián)網(wǎng)、證券移動(dòng)應(yīng)用等獲取證券公司提供的部分產(chǎn)品服務(wù)。用戶和客戶在使用這些軟件產(chǎn)品的過程中,會(huì)產(chǎn)生很多的行為數(shù)據(jù),如瀏覽路徑、瀏覽興趣、停留時(shí)間等。

3.2.證券數(shù)據(jù)挖掘方向探索

根據(jù)證券業(yè)務(wù)與數(shù)據(jù)特點(diǎn),可以實(shí)施的挖掘方向有:客戶分析、客戶管理、證券營銷、財(cái)務(wù)指標(biāo)分析、交易數(shù)據(jù)分析、風(fēng)險(xiǎn)分析、投資組合分析、用戶行為分析等。下面簡要介紹各個(gè)方向的思路。

客戶分析及營銷

通過數(shù)據(jù)進(jìn)行挖掘和聚類分析,可以清晰發(fā)現(xiàn)不同類型客戶的特征,挖掘不同類型客戶的特點(diǎn),提供不同的服務(wù)和產(chǎn)品。反過來,如果我們知道了客戶的特征與偏好,有針對(duì)性地設(shè)計(jì)新的產(chǎn)品和服務(wù),勢必能獲得更好的推廣效果。

通過對(duì)客戶資源信息進(jìn)行多角度挖掘,了解客戶各項(xiàng)指標(biāo),掌握客戶投訴、客戶流失等信息,從而在客戶離開券商之前,捕獲信息,及時(shí)采取措施挽留客戶。

通過對(duì)客戶交易行為的分析與挖掘,了解用戶的交易行為、方式、風(fēng)險(xiǎn)偏好,從而提升交叉營銷的成功率,同時(shí)結(jié)合挖掘結(jié)果,給客戶提供更加貼心的服務(wù),提升客戶忠誠度

用戶行為分析

通過對(duì)證券軟件、證券互聯(lián)網(wǎng)、證券移動(dòng)終端開放用戶使用行為的分析和挖掘,了解到用戶的興趣點(diǎn)、訪問規(guī)律,為用戶轉(zhuǎn)化為客戶提供目標(biāo)人群,提高用戶轉(zhuǎn)客戶的成功率,同時(shí),利用訪問模型,改進(jìn)軟件和網(wǎng)站的布局,提升軟件和網(wǎng)站的人性化設(shè)計(jì)。

市場預(yù)測

對(duì)股票從基本面、消息面、技術(shù)指標(biāo)等數(shù)據(jù)進(jìn)行聚類分析,從而將股票劃分不同的群體,預(yù)測板塊輪動(dòng)或是未來走勢。

根據(jù)采集行情和交易數(shù)據(jù),結(jié)合行情分析,預(yù)測未來大盤走勢,并發(fā)現(xiàn)交易情況隨著大盤變化的規(guī)律,并根據(jù)這些規(guī)律做出趨勢分析,對(duì)客戶針對(duì)性進(jìn)行咨詢。

投資組合

利用數(shù)據(jù)挖掘技術(shù)不僅可以更好地刻畫預(yù)期的不確定性,改進(jìn)已有的投資組合模型,使之更加符合現(xiàn)實(shí)需求,同時(shí)可以為投資組合模型的求解提供更為精確的手段,從而為投資者提供更為精準(zhǔn)的知識(shí)。

風(fēng)險(xiǎn)防范

通過對(duì)資金數(shù)據(jù)的分析,可以控制營業(yè)風(fēng)險(xiǎn),同時(shí)可以改變公司總部原來的資金控制模式,并通過橫向比較及時(shí)了解資金情況,起到風(fēng)險(xiǎn)預(yù)警的作用。

經(jīng)營狀況分析

通過數(shù)據(jù)挖掘,可以及時(shí)了解營業(yè)狀況、資金情況、利潤情況、客戶群分布等重要的信息。并結(jié)合大盤走勢,提供不同行情條件下的最大收益經(jīng)營方式。同時(shí),通過對(duì)各營業(yè)部經(jīng)營情況的橫向比較,以及對(duì)本營業(yè)部歷史數(shù)據(jù)的縱向比較,對(duì)營業(yè)部的經(jīng)營狀況作出分析,提出經(jīng)營建議。

3.3.華泰證券數(shù)據(jù)挖掘實(shí)施業(yè)務(wù)流程

華泰證券數(shù)據(jù)挖掘實(shí)施業(yè)務(wù)流程包括:

  1. 項(xiàng)目背景和業(yè)務(wù)分析需求提出
    針對(duì)需求收集相關(guān)的背景數(shù)據(jù)和指標(biāo),與業(yè)務(wù)方一起熟悉背景中的相關(guān)業(yè)務(wù)邏輯,并收集業(yè)務(wù)方對(duì)需求的相關(guān)建議、看法,這些信息對(duì)于需求的確認(rèn)和思路的規(guī)劃乃至后期的分析都是至關(guān)重要的。從數(shù)據(jù)分析的專業(yè)角度評(píng)價(jià)初步的業(yè)務(wù)分析需求是否合理,是否可行。

  2. 指定需求分析框架和分析計(jì)劃
    針對(duì)前面對(duì)業(yè)務(wù)的初步了解和需求背景的分析,指定初步的分析框架和分析計(jì)劃。分析框架的主要內(nèi)容如下:分析需求轉(zhuǎn)化成數(shù)據(jù)分析項(xiàng)目中目標(biāo)變量的定義,分析思路的大致描述,分析樣本的數(shù)據(jù)抽取規(guī)則,根據(jù)目標(biāo)變量的定義,選擇一個(gè)適當(dāng)?shù)臅r(shí)間窗口,然后抽取一定的樣本數(shù)據(jù),潛在分析變量(模型輸入變量)的大致圈定和羅列,分析過程中的項(xiàng)目風(fēng)險(xiǎn)思考和主要應(yīng)對(duì)策略,項(xiàng)目落地應(yīng)用價(jià)值分析和展望。

  3. 抽取樣本數(shù)據(jù)、熟悉數(shù)據(jù)、數(shù)據(jù)預(yù)處理
    根據(jù)前期討論的分析思路和建模思路,以及初步圈定的分析字段(分析變量)編寫代碼,從數(shù)據(jù)倉庫中提取分析、建模所需的樣本數(shù)據(jù);通過對(duì)樣本數(shù)據(jù)的熟悉和摸底,找到無效數(shù)據(jù)、臟數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等,并且對(duì)樣本數(shù)據(jù)中存在的這些明顯的數(shù)據(jù)質(zhì)量問題進(jìn)行清洗、剔除、轉(zhuǎn)換,同時(shí)視具體的業(yè)務(wù)場景和項(xiàng)目需求,決定是否產(chǎn)生衍生變量,以及怎樣衍生等。

  4. 按計(jì)劃初步搭建挖掘模型
    對(duì)數(shù)據(jù)進(jìn)行初步的摸底和清洗之后,就進(jìn)入初步搭建挖掘模型階段了。在該階段,包括如下3個(gè)主要的工作內(nèi)容:進(jìn)一步篩選模型的輸入變量;嘗試不同的挖掘算法和分析方法,并比較不同方案的效果、效率和穩(wěn)定性;整理經(jīng)過模型挑選出來的與目標(biāo)變量的預(yù)測最相關(guān)的一系列核心輸入變量,將其作為與業(yè)務(wù)方討論落地應(yīng)用的參考和建議。

  5. 討論模型的初步結(jié)論,提出新的思路和模型優(yōu)化方案
    整理模型的初步報(bào)告、結(jié)論,以及對(duì)主要預(yù)測字段進(jìn)行提煉,還要通過與業(yè)務(wù)溝通和分享,在此基礎(chǔ)上討論出模型的可能優(yōu)化方向,并對(duì)落地應(yīng)用的方案進(jìn)行討論,同時(shí)羅列出注意事項(xiàng)。

  6. 按優(yōu)化方案重新抽取樣本并建模,提煉結(jié)論并驗(yàn)證模型
    在優(yōu)化方案確定的的基礎(chǔ)上,重新抽取樣本,一方面驗(yàn)證之前優(yōu)化方向的猜想;另一方面嘗試搭建新的模型提升效果。模型建好后,還不能馬上提交給業(yè)務(wù)方進(jìn)行落地應(yīng)用,還必須用最新的實(shí)際數(shù)據(jù)來驗(yàn)證模型的穩(wěn)定性。如果通過相關(guān)驗(yàn)證得知模型的穩(wěn)定性非常好,那無論對(duì)模型的效果還是項(xiàng)目應(yīng)用的前景,就都有比較充足的底氣了。

  7. 完成分析報(bào)告和落地應(yīng)用建議
    在上述模型優(yōu)化和驗(yàn)證的基礎(chǔ)上,提交給業(yè)務(wù)方一份詳細(xì)完整的項(xiàng)目結(jié)論和應(yīng)用建議,包括以下內(nèi)容:

    • 模型的預(yù)測效果和效率,以及在最新的實(shí)際數(shù)據(jù)中驗(yàn)證模型的結(jié)果,即模型的穩(wěn)定性。

    • 通過模型整理出來的可用作為運(yùn)營參考的重要自變量及相應(yīng)的特征、規(guī)律。

    • 數(shù)據(jù)分析師根據(jù)模型效果和效率提出的落地應(yīng)用的分層建議,以及相應(yīng)的運(yùn)營建議,其包括:預(yù)測模型打分應(yīng)用基礎(chǔ)上進(jìn)一步的客戶特征分層、相應(yīng)細(xì)分群體運(yùn)營通道的選擇、運(yùn)營文案的主題或噱頭、運(yùn)營引導(dǎo)的方向和目的、對(duì)照組與運(yùn)營組的設(shè)置、效果監(jiān)控的方案等。

  8. 制定具體的落地應(yīng)用方案和評(píng)估方案
    與業(yè)務(wù)方討論,確定最終的運(yùn)營方案及評(píng)估方案。

  9. 業(yè)務(wù)方實(shí)施落地應(yīng)用方案并跟蹤、評(píng)估效果
    按照上述的運(yùn)營和監(jiān)控方案對(duì)運(yùn)營組和對(duì)照組進(jìn)行分層的精細(xì)化運(yùn)營,取一段時(shí)間如一周的運(yùn)營結(jié)論,主要從兩個(gè)方面來衡量:預(yù)測模型的穩(wěn)定性評(píng)測;運(yùn)營效果。

  10. 落地應(yīng)用方案在實(shí)際效果評(píng)估后,不斷修正完善
    通過對(duì)第一次運(yùn)營效果的評(píng)估和反思,從正反兩個(gè)方面進(jìn)行總結(jié),如果模型穩(wěn)定性好,有較好的預(yù)測效果,則可以放心使用模型,優(yōu)化運(yùn)營方案。

  11. 不同運(yùn)營方案的評(píng)估、總結(jié)和反饋
    根據(jù)實(shí)際情況,指定多種運(yùn)營方案,監(jiān)控不同運(yùn)營方案的執(zhí)行情況及效果。

4.華泰證券數(shù)據(jù)挖掘實(shí)踐

華泰證券一直重視數(shù)據(jù)資產(chǎn)的價(jià)值發(fā)現(xiàn),在數(shù)據(jù)分析與挖掘方面也做了很多的技術(shù)儲(chǔ)備和實(shí)踐。在對(duì)華泰證券某集合理財(cái)產(chǎn)品的銷售數(shù)據(jù)分析中,我們通過數(shù)學(xué)方法結(jié)合數(shù)據(jù)挖掘軟件建立了預(yù)測模型,驗(yàn)證了模型的有效性,并且通過模型獲得了很好的預(yù)期提升效果。主要步驟如下:

  1. 數(shù)據(jù)準(zhǔn)備
    首先,確定合適的觀察期。在從數(shù)據(jù)中心提取觀察期內(nèi)的原始數(shù)據(jù)后,進(jìn)行數(shù)據(jù)預(yù)處理,例如:剔除資產(chǎn)過小的客戶、剔除長時(shí)間無主動(dòng)交易的客戶、剔除機(jī)構(gòu)客戶等,得到規(guī)模為五十多萬條記錄的初始數(shù)據(jù)集。

  2. 變量分析與數(shù)據(jù)抽樣
    由于初始數(shù)據(jù)集是一個(gè)包含較多屬性的寬表,為了選取主要變量、舍棄無關(guān)變量、減少變量數(shù)目,以利于實(shí)施數(shù)據(jù)挖掘算法。我們進(jìn)行了以下的變量分析處理:

    • 對(duì)屬性定義一個(gè)被稱為信息值(Information Value)的變量,計(jì)算每個(gè)屬性的信息值。該值越大,表示對(duì)結(jié)果的影響越大,該變量越重要;該值越小,則認(rèn)為可舍棄該變量。

    • 為應(yīng)用Logistic分析,將上述步驟中的連續(xù)性變量進(jìn)行分段,再一次計(jì)算 IV值并舍棄區(qū)分度不高的變量。

    • 利用Stepwise Logistic方法結(jié)合默認(rèn)的概率值確定入選變量和剔除變量。

    • 對(duì)變量進(jìn)行主成分分析,進(jìn)一步挑選較少個(gè)數(shù)的重要變量。

    • 在確定入選變量后,將數(shù)據(jù)集按比例分為建模數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集,并對(duì)建模數(shù)據(jù)集進(jìn)行過抽樣,以減少建模記錄數(shù)并提高事件率,驗(yàn)證數(shù)據(jù)集則用于對(duì)將要生成的模型進(jìn)行驗(yàn)證。

  3. 建立模型
    針對(duì)上述建模數(shù)據(jù)集,采用 Logistic回歸建模,將結(jié)果輸出至結(jié)果集。

  4. 模型驗(yàn)證與結(jié)果展示
    對(duì)驗(yàn)證集進(jìn)行單因子非參數(shù)方差分析,即npar1way過程,得到Kolmogorov-Smirnov檢驗(yàn)值0.619,大于 0.05,則可認(rèn)為驗(yàn)證集服從建模集的數(shù)據(jù)分布,即由建模集生成的模型是有效的。結(jié)果展示有多種方法,此處選取畫ROC曲線圖,來直觀體現(xiàn)數(shù)據(jù)挖掘的效果,如圖2所示:

圖2 分類模型ROC曲線

圖中的綠色對(duì)角線可理解為自然狀態(tài)、即不進(jìn)行任何數(shù)據(jù)挖掘預(yù)測情況下的結(jié)果;而黃色曲線是預(yù)測后的結(jié)果,曲線與橫軸所圍成的面積,即AUC值(Area Under the  Curve曲線下面積 ),越大,則說明預(yù)測效果越好??梢姡覀兊哪P途哂蟹浅:玫念A(yù)測效果。

5.結(jié)束語

隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的發(fā)展,證券行業(yè)信息化的應(yīng)用環(huán)境正在發(fā)生著深刻的變化,外部數(shù)據(jù)迅速擴(kuò)展,企業(yè)應(yīng)用和互聯(lián)網(wǎng)應(yīng)用的融合越來越快?;ヂ?lián)網(wǎng)金融給證券行業(yè)帶來的傳統(tǒng)價(jià)值創(chuàng)造和價(jià)值實(shí)現(xiàn)方式的根本性轉(zhuǎn)變,讓數(shù)據(jù)分析和挖掘逐步走向證券業(yè)務(wù)發(fā)展和創(chuàng)新的前臺(tái)。本文在簡要介紹數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,探討了證券數(shù)據(jù)挖掘的方法論和挖掘方向,并結(jié)合華泰證券的數(shù)據(jù)挖掘實(shí)踐證明,數(shù)據(jù)分析和挖掘確能給企業(yè)的業(yè)務(wù)發(fā)展提供有益的幫助。相信隨著金融互聯(lián)網(wǎng)的多樣化,證券行業(yè)內(nèi)外數(shù)據(jù)的不斷完備,數(shù)據(jù)分析和挖掘?qū)⒃谧C券行業(yè)的運(yùn)用越來越廣泛,并成為證券公司數(shù)據(jù)化運(yùn)營的一部分。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }