
R 語言數(shù)據(jù)分析師養(yǎng)成計(jì)劃——從零開始的 14 個(gè)任務(wù)
1992年,肉絲(Ross Ihaka)和蘿卜特(Robert Gentleman)兩個(gè)人在S語言(貝爾實(shí)驗(yàn)室開發(fā)的一種統(tǒng)計(jì)用編程語言)的基礎(chǔ)上開始構(gòu)思一種新的用于統(tǒng)計(jì)學(xué)分析的開源語言,直到1995年第一個(gè)版本正式發(fā)布(和各位年齡相仿)。因?yàn)樗麄兠值牡谝粋€(gè)字母都是R,所以這門語言就被叫做R。這兩個(gè)人都是統(tǒng)計(jì)學(xué)教授出身,再加上R語言的生父S語言,所以R語言在統(tǒng)計(jì)學(xué)方面有著純正的血統(tǒng)!
如果你平時(shí)的工作會(huì)涉及到統(tǒng)計(jì)學(xué),那么接觸R語言實(shí)在是太正常不過了。因?yàn)?a href='/map/r/' style='color:#000;font-size:inherit;'>R語言本身為統(tǒng)計(jì)而生,所以你能想到的所有統(tǒng)計(jì)相關(guān)的工作,R都可以非常簡潔的用幾行命令(甚至1行命令)幫你完成。
在R官網(wǎng)有這樣幾句介紹:“R provides a wide variety of statistical (linear andnonlinear modelling, classical statistical tests, time-series analysis,classification, clustering, …) and graphical techniques, and is highlyextensible. One of R's strengths is the ease with whichwell-designed publication-quality plots can be produced, including mathematicalsymbols and formulae where needed.”
* R高度的可擴(kuò)展性正是體現(xiàn)在它那1萬多個(gè)包上,你想做的幾乎所有事情都可以用現(xiàn)有的R包來輔助完成(當(dāng)然,有些工作即便能完成但也不適合)。
* R另一個(gè)殺手锏就是其強(qiáng)大的繪圖功能,正如上面的英文介紹所言,R可以畫圖,畫各種各樣的圖,畫各種各樣高逼格的圖,畫各種各樣高逼格可以直接出版的圖。
* 完善的統(tǒng)計(jì)學(xué)功能再加上強(qiáng)大的繪圖功能,就是你學(xué)習(xí)的最大理由。
C君推薦:扎扎實(shí)實(shí)的養(yǎng)成R語言數(shù)據(jù)分析師!R語言數(shù)據(jù)分析師養(yǎng)成計(jì)劃——從零開始的14個(gè)任務(wù)本課程主要是面向小白人士,課程將回答為什么要學(xué)習(xí)數(shù)據(jù)分析?如何學(xué)習(xí)數(shù)據(jù)分析?并且從R語言安裝、數(shù)據(jù)結(jié)構(gòu)探索、R基本語句以及數(shù)據(jù)可視化、決策樹等內(nèi)容重點(diǎn)剖析14個(gè)任務(wù)的操作,并在課后有相應(yīng)作業(yè)的布置、修改,使零基礎(chǔ)的學(xué)員完全掌握R語言,完成數(shù)據(jù)分析師計(jì)劃的學(xué)習(xí)。
大 綱
引言——關(guān)于數(shù)據(jù)分析學(xué)習(xí)的3個(gè)問題
(1)為什么要學(xué)習(xí)數(shù)據(jù)分析
(2)如何學(xué)習(xí)數(shù)據(jù)分析
(3)如何理解我們的課程大綱
任務(wù)1 走進(jìn)R語言與Rstudio
任務(wù)1是整個(gè)課程的開篇,主要介紹R的下載與安裝、R包的管理,幫助學(xué)員快速掌握編程界面。
任務(wù)2 R的數(shù)據(jù)結(jié)構(gòu)探析
任務(wù)2中,我們主要學(xué)習(xí)向量、矩陣、列表、數(shù)據(jù)框、因子等數(shù)據(jù)類型,學(xué)習(xí)數(shù)據(jù)類型的相互轉(zhuǎn)換。
任務(wù)3 熟悉R的基本語句
任務(wù)3中,循環(huán)、條件、自定義函數(shù)是我們的主要學(xué)習(xí)內(nèi)容,這里我們會(huì)用到while, for, if, function等命令,這些命令將讓我們處理數(shù)據(jù)變得游刃有余。
任務(wù)4 數(shù)據(jù)可視化——R的基本作圖
可視化是數(shù)據(jù)分析的核心之一,畢竟大多數(shù)人沒有數(shù)據(jù)分析基礎(chǔ),也很難從海量數(shù)據(jù)中直接提煉信息,這時(shí)我們就需要運(yùn)用散點(diǎn)圖、直方圖、餅圖等可視化工具來幫助我們發(fā)現(xiàn)數(shù)據(jù)規(guī)律,展示模型結(jié)果。
任務(wù)5 數(shù)據(jù)可視化——R的可視化進(jìn)階
地理信息可視化,簡單的說就是在地圖上做數(shù)據(jù)展示,我們將用Remap等功能包,讓你的可視化效果變得十分酷炫。
任務(wù)6 多元線性回歸——上市企業(yè)盈率的影響因素分析
多元線性回歸是所有數(shù)據(jù)分析模型的入門級(jí)模型,它能有效的幫助我們對(duì)進(jìn)行影響因素分析,客戶價(jià)值評(píng)估等工作。這一任務(wù)中,我們將用盡可能通俗的語言來闡述原理,并以案例的方式進(jìn)行模型實(shí)踐。
案例摘要:市盈率往往是評(píng)價(jià)上市企業(yè)的重要指標(biāo),但市盈率=每股市價(jià)/每股收益,股價(jià)在很大程度上由投資者和市場(chǎng)決定,有投機(jī)的因素存在,時(shí)常偏離這支股票的內(nèi)在價(jià)值,對(duì)企業(yè)來說,通過改善每股收益來改善市盈率更為實(shí)際。因此,我們的案例將選擇把每股收益作為被解釋變量進(jìn)行分析。
任務(wù)7 主成分分析——上市公司財(cái)務(wù)數(shù)據(jù)的主成分分析
主成分分析的作用有很多,其中最常用的就是降維、處理多重共線性、構(gòu)造指標(biāo)排名。在這一任務(wù)中,我們將結(jié)合主成分的基本原理來闡述和實(shí)踐。
案例摘要:為了分析財(cái)務(wù)狀況是如何影響企業(yè)市盈率的變化,我們整理了128 家該板塊的公司財(cái)務(wù)報(bào)表,但由于財(cái)務(wù)數(shù)據(jù)眾多,而且存在多重共線性問題,所以我們運(yùn)用主成分方法,將各種財(cái)務(wù)比率變量降維,再建立回歸模型進(jìn)行研究。
任務(wù)8 聚類分析——基于能力指標(biāo)的基金經(jīng)理人分類
物以類聚,人以群分。在互聯(lián)網(wǎng)2.0時(shí)代深耕細(xì)分市場(chǎng)是大多企業(yè)的共識(shí)。那么如何進(jìn)行有效的分類才能在這一講中我們將講述聚類的基本方法,其中包括均值聚類和密度聚類。
案例摘要:我們對(duì)基金經(jīng)理人能力指標(biāo)數(shù)據(jù)進(jìn)行了整理,我們?cè)诎咐袑?duì)經(jīng)理人按照其能力指標(biāo)進(jìn)行分類,給投資者提供參考。
任務(wù)9 邏輯回歸——網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)影響因素與識(shí)別
邏輯回歸是最常用的分類模型之一,它最大的優(yōu)勢(shì)在于不但能夠分類,而且等給出屬于哪個(gè)分類的概率,其影響因素可以分別進(jìn)行單調(diào)性分析。
案例摘要:本案例以國內(nèi)85家P2P平臺(tái)為研究樣本(已屏蔽平臺(tái)名稱),從運(yùn)營時(shí)間(月),平均年化收益率,注冊(cè)資金(萬元),平臺(tái)高管人數(shù),高管信息詳細(xì)比例等來評(píng)價(jià)影響P2P平臺(tái)出現(xiàn)問題的原因,并對(duì)平臺(tái)進(jìn)行風(fēng)險(xiǎn)識(shí)別。
任務(wù)10 決策樹 —— 銀行貸款風(fēng)險(xiǎn)識(shí)別
決策樹是最為直觀的決策模型,在這一節(jié)中,我們將介紹信息熵,信息增益等概念來幫助大家快速理解決策樹。在案例方面,我們將介紹主流的CART和C5.0模型的應(yīng)用。
案例摘要:貸款違約風(fēng)險(xiǎn)是銀行面對(duì)的主要風(fēng)險(xiǎn)之一,一筆正常的貸款,銀行的利潤是10%左右的利息,但是一筆違約的貸款,銀行則需要付出100%的本金。在我們的案例中,我們將給出如何應(yīng)用決策樹來進(jìn)行風(fēng)險(xiǎn)識(shí)別的解決方案。
任務(wù)11 支持向量機(jī)(SVM)——智能投顧方案設(shè)計(jì)
支持向量機(jī)(SVM,Support vector machines)技術(shù)是以數(shù)學(xué)和統(tǒng)計(jì)這兩門學(xué)科為基礎(chǔ)支持的學(xué)習(xí)算法。在業(yè)務(wù)場(chǎng)景下,SVM通常被用來進(jìn)行目標(biāo)識(shí)別,樣本分類和回歸分析。在機(jī)器學(xué)習(xí)領(lǐng)域,“機(jī)”(machine)表示算法的意思。雖然同屬監(jiān)督學(xué)習(xí)算法,但與神經(jīng)網(wǎng)絡(luò)、決策樹不同,支持向量機(jī)有著明顯的數(shù)學(xué)運(yùn)算和優(yōu)化技術(shù)的基因。
案例摘要:對(duì)于股票投資者,選股是基于自身對(duì)于市場(chǎng)情況判斷等人為因素來篩選市場(chǎng)中的優(yōu)質(zhì)股票,即在當(dāng)下買入這些優(yōu)質(zhì)股持有一定的時(shí)間段中,也就是說在選擇時(shí)找出自己未來看漲的股票。用SVM來選股的核心在于設(shè)計(jì)樣本股票的指標(biāo),為了能夠綜合不同證券分析方法,本案例SVM模型的特征選擇會(huì)從各個(gè)角度選取股票樣本的輸入變量。
任務(wù)12 關(guān)聯(lián)分析——互聯(lián)網(wǎng)投資標(biāo)的的智能推薦
關(guān)聯(lián)分析的一個(gè)典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分。進(jìn)入互聯(lián)網(wǎng)時(shí)代,關(guān)聯(lián)分析的應(yīng)用已經(jīng)被各類平臺(tái)發(fā)揮得淋漓盡致,其主要應(yīng)用場(chǎng)景包括:
網(wǎng)購商品的智能推薦。(互聯(lián)網(wǎng)零售)
電信產(chǎn)品的捆綁銷售。(電信運(yùn)營商)
互聯(lián)網(wǎng)投資標(biāo)的的智能推薦。(互聯(lián)網(wǎng)投資平臺(tái))
音、視頻節(jié)目的智能推薦。(音、視頻平臺(tái))
案例摘要:隨著互聯(lián)網(wǎng)金融的飛速發(fā)展,在互聯(lián)網(wǎng)金融平臺(tái)上尋找投資標(biāo)的,進(jìn)行資產(chǎn)投資,已經(jīng)成為了越來越多投資者的選擇。然而,在互聯(lián)網(wǎng)金融平臺(tái)上進(jìn)行投資通常需要面對(duì)以下三方面特征(以P2P網(wǎng)貸為例):(1)一個(gè)標(biāo)的(一筆借款)需要多個(gè)投資人(出借人)投標(biāo)才能滿足;(2)投資人通常不具備專業(yè)知識(shí);(3)互聯(lián)網(wǎng)金融市場(chǎng)的單個(gè)標(biāo)的金額較小,通常一個(gè)標(biāo)的(一筆借款)金額都被限定在1萬元-10萬元之間,而每個(gè)投資人都投資每個(gè)標(biāo)的的一部分,那么投資人就需要完成多個(gè)的投標(biāo)行為才能達(dá)成自己的投資需求。因此在互聯(lián)網(wǎng)金融平臺(tái)上,投資人的決策成本較高。
那么從平臺(tái)的角度,除了強(qiáng)化風(fēng)險(xiǎn)管理和提高信息透明度以外,還有那些工作可以吸引投資者,降低投資者決策成本,提高平臺(tái)效率呢?投資標(biāo)的的智能推薦就是一個(gè)不錯(cuò)的選擇,下面我們就基于關(guān)聯(lián)算法來介紹一個(gè)投資標(biāo)的的智能推薦案例。
任務(wù)13 神經(jīng)網(wǎng)絡(luò)—— P2P網(wǎng)貸的逾期風(fēng)險(xiǎn)識(shí)別
神經(jīng)網(wǎng)絡(luò)是目前最為熱門的模型,它是通往深度學(xué)習(xí)的基石,這里我們將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),為大家的進(jìn)一步學(xué)習(xí)后期的深度學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ)。
案例摘要:在互聯(lián)網(wǎng)金融蓬勃發(fā)展的環(huán)境下,P2P 網(wǎng)貸在我國迅速發(fā)展起來。P2P網(wǎng)貸是指通過借助專業(yè)網(wǎng)絡(luò)平臺(tái)幫助借貸雙方確立借貸關(guān)系并完成相關(guān)交易手續(xù)的網(wǎng)絡(luò)借貸,是一種將小額度的資金聚集起來借貸給有資金需求人群的商業(yè)模型。對(duì)P2P信用風(fēng)險(xiǎn)進(jìn)行識(shí)別是一個(gè)十分有意義的研究主題,它能夠幫助P2P網(wǎng)貸投資者降低投資風(fēng)險(xiǎn),也在一定程度上促進(jìn)P2P行業(yè)的發(fā)展。本案例就將基于神經(jīng)網(wǎng)絡(luò)對(duì)P2P網(wǎng)貸中的信用風(fēng)險(xiǎn)進(jìn)行識(shí)別。
任務(wù)14 樸素貝葉斯與文本分析—— 散戶投資者情緒識(shí)別
樸素貝葉斯分類方法是一種十分簡單的分類算法。之所以這個(gè)方法叫做樸素貝葉斯分類方法,是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)可以簡單的表述為:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。
案例摘要:投資者情緒識(shí)別是業(yè)界和學(xué)界共同關(guān)心的話題。我們認(rèn)為,當(dāng)投資者表現(xiàn)出樂觀(正面)情緒,這種情緒將轉(zhuǎn)化為做多行為,這有助于股票價(jià)格上漲;反之,當(dāng)投資者表現(xiàn)出悲觀(負(fù)面)情緒,這種情緒將轉(zhuǎn)化為做空行為,這有助于股票價(jià)格下跌(相關(guān)的文獻(xiàn)對(duì)于這方面觀點(diǎn)仍有各自的表述)。在這個(gè)案例中,我們并不研究情緒與股價(jià)的關(guān)系,而是希望通過模型來識(shí)別論壇中的評(píng)論情緒類型。這項(xiàng)工作是后期各種基于情緒指標(biāo)的交易策略的前提和基礎(chǔ)。
任務(wù)15 總結(jié)
(1)對(duì)所有學(xué)習(xí)的模型進(jìn)行綜述
(2)對(duì)后期學(xué)習(xí)給出建議
掃碼回復(fù)“R語言”咨詢
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03