
R 語言數(shù)據(jù)分析師養(yǎng)成計劃——從零開始的 14 個任務
1992年,肉絲(Ross Ihaka)和蘿卜特(Robert Gentleman)兩個人在S語言(貝爾實驗室開發(fā)的一種統(tǒng)計用編程語言)的基礎(chǔ)上開始構(gòu)思一種新的用于統(tǒng)計學分析的開源語言,直到1995年第一個版本正式發(fā)布(和各位年齡相仿)。因為他們名字的第一個字母都是R,所以這門語言就被叫做R。這兩個人都是統(tǒng)計學教授出身,再加上R語言的生父S語言,所以R語言在統(tǒng)計學方面有著純正的血統(tǒng)!
如果你平時的工作會涉及到統(tǒng)計學,那么接觸R語言實在是太正常不過了。因為R語言本身為統(tǒng)計而生,所以你能想到的所有統(tǒng)計相關(guān)的工作,R都可以非常簡潔的用幾行命令(甚至1行命令)幫你完成。
在R官網(wǎng)有這樣幾句介紹:“R provides a wide variety of statistical (linear andnonlinear modelling, classical statistical tests, time-series analysis,classification, clustering, …) and graphical techniques, and is highlyextensible. One of R's strengths is the ease with whichwell-designed publication-quality plots can be produced, including mathematicalsymbols and formulae where needed.”
* R高度的可擴展性正是體現(xiàn)在它那1萬多個包上,你想做的幾乎所有事情都可以用現(xiàn)有的R包來輔助完成(當然,有些工作即便能完成但也不適合)。
* R另一個殺手锏就是其強大的繪圖功能,正如上面的英文介紹所言,R可以畫圖,畫各種各樣的圖,畫各種各樣高逼格的圖,畫各種各樣高逼格可以直接出版的圖。
* 完善的統(tǒng)計學功能再加上強大的繪圖功能,就是你學習的最大理由。
C君推薦:扎扎實實的養(yǎng)成R語言數(shù)據(jù)分析師!R語言數(shù)據(jù)分析師養(yǎng)成計劃——從零開始的14個任務本課程主要是面向小白人士,課程將回答為什么要學習數(shù)據(jù)分析?如何學習數(shù)據(jù)分析?并且從R語言安裝、數(shù)據(jù)結(jié)構(gòu)探索、R基本語句以及數(shù)據(jù)可視化、決策樹等內(nèi)容重點剖析14個任務的操作,并在課后有相應作業(yè)的布置、修改,使零基礎(chǔ)的學員完全掌握R語言,完成數(shù)據(jù)分析師計劃的學習。
大 綱
引言——關(guān)于數(shù)據(jù)分析學習的3個問題
(1)為什么要學習數(shù)據(jù)分析
(2)如何學習數(shù)據(jù)分析
(3)如何理解我們的課程大綱
任務1 走進R語言與Rstudio
任務1是整個課程的開篇,主要介紹R的下載與安裝、R包的管理,幫助學員快速掌握編程界面。
任務2 R的數(shù)據(jù)結(jié)構(gòu)探析
任務2中,我們主要學習向量、矩陣、列表、數(shù)據(jù)框、因子等數(shù)據(jù)類型,學習數(shù)據(jù)類型的相互轉(zhuǎn)換。
任務3 熟悉R的基本語句
任務3中,循環(huán)、條件、自定義函數(shù)是我們的主要學習內(nèi)容,這里我們會用到while, for, if, function等命令,這些命令將讓我們處理數(shù)據(jù)變得游刃有余。
任務4 數(shù)據(jù)可視化——R的基本作圖
可視化是數(shù)據(jù)分析的核心之一,畢竟大多數(shù)人沒有數(shù)據(jù)分析基礎(chǔ),也很難從海量數(shù)據(jù)中直接提煉信息,這時我們就需要運用散點圖、直方圖、餅圖等可視化工具來幫助我們發(fā)現(xiàn)數(shù)據(jù)規(guī)律,展示模型結(jié)果。
任務5 數(shù)據(jù)可視化——R的可視化進階
地理信息可視化,簡單的說就是在地圖上做數(shù)據(jù)展示,我們將用Remap等功能包,讓你的可視化效果變得十分酷炫。
任務6 多元線性回歸——上市企業(yè)盈率的影響因素分析
多元線性回歸是所有數(shù)據(jù)分析模型的入門級模型,它能有效的幫助我們對進行影響因素分析,客戶價值評估等工作。這一任務中,我們將用盡可能通俗的語言來闡述原理,并以案例的方式進行模型實踐。
案例摘要:市盈率往往是評價上市企業(yè)的重要指標,但市盈率=每股市價/每股收益,股價在很大程度上由投資者和市場決定,有投機的因素存在,時常偏離這支股票的內(nèi)在價值,對企業(yè)來說,通過改善每股收益來改善市盈率更為實際。因此,我們的案例將選擇把每股收益作為被解釋變量進行分析。
任務7 主成分分析——上市公司財務數(shù)據(jù)的主成分分析
主成分分析的作用有很多,其中最常用的就是降維、處理多重共線性、構(gòu)造指標排名。在這一任務中,我們將結(jié)合主成分的基本原理來闡述和實踐。
案例摘要:為了分析財務狀況是如何影響企業(yè)市盈率的變化,我們整理了128 家該板塊的公司財務報表,但由于財務數(shù)據(jù)眾多,而且存在多重共線性問題,所以我們運用主成分方法,將各種財務比率變量降維,再建立回歸模型進行研究。
任務8 聚類分析——基于能力指標的基金經(jīng)理人分類
物以類聚,人以群分。在互聯(lián)網(wǎng)2.0時代深耕細分市場是大多企業(yè)的共識。那么如何進行有效的分類才能在這一講中我們將講述聚類的基本方法,其中包括均值聚類和密度聚類。
案例摘要:我們對基金經(jīng)理人能力指標數(shù)據(jù)進行了整理,我們在案例中將對經(jīng)理人按照其能力指標進行分類,給投資者提供參考。
任務9 邏輯回歸——網(wǎng)貸平臺信用風險影響因素與識別
邏輯回歸是最常用的分類模型之一,它最大的優(yōu)勢在于不但能夠分類,而且等給出屬于哪個分類的概率,其影響因素可以分別進行單調(diào)性分析。
案例摘要:本案例以國內(nèi)85家P2P平臺為研究樣本(已屏蔽平臺名稱),從運營時間(月),平均年化收益率,注冊資金(萬元),平臺高管人數(shù),高管信息詳細比例等來評價影響P2P平臺出現(xiàn)問題的原因,并對平臺進行風險識別。
任務10 決策樹 —— 銀行貸款風險識別
決策樹是最為直觀的決策模型,在這一節(jié)中,我們將介紹信息熵,信息增益等概念來幫助大家快速理解決策樹。在案例方面,我們將介紹主流的CART和C5.0模型的應用。
案例摘要:貸款違約風險是銀行面對的主要風險之一,一筆正常的貸款,銀行的利潤是10%左右的利息,但是一筆違約的貸款,銀行則需要付出100%的本金。在我們的案例中,我們將給出如何應用決策樹來進行風險識別的解決方案。
支持向量機(SVM,Support vector machines)技術(shù)是以數(shù)學和統(tǒng)計這兩門學科為基礎(chǔ)支持的學習算法。在業(yè)務場景下,SVM通常被用來進行目標識別,樣本分類和回歸分析。在機器學習領(lǐng)域,“機”(machine)表示算法的意思。雖然同屬監(jiān)督學習算法,但與神經(jīng)網(wǎng)絡、決策樹不同,支持向量機有著明顯的數(shù)學運算和優(yōu)化技術(shù)的基因。
案例摘要:對于股票投資者,選股是基于自身對于市場情況判斷等人為因素來篩選市場中的優(yōu)質(zhì)股票,即在當下買入這些優(yōu)質(zhì)股持有一定的時間段中,也就是說在選擇時找出自己未來看漲的股票。用SVM來選股的核心在于設計樣本股票的指標,為了能夠綜合不同證券分析方法,本案例SVM模型的特征選擇會從各個角度選取股票樣本的輸入變量。
任務12 關(guān)聯(lián)分析——互聯(lián)網(wǎng)投資標的的智能推薦
關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。進入互聯(lián)網(wǎng)時代,關(guān)聯(lián)分析的應用已經(jīng)被各類平臺發(fā)揮得淋漓盡致,其主要應用場景包括:
網(wǎng)購商品的智能推薦。(互聯(lián)網(wǎng)零售)
電信產(chǎn)品的捆綁銷售。(電信運營商)
互聯(lián)網(wǎng)投資標的的智能推薦。(互聯(lián)網(wǎng)投資平臺)
音、視頻節(jié)目的智能推薦。(音、視頻平臺)
案例摘要:隨著互聯(lián)網(wǎng)金融的飛速發(fā)展,在互聯(lián)網(wǎng)金融平臺上尋找投資標的,進行資產(chǎn)投資,已經(jīng)成為了越來越多投資者的選擇。然而,在互聯(lián)網(wǎng)金融平臺上進行投資通常需要面對以下三方面特征(以P2P網(wǎng)貸為例):(1)一個標的(一筆借款)需要多個投資人(出借人)投標才能滿足;(2)投資人通常不具備專業(yè)知識;(3)互聯(lián)網(wǎng)金融市場的單個標的金額較小,通常一個標的(一筆借款)金額都被限定在1萬元-10萬元之間,而每個投資人都投資每個標的的一部分,那么投資人就需要完成多個的投標行為才能達成自己的投資需求。因此在互聯(lián)網(wǎng)金融平臺上,投資人的決策成本較高。
那么從平臺的角度,除了強化風險管理和提高信息透明度以外,還有那些工作可以吸引投資者,降低投資者決策成本,提高平臺效率呢?投資標的的智能推薦就是一個不錯的選擇,下面我們就基于關(guān)聯(lián)算法來介紹一個投資標的的智能推薦案例。
任務13 神經(jīng)網(wǎng)絡—— P2P網(wǎng)貸的逾期風險識別
神經(jīng)網(wǎng)絡是目前最為熱門的模型,它是通往深度學習的基石,這里我們將詳細介紹神經(jīng)網(wǎng)絡的基礎(chǔ)知識,為大家的進一步學習后期的深度學習打下堅實的基礎(chǔ)。
案例摘要:在互聯(lián)網(wǎng)金融蓬勃發(fā)展的環(huán)境下,P2P 網(wǎng)貸在我國迅速發(fā)展起來。P2P網(wǎng)貸是指通過借助專業(yè)網(wǎng)絡平臺幫助借貸雙方確立借貸關(guān)系并完成相關(guān)交易手續(xù)的網(wǎng)絡借貸,是一種將小額度的資金聚集起來借貸給有資金需求人群的商業(yè)模型。對P2P信用風險進行識別是一個十分有意義的研究主題,它能夠幫助P2P網(wǎng)貸投資者降低投資風險,也在一定程度上促進P2P行業(yè)的發(fā)展。本案例就將基于神經(jīng)網(wǎng)絡對P2P網(wǎng)貸中的信用風險進行識別。
任務14 樸素貝葉斯與文本分析—— 散戶投資者情緒識別
樸素貝葉斯分類方法是一種十分簡單的分類算法。之所以這個方法叫做樸素貝葉斯分類方法,是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)可以簡單的表述為:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。
案例摘要:投資者情緒識別是業(yè)界和學界共同關(guān)心的話題。我們認為,當投資者表現(xiàn)出樂觀(正面)情緒,這種情緒將轉(zhuǎn)化為做多行為,這有助于股票價格上漲;反之,當投資者表現(xiàn)出悲觀(負面)情緒,這種情緒將轉(zhuǎn)化為做空行為,這有助于股票價格下跌(相關(guān)的文獻對于這方面觀點仍有各自的表述)。在這個案例中,我們并不研究情緒與股價的關(guān)系,而是希望通過模型來識別論壇中的評論情緒類型。這項工作是后期各種基于情緒指標的交易策略的前提和基礎(chǔ)。
任務15 總結(jié)
(1)對所有學習的模型進行綜述
(2)對后期學習給出建議
掃碼回復“R語言”咨詢
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10