
如何系統(tǒng)學(xué)習(xí)數(shù)據(jù)分析
很多學(xué)習(xí)數(shù)據(jù)分析的同學(xué)也都有這樣一種困惑‘為什么學(xué)了那么多工具,還是不會數(shù)據(jù)分析?’,原因無外乎兩個,一是只學(xué)到了碎片的知識,沒有建立知識之間的連接,無法形式自己的知識體系,二是缺乏實(shí)踐,導(dǎo)致無法形成‘知行合一’的工作技能。
知識超載和碎片化
當(dāng)代人都面臨兩個問題-信息超載和知識碎片化。
信息超載老話題不多說了,講幾個數(shù)據(jù):
全世界每天有4000本書出版,超過4億個字;
紐約時(shí)報(bào)一天的文字量等于牛頓同時(shí)代的人一生的閱讀量;
一個專業(yè)領(lǐng)域,每天大概有200個公眾號正在注冊,有近1000篇文字正在產(chǎn)生
過去雜家、博物家在現(xiàn)代社會已經(jīng)不可能存在,即使有,也干不過谷歌度娘。
結(jié)論1:知識的儲存能力,人類早就被電腦完勝了,知識的搜索和鏈接能力,才是學(xué)習(xí)的核心競爭力。
另一個趨勢也很明顯:知識碎片化。這個碎片化從3個方面開始
首先時(shí)間和空間被打碎,移動手機(jī)允許你在三站地鐵里聽完一本書;
其次被打碎的是信息,如果你翻知乎、今日頭條或者某個博客,你并不會像看一本書一樣,知道前面一章講什么的,后面即將講什么,除了標(biāo)題黨,你根本對下一個博客、內(nèi)容毫無預(yù)期,只能被動接受;
最糟糕的其實(shí)是知識結(jié)構(gòu)碎片化-你并不知道是誰,在什么情況下,針對什么問題講的這句話。所有的信息缺乏了上下文,就是廢話。
比如說有段時(shí)間我刷管理類的文,你會發(fā)現(xiàn)在雷軍、傅盛、彼得德魯克、吳伯凡、馬云、吳曉波各位大佬針對同一個問題講的內(nèi)容完全不同。到底信哪個?其實(shí)雷軍講的是互聯(lián)網(wǎng)行業(yè);傅盛講的是小企業(yè)逆襲,他正在做投資;彼得德魯克用管理在講哲學(xué);吳伯凡老師在講中西方文化;馬云老師在對大眾勵志;吳曉波其實(shí)是用管理談財(cái)經(jīng)-更重要的是,他們講話的場合,時(shí)間點(diǎn)和對象你一無所知。
結(jié)論2如果一個人沒有搜索能力,他不會知道背景;沒有思考能力,不會知道為什么-這樣單純知道一句話,比不知道更糟糕。
把前面兩個結(jié)論放一塊,結(jié)果很清晰時(shí)間空間碎片化確實(shí)能夠提高學(xué)習(xí)的效率(其實(shí)也干不過電腦),而信息碎片化和知識結(jié)構(gòu)碎片化帶來的,則是學(xué)習(xí)效率的倒退和焦慮之源因?yàn)樗麣У裟愕闹鲃铀阉髂芰椭鲃渔溄拥哪芰Γ簿褪巧疃人伎嫉哪芰Α?
這就是碎片化的陷阱,極大的提高了并沒有什么卵用的信息,而降低了最重要的獨(dú)立思考的能力。
知識可以零售嗎?
最近的問答類APP非常火,先是知乎4月份在其微信公眾號悄然上線了【值乎】,而后果殼網(wǎng)在5月份不甘示弱,上線了【分答】并且后來居上,用戶活躍一下子超越了【值乎】。
【分答】是一款付費(fèi)語音問答產(chǎn)品,它的規(guī)則非常簡單,有三種角色設(shè)定:回答者、提問者、偷聽者?;卮鹫咧恍枵f明自己擅長的領(lǐng)域,然后設(shè)置付費(fèi)問答的價(jià)格,價(jià)格規(guī)定在1-500元之間,感興趣的用戶可以作為提問者付費(fèi)后對回答者進(jìn)行<=50字的文字提問,然后回答者通過<=60s的語音來回答問題。在此過程中,其他用戶可以作為偷聽者通過1元的付費(fèi)來‘偷聽’回答者的語音回答。被‘偷聽’一次,提問者和回答者可以各得0.5元。
【分答】吸引人的地方有兩個,一個是提問和回答能賺錢,讓知識不再是免費(fèi)的分享,真正做到了書中自有黃金屋;一個是明星效應(yīng),或者說是網(wǎng)紅效應(yīng)。【分答】一開始能夠點(diǎn)爆市場,看它的卡司就知道了。
有亞洲首富之子同時(shí)也是國民老公的王思聰,有各類綜藝大咖如《最強(qiáng)大腦》的帥氣教授魏坤琳、《奇葩說》第一季冠軍馬薇薇、《邏輯思維》創(chuàng)始人羅振宇等,還有演藝界的明星佟大為、汪峰等,這樣強(qiáng)大的陣容,讓【分答】在上線20幾天的時(shí)候,就拿到一億美金的估值,而國民老公王思聰,僅僅回答了25個問題,短短的25分鐘時(shí)間,就賺了11萬多。
在一片喧囂,全民歡騰過后,靜下心想一想,以‘知識的零售平臺’為目的的【分答】一類的問答社區(qū),真的能達(dá)到傳播知識,提升能力的效果?
如果說【知乎】的一問多答,干貨至上的模式,收獲的是多角度的價(jià)值觀、人生觀以及知識體系;【果殼】的科技報(bào)道,收獲的是科技的不為人知的小細(xì)節(jié),是滄海遺珠。那么【分答】一類的60s的語音回答,收獲的或許只是跟明星的親密接觸,以及搞一個大新聞賺錢的欲望的滿足。為什么這么說呢?
首先,對于答題者來說,60s的時(shí)間僅足夠講1、2個笑話,對于一個知識點(diǎn)來說根本不足以講透,所以這60s的回答不是用來提供知識的;
其次,對于提問者來說,提問字?jǐn)?shù)限制在50個字以內(nèi),提問的東西只能非常直接,根本無暇顧及問題的背景。因此在【分答】上經(jīng)常出現(xiàn)以下的問題: 如果非要二選一做你的女朋友,你選XXX還是XXX,為啥? 你和XXX的性福生活是真是假? 你多久啪啪啪一次,最近的一次啪啪啪是什么時(shí)候和誰?
最后,對于提問者來說,提問的目的不再是單純的希望獲得知識,而是想獲得更多的人偷聽,從而達(dá)到賺錢的目的,這樣的目的,不利于知識的正向分享。
我們都有這樣的經(jīng)歷,在上學(xué)的時(shí)候,準(zhǔn)確而準(zhǔn)時(shí)地劃重點(diǎn)的老師會往往被同學(xué)們點(diǎn)贊。曾幾何時(shí),劃重點(diǎn)成為課堂最激動人心和最令人期待的一刻。在信息爆炸時(shí)代,尤其如此,最重要的不是增加信息,而是篩選和刪除信息。
任何學(xué)習(xí)知識,都是相互聯(lián)系,相互作用的。因此第一步就是找出各部分間的直接聯(lián)系,把網(wǎng)絡(luò)結(jié)構(gòu)初步地建立起來。但是有些部分和其他部分并不一定能夠建立直接的聯(lián)系,那么還需要發(fā)掘第二層、第三層關(guān)系。 要明確各部分之間的關(guān)系,以及綜合運(yùn)用。 學(xué)習(xí)是先模糊概括,再逐漸在大框架下逐步明晰細(xì)節(jié)、完善結(jié)構(gòu)、針對缺陷和不足專攻的學(xué)習(xí)方法。
行動學(xué)習(xí)理論認(rèn)為,人要掌握一門技能,需要有10%的時(shí)間學(xué)習(xí)知識和信息,70%的時(shí)間練習(xí)和踐行,還有20%的時(shí)間與人溝通和討論。這個原則叫做721原則。
碎片化學(xué)習(xí)對于10%的信息接收非常有用,而剩下獨(dú)處練習(xí)的70%和討論的20%,則需要留出大量時(shí)間來系統(tǒng)學(xué)習(xí)——碎片化學(xué)習(xí)永遠(yuǎn)只是系統(tǒng)化學(xué)習(xí)的輔助。你需要留出足夠多整塊時(shí)間學(xué)習(xí)。
所謂系統(tǒng)學(xué)習(xí)法,是指把所學(xué)內(nèi)容當(dāng)成是一個系統(tǒng)看待,力求從大方向出發(fā)指導(dǎo)學(xué)習(xí),這樣,在學(xué)習(xí)的時(shí)候不是按部就班按章節(jié)行進(jìn),而是先模糊概括,再逐漸在大框架下逐步明晰細(xì)節(jié)、完善結(jié)構(gòu)、針對缺陷和不足專攻的學(xué)習(xí)方法。
如何系統(tǒng)學(xué)習(xí)數(shù)據(jù)分析?
在學(xué)習(xí)數(shù)據(jù)分析之前應(yīng)該明白幾點(diǎn)
數(shù)據(jù)初期的準(zhǔn)備通常占整個數(shù)據(jù)挖掘項(xiàng)目工作量的70%左右。
數(shù)據(jù)分析師本身融合了業(yè)務(wù)知識、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)等學(xué)科,并不是新的技術(shù)。
數(shù)據(jù)分析更適合業(yè)務(wù)人員學(xué)習(xí)(相比技術(shù)人員學(xué)習(xí)業(yè)務(wù)來的更高效)
數(shù)據(jù)分析項(xiàng)目通常需要重復(fù)一些毫無技術(shù)含量的工作。
職業(yè)規(guī)劃
以數(shù)據(jù)分析師為例,先看一下國內(nèi)知名互聯(lián)網(wǎng)數(shù)據(jù)分析師的招聘要求:
計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等相關(guān)專業(yè)本科及以上學(xué)歷;
具有深厚的統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘知識,熟悉數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)技術(shù),能夠熟練地使用SQL;
三年以上具有海量數(shù)據(jù)挖掘、分析相關(guān)項(xiàng)目實(shí)施的工作經(jīng)驗(yàn),參與過較完整的數(shù)據(jù)采集、整理、分析和建模工作;
對商業(yè)和業(yè)務(wù)邏輯敏感,熟悉傳統(tǒng)行業(yè)數(shù)據(jù)挖掘背景、了解市場特點(diǎn)及用戶需求,有互聯(lián)網(wǎng)相關(guān)行業(yè)背景,有網(wǎng)站用戶行為研究和文本挖掘經(jīng)驗(yàn)尤佳;
具備良好的邏輯分析能力、組織溝通能力和團(tuán)隊(duì)精神;
富有創(chuàng)新精神,充滿激情,樂于接受挑戰(zhàn)
前三個屬于硬件要求,一般而言,有專業(yè)基礎(chǔ)(計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等相關(guān)專業(yè))入行需要3個月以上的學(xué)習(xí)。對于非專業(yè)背景的同學(xué),入行的時(shí)間可能需要的更長,建議給自己預(yù)留6-12月的時(shí)間。而要成為一個熟手(企業(yè)用工需求最多)則需要2-3年以上的行業(yè)經(jīng)驗(yàn)。
從業(yè)務(wù)開始
學(xué)習(xí)一門技術(shù)要和行業(yè)靠攏,沒有行業(yè)背景的技術(shù)如空中樓閣。技術(shù)尤其是計(jì)算機(jī)領(lǐng)域的技術(shù)發(fā)展是寬泛且快速更替的(十年前做網(wǎng)頁設(shè)計(jì)都能成立公司),一般人沒有這個精力和時(shí)間全方位的掌握所有技術(shù)細(xì)節(jié)。但是技術(shù)在結(jié)合行業(yè)之后就能夠獨(dú)當(dāng)一面了,一方面有利于抓住用戶痛點(diǎn)和剛性需求,另一方面能夠累計(jì)行業(yè)經(jīng)驗(yàn),使用互聯(lián)網(wǎng)思維跨界讓你更容易取得成功。不要在學(xué)習(xí)技術(shù)時(shí)想要面面俱到,這樣會失去你的核心競爭力。
大數(shù)據(jù)是技術(shù)工具,最終的應(yīng)用需要深入理解業(yè)務(wù)企業(yè)的業(yè)務(wù)場景和商業(yè)模式,甚至有人說不懂業(yè)務(wù)就不要談大數(shù)據(jù),可見領(lǐng)域知識的重要性。值得一提的是,近幾年在頂尖科學(xué)雜志《Nature》與《Science》上發(fā)表的大數(shù)據(jù)文章都是來自行業(yè)專家,而并非計(jì)算機(jī)專家,這從另外一個方面反映了業(yè)務(wù)知識的重要性。
get技能
數(shù)學(xué)知識
數(shù)學(xué)知識是數(shù)據(jù)分析師的基礎(chǔ)知識。對于初級數(shù)據(jù)分析師,了解一些描述統(tǒng)計(jì)相關(guān)的基礎(chǔ)內(nèi)容,有一定的公式計(jì)算能力即可,了解常用統(tǒng)計(jì)模型算法則是加分。對于高級數(shù)據(jù)分析師,統(tǒng)計(jì)模型相關(guān)知識是必備能力,線性代數(shù)(主要是矩陣計(jì)算相關(guān)知識)最好也有一定的了解。
分析工具
對于初級數(shù)據(jù)分析師,玩轉(zhuǎn)Excel是必須的,數(shù)據(jù)透視表和公式使用必須熟練,VBA是加分。另外,還要學(xué)會一個統(tǒng)計(jì)分析工具,SPSS作為入門是比較好的。對于高級數(shù)據(jù)分析師,使用分析工具是核心能力, SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
編程語言
對于初級數(shù)據(jù)分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。對于高級數(shù)據(jù)分析師,除了SQL以外,學(xué)習(xí)Python是很有必要的,用來獲取和處理數(shù)據(jù)都是事半功倍。當(dāng)然其他編程語言也是可以的。
勤于學(xué)習(xí)
大數(shù)據(jù)時(shí)代的知識,沒有像印刷時(shí)代對知識結(jié)構(gòu)視為必須具備的‘基礎(chǔ)’知識,知識是非線性的,可以自由組合、切割,處于一種分散和游離的狀態(tài)。未來,你必須具備快速自學(xué)和捕捉知識的能力,學(xué)習(xí)將從一個‘知識儲備,學(xué)以致用’的過程,向‘知識構(gòu)建,用時(shí)再學(xué)’的過程轉(zhuǎn)變,學(xué)習(xí)將是一個持續(xù)的,乃至終身學(xué)習(xí)的過程。為此你需要具備一種快速而靈活的學(xué)習(xí)方式
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10