
大數(shù)據(jù)的道、術(shù)、釋
大數(shù)據(jù)的 本質(zhì)是對效率的提升,是對精細(xì)化的追求。一上來就講到了大數(shù)據(jù)本質(zhì),有別于其他知識類的書籍。這本書更多的是從哲學(xué)思考的角度來組織“道”與“術(shù)”這兩部 分的。前言部分就提到了這一點:由于種種原因,大多數(shù)人都忙于日常生活的瑣事因此他們對于這世界的好奇心都受到了壓抑。同時,對于大數(shù)據(jù)統(tǒng)計,它也指出了 我們的現(xiàn)實:缺少的不是統(tǒng)計知識,而是如何應(yīng)用技術(shù)的實務(wù)方法。同時,它提到一個對從事IT業(yè)人最重要的知識框架的概念:知識體系!如果不早日形成自己的 知識體系,所學(xué)知識和項目經(jīng)驗就如向桌子上倒水,倒再多的水也積存不??!
論“道”
對于數(shù)據(jù)分析報告,分析就是論點,數(shù)據(jù)就是論據(jù),兩者缺一不可。
數(shù)據(jù)分析的核心工作是人對數(shù)據(jù)指標(biāo)的發(fā)析、思考和解讀,人腦所能承載的數(shù)據(jù)量是極其有限的。
數(shù)據(jù)分析的能力不只是掌握統(tǒng)計知識和算法模型,更多是對業(yè)務(wù)產(chǎn)品的認(rèn)識、看法與判斷,這是很難量化的。
做好數(shù)據(jù)分析與學(xué)寫詩文一樣,真正的關(guān)鍵在技巧(統(tǒng)計技術(shù))之外,而在于對業(yè)務(wù)的觀察、思考與感悟,即分析的思路。這一點很是認(rèn)同,好的數(shù)據(jù)分析師不一定是一個好的技術(shù)人員,但一定是一個好的業(yè)務(wù)人員。對業(yè)務(wù)的把控要超越到技術(shù)的追求!
只有對業(yè)務(wù)有充分的調(diào)研與思考,才能產(chǎn)生有價值的分析思路。
這一部分,提到了兩個觀點很好,做數(shù)據(jù)分析人員最好要掌握一些經(jīng)濟(jì)學(xué)與心理學(xué)的知識,只有這兩方面知識深厚的時候,我們對業(yè)務(wù)的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解,需要從心理訴求去解讀數(shù)據(jù),才能得到有效的結(jié)論。
如果我們熟悉經(jīng)濟(jì)學(xué)和心理學(xué),面對實際問題的時候,可以更深刻地看到數(shù)據(jù)背后的人性。
思考的重要性:思考本身也是一種實踐,使人對知識的掌握更加系統(tǒng)化的深入化。
如果沒有主動思考意識,光有經(jīng)歷和環(huán)境,是不能使人成長的。
數(shù)據(jù)分析常用來驗證思路和啟發(fā)靈感,卻不能代表思考本身,而對業(yè)務(wù)的理解和判斷才是整件事情的靈魂。
業(yè)務(wù)分析的本質(zhì)是對業(yè)務(wù)的全局認(rèn)知、深入思考和超前判斷,數(shù)據(jù)分析只是輔助這種思考完成的手段(驗證思路和啟發(fā)思路)。
人對事物的認(rèn)知并沒有絕對概念,只有相對概念。
以自己的所見所聞為判斷依據(jù)是人類的天性,但如果我們的所見所聞只是真實世界的一個抽樣,那么需要有足夠的理性跳出自己的圈子,以更加宏觀、總體的統(tǒng)計數(shù)據(jù)來認(rèn)知世界。
過于復(fù)雜的理論大都是人類沒有掌握真正的本質(zhì)規(guī)律。這一點非常好,我們很多時候,總是想把大數(shù)據(jù)講是十分高深,艱澀難懂,但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白,所以說,真正的知識,若你不能夠很清晰的講解明白,可能是講解者對知識的理解仍不到位。
無論制作項目匯報還是分析報告,第一要務(wù)是展現(xiàn)形式要最大程度地輔助觀點表達(dá),而美觀只是末節(jié)。
老板最關(guān)心的是工作成果(產(chǎn)品業(yè)績),其次是產(chǎn)品或技術(shù)方案,最不關(guān)心的是進(jìn)行了哪些嘗試,以及嘗試的過程。所以,在匯報工作果,第一就是展現(xiàn)你的成果,其次是過程,最后才說你的困難及解決思路。
沒有任何一個數(shù)據(jù)分析項目的目標(biāo)是做“數(shù)據(jù)分析”,而是以數(shù)據(jù)分析為手段,圍繞一個“明確主題”得出結(jié)論。
做好數(shù)據(jù)分析的關(guān)鍵不在于統(tǒng)計技術(shù)的應(yīng)用,而在于對業(yè)務(wù)的思考和分析。這一個第一部分的點睛之句,可以說,它也道出了大數(shù)據(jù)分析的核心本質(zhì)?,F(xiàn)在世面上,很 多的大數(shù)據(jù)公司,不是說他們的技術(shù)不好,不優(yōu)秀。而是他們對業(yè)務(wù)的理解沒有行業(yè)內(nèi)的人熟悉。這就導(dǎo)致了技術(shù)分析達(dá)標(biāo),但業(yè)務(wù)仍沒有較大增長的根本原因。
本章最大的收獲就是認(rèn)識到業(yè)務(wù)的重要,大數(shù)據(jù)分析只是輔助。其中,經(jīng)濟(jì)學(xué)與心理學(xué)是對你理解相關(guān)業(yè)務(wù)會有很大的幫助。
論“術(shù)”
術(shù)” 的這一部分,一共有四章,分的也很細(xì)。講的很透徹,看完這些內(nèi)容。進(jìn)而對生活中的一些例子開始有了思考,例如:淘寶廣告推薦,Uber,滴滴的基于最短路 徑推薦,等等。以前覺得算法這個神秘的東西離我們很遠(yuǎn),但現(xiàn)在看來,就在于我們的生活中,只不是統(tǒng)計人的思考維度是跟我們一般人是不一樣的。但同時,以 “道”御“術(shù)”,只有明確什么是優(yōu)秀的數(shù)據(jù)分析,才能使我們這一部分的武器發(fā)揮出效力。
第 二章上來就是要我們學(xué)會獨立思考,去思考為什么?本書在這里就提到:“是什么”的形式并不重要,關(guān)鍵點是我們做這些事情所持的“本心”!這里提到了直方 圖,標(biāo)準(zhǔn)差,相關(guān)系數(shù),準(zhǔn)確率,召回率,這些曾經(jīng)難懂的知識點,而本書的好處都是從我們身邊的故事講起的。這樣就更有利于我們對于這些指標(biāo)的理解。透過這 些基本概念的分析,我們要養(yǎng)成一種思維方式。
然后又講到了統(tǒng)計圖形,為什么要用圖形化來展現(xiàn)我們的數(shù)據(jù),因為一圖勝千言!
人腦對圖像信息的捕捉能力和記憶能力比文字強(qiáng)很多,畢竟文字這種“表意符號”比較抽象,屬于后天習(xí)得的知識關(guān)聯(lián),而處理圖像信息則是人類與生俱來的能力。
而這一部分的目標(biāo)原則與極簡原則又是對可視化有了一個好的提醒,這樣也是我們?nèi)蘸蟊苊庵蛔非箪哦雎杂袌D表的本質(zhì)問題。雖然圖表是為了輔助表達(dá)觀點而存在的,但也不能為了表達(dá)觀點而故意扭曲圖形。
決策制圖要分三個步驟:拆解內(nèi)容維度、確定圖形類型 、選擇表達(dá)方式!
第 三章開篇就提出了一個比較讓人深思的問題:我們能相信統(tǒng)計嗎?實際上,延伸一點,就到我們的生活中,我們只不過是真實世界的一個抽樣,所以不要輕易批判他 人的世界觀!在這一章節(jié)里,它里邊提到一個大數(shù)定理:真正的上帝沒有這么刻薄,他在抽樣統(tǒng)計值和真實值之間設(shè)置了一種函數(shù)關(guān)系,該函數(shù)關(guān)系使得統(tǒng)計學(xué)習(xí)在 一定程度上是可行的。這也就是所有編程函數(shù)的基礎(chǔ):都是一種基于概率的信任!但在前期沒有任何數(shù)據(jù)積累時,會請相關(guān)領(lǐng)域?qū)S懈鶕?jù)經(jīng)驗知識制定一套規(guī)則系 統(tǒng),而不是去挖掘少的可憐的樣本數(shù)據(jù)。
樣本量越大,抽樣統(tǒng)計值就越接近事物的真實程度。 其中感觸最深的是里邊人才市場與價格曲線的關(guān)系。你可以不成功,但你不能不成長,也許有人會阻礙你成功,但沒人會阻擋你成長。
上帝不擲骰子,因果律依然存在,不確定性只是因為人類的無知。
當(dāng)影響一個事物結(jié)果的各種因素隨機(jī)發(fā)生,根據(jù)中心極限定理,它們的總和平均表現(xiàn)就是正態(tài)分布。
如果說傳統(tǒng)統(tǒng)計學(xué)更多研究如何從抽樣個體的統(tǒng)計指標(biāo)去推測全體,那么今天的統(tǒng)計學(xué)則更多關(guān)注如何把全體數(shù)據(jù)在置信的前提下盡量拆細(xì),得到更細(xì)致的個體結(jié)論。
對于本章提出的問題:我們能相信統(tǒng)計嗎?在本章的最后給出了答案:對于統(tǒng)計結(jié)論,我們要基于概率的信任 ,中有當(dāng)置信概率足夠大的時候,才可以相信統(tǒng)計結(jié)論。
本章提出了一個“思考為什么?”的五步方法論:
1,以簡為始,不斷優(yōu)化
2,理想藍(lán)圖,逐漸逼近
3,觀察典型,啟發(fā)思路
4,分清主次,化繁為簡
5,需求出發(fā),貼近應(yīng)用
第四章是在2,3章的基礎(chǔ)上的靈活運用,如何拆相關(guān)指標(biāo),并應(yīng)用于生活中。這一章尤為重要!上來就講到一個優(yōu)秀的統(tǒng)計學(xué)家不等于一個出色的數(shù)據(jù)分析師。而要真正做好數(shù)據(jù)分析,只能是既懂統(tǒng)計技術(shù)又熟悉業(yè)務(wù)、掌握分析方法、又有豐富分析經(jīng)驗的人。
ARPU:客戶平均消費水平
數(shù)據(jù)分析更深一層的意義就是:反映一個人對所從事工作的認(rèn)知和思考能力!
樣本與總體的關(guān)系:用個案啟發(fā)思路,用統(tǒng)計得到結(jié)論。
在可樂與比薩的數(shù)量曲線里,隱含了一個非常隱晦的經(jīng)濟(jì)價值:針對不同的的消費群體,以同樣的成本提供不同價值配比的產(chǎn)品,可以實現(xiàn)更多的用戶體驗價值。
商家的固定思考:只有價格敏感的人才忍到每年的限定時間囤貨,不在意花銷的富人是不做壽 這樣麻煩事的。
在慣于炒概念的世界中,保持一份清醒的認(rèn)識。畢竟,內(nèi)在本質(zhì)比外在概念要少得多。
資深數(shù)據(jù)分析人員的核心能力在于豐富的知識面帶來的思考角度和分析方法。
第五章個人認(rèn)為是比較落地的一章內(nèi)容。主要講到OLAP跟機(jī)器學(xué)習(xí),這里講到OLAP跟OLTP的差別,OLTP更多的是讀取數(shù)據(jù)后的存儲,而OLAP更多的偏重于分析,OLAP的主要應(yīng)用是匯總分析較高層的統(tǒng)計數(shù)據(jù),而不是直接處理龐大的原始日志。
在數(shù)據(jù)探索階段使用無監(jiān)督學(xué)習(xí)的場景較多,而在數(shù)據(jù)建模階段使用監(jiān)督學(xué)習(xí)的場景較多。
無監(jiān)督算法并不真的不需要人的指導(dǎo)和監(jiān)督,只是監(jiān)督不以“提供樣例樣本”的形式出現(xiàn)。
一流的數(shù)據(jù)建模解決方案通常是策略算法人員與工程架構(gòu)人員通力配合的結(jié)果。深入的編程技術(shù)和架構(gòu)設(shè)計能力已經(jīng)極大的影響了機(jī)器學(xué)習(xí)的建模效果,所以在一流的機(jī)器學(xué)習(xí)團(tuán)隊,策略模型和工程架構(gòu)兩種人員有合并的趨勢。
算法工程師的核心競爭力:深入理解業(yè)務(wù)、產(chǎn)品和數(shù)據(jù),尋找模型和他們的結(jié)合點,的確是算法工程師的核心競爭力。
關(guān)于機(jī)器學(xué)習(xí):
在工業(yè)界做機(jī)器學(xué)習(xí)的應(yīng)用,不僅要掌握模型算法,還要看清企業(yè)面臨的市場機(jī)遇,將算法模型放在業(yè)務(wù)戰(zhàn)略的角度進(jìn)行評估。
機(jī)器學(xué)習(xí)變成一個業(yè)務(wù)和技術(shù)并重的交叉學(xué)科,真正做好它還需要更多的實踐。
機(jī)器學(xué)習(xí)模型背后的原理是知識表示+統(tǒng)計學(xué)習(xí),而不是像人一樣真的在理解和思考。
論“釋”
這一部分,更多的是從業(yè)務(wù)角度,或是從當(dāng)下社會經(jīng)濟(jì)角度來說大數(shù)據(jù)的。
第六章內(nèi)容,主要講大數(shù)據(jù)時代,經(jīng)濟(jì)引導(dǎo)一切的條件下,要明白大數(shù)據(jù)的經(jīng)濟(jì)價值。在這個經(jīng)濟(jì)社會,如果大數(shù)據(jù)有經(jīng)濟(jì)價值,相信各種配套技術(shù)會層出不窮的涌現(xiàn)。一切不談具體應(yīng)用的大數(shù)據(jù)技術(shù)都是耍流氓!
醫(yī)療:大數(shù)據(jù)的價值類似于收集到足夠多的病例,對于每一個病人,均可以找到數(shù)量眾多的相似病例,那么對病人的病情分析和治療方案會準(zhǔn)確、有效得多。
互聯(lián)網(wǎng):沒有無價值的流量,只有錯誤的匹配!
教育: 針對學(xué)生制定個性化的學(xué)習(xí)計劃,需要數(shù)據(jù)建模。首先,構(gòu)造個性化學(xué)習(xí)路徑的優(yōu)化目標(biāo)“學(xué)習(xí)收益/學(xué)習(xí)成本”。其次,基于用戶的特征和歷史學(xué)習(xí)記錄形成訓(xùn)練樣本,每個樣本標(biāo)注了學(xué)生的背景信息。
差異化定位與品牌:品牌對業(yè)務(wù)的幫助是潛移默化的,是企業(yè)重要的隱性資產(chǎn)。
新進(jìn)入一個市場,最好的方法不是與明確的競爭者拼搏相同的產(chǎn)品,而是選擇差異化的產(chǎn)品定位,或者干脆尋找顛覆這個市場的機(jī)會。
你雖然很強(qiáng)大,但我要估的和你不一橛,你的強(qiáng)大就與我無關(guān)。
政府提出“大眾創(chuàng)業(yè),萬眾創(chuàng)新”后,真正能大眾創(chuàng)業(yè)的行業(yè)只有互聯(lián)網(wǎng)一個!
流量優(yōu)勢是一個偽優(yōu)勢,因為流量可以用資金買到!
產(chǎn)品保證存活,沒有需求就沒有市場;技術(shù)提供壁壘,沒有核心技術(shù)的產(chǎn)品大都難以長久!
大數(shù)據(jù)技術(shù)是一套數(shù)據(jù)+業(yè)務(wù)+需求的完整解決方案。思考關(guān)鍵不在于數(shù)據(jù)技術(shù)本身,而在于能否收集到足夠多、有價值的數(shù)據(jù),以及找到適合數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用,即從鏈條的兩端向中間思考。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03