
用數(shù)據(jù)說話:數(shù)據(jù)分析的基本思想是什么
今天分享一下數(shù)據(jù)分析的一些基本思想,我給它起了個(gè)名字叫做用數(shù)據(jù)說話。內(nèi)容都是個(gè)人的一些心得,比較膚淺!如有不足之處,希望大家諒解!廢話不說了,現(xiàn)在咱正式開始。
用數(shù)據(jù)說話,就是用真實(shí)的數(shù)據(jù)說真實(shí)的話!真實(shí)也可以理解為求真務(wù)實(shí)。那么,數(shù)據(jù)分析就是不斷地求真,進(jìn)而持續(xù)地務(wù)實(shí)的過程!用一句話表達(dá)就是用數(shù)據(jù)說話,用真實(shí)的數(shù)據(jù)說話,說真話、說實(shí)話、說管用的話。
數(shù)據(jù)本不會(huì)說話,但是面對(duì)不同的人時(shí),就會(huì)發(fā)出不同的聲音。現(xiàn)在我們以《荒島售鞋》這個(gè)老故事為引例,從數(shù)據(jù)分析的角度來解讀,看看能不能開出新花?為防止大家案例疲勞,我盡量用新的表達(dá)方式把故事羅嗦一下!
話說郭靖和楊康,被成吉思汗派去美麗的桃花島進(jìn)行射雕牌運(yùn)動(dòng)鞋的市場(chǎng)拓展。郭靖和楊康一上桃花島就驚訝地發(fā)現(xiàn)這里的居民全部赤腳,沒有一個(gè)穿鞋的,不論男女還是老少,莫不如此。楊康一看,倒吸了一口涼氣,說:唉!完了,沒啥市場(chǎng)!郭靖卻不這么認(rèn)為,馬上掏出了新買的IPHONE4G給鐵木真打了個(gè)長(zhǎng)途加漫游的匯報(bào)電話。面對(duì)桃花島這個(gè)空白的市場(chǎng),郭靖電話里這么說:“桃花島人口眾多,但信息閉塞?,F(xiàn)在全島居民,全部赤腳。在運(yùn)動(dòng)鞋市場(chǎng)上沒有任何競(jìng)爭(zhēng)對(duì)手,茫茫藍(lán)海,市場(chǎng)將為我獨(dú)霸!可喜,可喜?。 边@個(gè)時(shí)候,咱現(xiàn)場(chǎng)做個(gè)調(diào)查,假如你是成吉思汗,你會(huì)怎么抉擇?(投資Y1人,不投資的N1人。)
這個(gè)時(shí)候楊康聽不下去了,馬上搶過電話,說到“大汗,別聽郭靖瞎嚷嚷!市場(chǎng)雖然沒有競(jìng)爭(zhēng),但并不就一定是藍(lán)海。在全球化競(jìng)爭(zhēng)的大背景下,這么輕而易舉的就讓我們找到了藍(lán)海,您覺得可能嗎?難道阿迪、耐克、彪馬、銳步這些國際巨頭都是棒槌,會(huì)發(fā)現(xiàn)不了?我看肯定是島上幾百年不穿鞋的生活習(xí)慣,短期內(nèi)無法改變,所以各路群雄,都只能望而止步!可惜,可惜??!”聽了楊康的論述,鐵木真又該如何選擇呢?請(qǐng)大家舉手表態(tài)。(愿意投資Y2人,不愿意投資的N2人。)姜是老的辣!成吉思汗比較理性,他只說了一句:“繼續(xù)調(diào)研,要用數(shù)據(jù)說話!”就把電話掛了!
一個(gè)星期之后,楊康率先給BOSS匯報(bào)了。不過他沒有選擇打電話,而是改發(fā)E—MAIL。原因有三:一是全球通資費(fèi)太高了,錢要省著點(diǎn)花;二是楊康有點(diǎn)小人,他擔(dān)心郭靖聽了他的表述后,剽竊他的思想;三是他寫了一份詳細(xì)的調(diào)研報(bào)告,電話里三言兩語說不清。楊康的調(diào)查報(bào)告里詳細(xì)地記錄了他與島內(nèi)精心選取的200位居民的談話內(nèi)容,以及他抽取居民樣本時(shí)科學(xué)合理的甄別條件,最后的結(jié)論就是:島內(nèi)居民全部(100%)以捕魚為生,腳一年四季泡在水里,根本就不需要鞋!聽到這個(gè)消息,成吉思汗怎么辦呢?請(qǐng)大家繼續(xù)舉手表態(tài)?。ㄔ敢馔顿YY3人,不愿意投資的N3人。)
成吉思汗有自己的想法。這個(gè)時(shí)候,他沒有做決策,而是繼續(xù)等。等什么呢?等郭靖的結(jié)論!又過了兩天郭靖終于打來了電話。電話里說了3句話:“這個(gè)市場(chǎng)可以做!原因是島上的居民每周都要上山砍柴,并且十有八九會(huì)被劃破腳!更可喜的是,這兩天他用美男計(jì)泡到了島主的女兒黃蓉,而且黃蓉答應(yīng)給射雕牌運(yùn)動(dòng)鞋作形象代言!”故事發(fā)生到這個(gè)階段,我請(qǐng)大家做最后一次表態(tài)。(愿意投資Y4人,不愿意投資的N4人。)
好!數(shù)據(jù)在變,我們的決策也在變。不過,成吉思汗比我們理性的多?;卮疬€是一句話,不過比第一次多了幾個(gè)字:“繼續(xù)深入調(diào)研,用詳實(shí)數(shù)據(jù)論證?!睘槭裁茨??難道這些數(shù)據(jù)還不夠詳實(shí)嗎?是的!因?yàn)樵诔杉己鼓X袋里還存在有很多疑問。比如:
1) 難道競(jìng)爭(zhēng)對(duì)手真的沒來過?還是對(duì)方論證后真的不可行?
2) 山上不會(huì)開個(gè)伐木廠吧?如果有了伐木廠,居民就不會(huì)上山砍柴了,到時(shí)候送柴上門,鞋還有個(gè)屁用啊!
3) 為什么一周才上一次山?該不會(huì)主要使用的是太陽能吧?
4) 運(yùn)動(dòng)鞋的運(yùn)輸成本、營(yíng)銷成本、銷售成本是多少?投資收益率有多高?
5) ……
聽完這個(gè)案例,我想問大家一個(gè)問題!從數(shù)據(jù)分析的角度看,你受到了什么啟示?請(qǐng)注意這里說的數(shù)據(jù)分析的角度,如果你得到的啟示是:鐵木真領(lǐng)導(dǎo)的郭靖與楊康不是1個(gè)老男人+2個(gè)帥小伙的Gourp,而是教練型的Team。那么,抱歉!這不是我們今天討論的范圍。好,在座的各位誰來表達(dá)一下自己的看法呢?提示性的啟示有:
面對(duì)同一個(gè)數(shù)據(jù),不同的人會(huì)說不同的話。
真實(shí)的數(shù)據(jù)并不一定能推導(dǎo)出正確的結(jié)論。
正確的決策需要有充分的數(shù)據(jù)去論證。
……
說完了啟示,咱把這頁P(yáng)PT總結(jié)一下。這個(gè)案例涉及數(shù)據(jù)的搜集、分析、匯報(bào)以及用于決策的整個(gè)過程。在這個(gè)過程里,無論那個(gè)細(xì)節(jié)出了問題,最終做出的決策都將是致命的!所以說質(zhì)量是數(shù)據(jù)的生命,在數(shù)據(jù)用于決策的整個(gè)過程,都必須保證真實(shí)有效!
所謂用真實(shí)的數(shù)據(jù)說話,就是指在說話之前,先審核數(shù)據(jù)的真實(shí)性!現(xiàn)實(shí)生活中,拿著錯(cuò)誤的數(shù)據(jù)還能大言不慚的可以說比比皆是。其中有兩位杰出的代表:一個(gè)是傳說中偉大的中國統(tǒng)計(jì)局,另一個(gè)就是動(dòng)不動(dòng)就要封殺這個(gè)封殺那個(gè)的CCTV。我不是瞎說,因?yàn)橛袛?shù)據(jù)支撐!
2010年1月20日,國家統(tǒng)計(jì)局公布了2009年全國房地產(chǎn)市場(chǎng)數(shù)據(jù),全年房?jī)r(jià)平均每平方米上漲813元。夠雷人吧!雷聲還沒過,霹靂緊跟著又來了!2月25日國家統(tǒng)計(jì)局發(fā)布了《2009年國民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,數(shù)據(jù)顯示,70個(gè)大中城市房屋銷售價(jià)格上漲1.5%。真可是天雷滾滾!難怪網(wǎng)友把統(tǒng)計(jì)局票選成大天朝的娛樂至尊!
此話一出,央視不答應(yīng)了!真所謂中國統(tǒng)計(jì),娛樂至尊;央視不出,誰與爭(zhēng)鋒?那我們仔細(xì)推敲一下央視的數(shù)據(jù)。2010年2月15日,CCTV發(fā)布了虎年春晚的滿意度報(bào)告,結(jié)果顯示滿意度為83.6%。幾乎同一天,新浪的公布的調(diào)查結(jié)果是14.55%;后來沒幾天,騰訊也發(fā)布了滿意度數(shù)據(jù),結(jié)果是10.48%。數(shù)據(jù)一出,網(wǎng)友們罵聲不斷,此起彼伏,一浪高過一浪。但是人家央視就是央視,大有敵軍圍困萬千重,我自巋然不動(dòng)的定力。更夸張的是央視不但能裝作視而不見,充耳不聞,而且還繼續(xù)恬不知恥地在自己家的那幾個(gè)頻道里賣弄數(shù)據(jù),自娛自樂。到底央視的數(shù)據(jù)錯(cuò)在哪里?我們先審視一下央視的調(diào)查方法。
央視的調(diào)查結(jié)果,來自央視——索福瑞媒介研究有限公司。索福瑞號(hào)稱他們電視觀眾滿意度調(diào)查的樣本覆蓋了全國30個(gè)城市,抽樣框總?cè)藬?shù)有30,000人,央視春晚滿意度的調(diào)查就是從這3萬人中隨機(jī)抽取了2122人進(jìn)行調(diào)查。這樣看,嚴(yán)格意義上講所謂83.6%的滿意度只能代表3萬人的看法。當(dāng)然,如果我拿這個(gè)說法與央視理論,對(duì)方肯定能拿出3萬代表全國的理論證據(jù)。具體就是先從2千推斷3萬,再用3萬推及到30個(gè)城市,然后從30個(gè)城市推及至全國所有城市,最后再推及至全國。這里用到了簡(jiǎn)單隨機(jī)抽樣、分層抽樣、典型抽樣,總起來還是個(gè)多階段抽樣,多么冠冕堂皇的理論依據(jù)!但是,縱然每一步都能保證90%的可靠程度,四次推及下來理論的可靠程度也只有65%??蛇z憾的是,最后一步用城市推及全國的做法在理論上還有一道坎,因?yàn)槲覀儾恢廊绾斡?5%的城鎮(zhèn)居民來代表55%的農(nóng)村人口?
說完了代表性的問題,我們?cè)倏纯凑{(diào)查方法。索福瑞采用的是電話調(diào)查,而且時(shí)段選擇在春晚直播的那幾個(gè)小時(shí)內(nèi)。據(jù)說調(diào)查是從晚上8:30開始,一直持續(xù)到春晚結(jié)束。巨汗!8:30貌似90%的節(jié)目還沒有上演,又怎么能調(diào)查到觀眾對(duì)整個(gè)春晚的滿意度呢?
央視的數(shù)據(jù)是經(jīng)不住推敲的!那么,新浪和騰訊的一定對(duì)嗎?不一定,這兩個(gè)數(shù)據(jù)也只能代表新浪用戶和騰訊用戶的春晚滿意度,最多能夠代表一下4億網(wǎng)友,要想替13億的中國人民表達(dá)心聲,也恐怕是鞭長(zhǎng)莫及。
欣賞了統(tǒng)計(jì)局和CCTV送給我們的兩個(gè)開年笑話之后,我們自己也應(yīng)該反思,咱們?nèi)粘9ぷ髦?,在從?shù)據(jù)的搜集、提取、整理到分析、發(fā)布、使用的這一連串過程中,數(shù)據(jù)有沒有失真?是不是數(shù)據(jù)自始自終都很齊全、很準(zhǔn)確,而且統(tǒng)計(jì)口徑與分析目的保持著高度的一致呢?這個(gè)問題留到日常工作中供大家思考。
拿著錯(cuò)誤的數(shù)據(jù),肯定得不出正確的結(jié)論。那么面對(duì)真實(shí)的數(shù)據(jù),就一定能得出正確的結(jié)論嗎?未必!給大家看個(gè)小笑話。
問:你只有10平米的蝸居,鄰居家從90m2換到190m2,你的居住面積有沒有增加?
答:沒有。
解:錯(cuò),你們兩家的平均居住面積是100m2,你的居住面積被神不知鬼不覺地增加了!
這個(gè)神不知鬼不覺是誰呢?無敵的平均數(shù)!仔細(xì)想想,這個(gè)均值算錯(cuò)了嗎?沒有!那么,問題出在哪里?單一的統(tǒng)計(jì)量存在片面性,所以要想反映數(shù)據(jù)的真實(shí)面貌,就得使用一系列統(tǒng)計(jì)量。
我再杜撰一個(gè)氣候的例子,說明一下在結(jié)構(gòu)嚴(yán)重失衡的情況下,使用平均數(shù)的可怕之處。我們的大中國啊,960萬平方公里,同一時(shí)間里有的刮風(fēng),有的下雨,還有的高溫酷暑。從去年冬天到今年的春天,北方一直暴雪連天,南方則遭遇百年旱情;而最近這段時(shí)間,南方多個(gè)省市河水決堤,沿河兩岸,村莊淪陷,而北方則是烈日當(dāng)頭,干旱焦人,酷暑難耐。如果我們計(jì)算全年或者是全國降雨量的平均值,算出來的結(jié)果肯定是神州大地風(fēng)調(diào)雨順,國泰民安,而實(shí)際卻是華夏民族飽經(jīng)風(fēng)霜,多災(zāi)多難!
還好,統(tǒng)計(jì)學(xué)家不只給了我們平均數(shù),同時(shí)還設(shè)計(jì)了許多其他的統(tǒng)計(jì)量,大家看看下面這個(gè)表。
衡量數(shù)據(jù)的集中趨勢(shì),基本有三個(gè)統(tǒng)計(jì)量,均值、中位數(shù)和眾數(shù)。均值是數(shù)值平均數(shù),它容易受極端值的影響。也就是說如果數(shù)據(jù)的跨度或者說是極差不大的話,用均值可以很好的反映真實(shí)情況。但是,如果數(shù)據(jù)的差異比較大,單一使用平均數(shù)就會(huì)搞出新的笑話了。中位數(shù)和眾數(shù)屬于位置平均數(shù),中位數(shù)是把數(shù)據(jù)從小到大排序,正好處于中間位置的那個(gè)數(shù),眾數(shù)是說出現(xiàn)的頻次最多的那個(gè)數(shù)。
數(shù)據(jù)除了有集中趨勢(shì),還有離散趨勢(shì)。反映離散趨勢(shì)的統(tǒng)計(jì)量主要有方差、標(biāo)準(zhǔn)差、極差、變異系數(shù)等。方差就是觀測(cè)值與均值差的平方和除以自由度,自由度一般是n或n-1??傮w數(shù)據(jù)就用n,抽樣數(shù)據(jù)就用n-1。標(biāo)準(zhǔn)差就是方差的正平方根,它的意義是消除了量綱的影響。極差是最大值與最小值的差,反映的是觀測(cè)值的跨度范圍。還有一個(gè)比較重要也是比較常用的就是變異系數(shù),它是標(biāo)準(zhǔn)差與均值的比,目的是消除數(shù)量級(jí)的影響。
此外,還有一些是描述數(shù)據(jù)分布的統(tǒng)計(jì)量,比如分位數(shù),有四分位、八分位、十分位等等,二分位就是中位數(shù),它們反映一系列數(shù)據(jù)某幾個(gè)關(guān)鍵位置的數(shù)值。頻率分布,就是對(duì)數(shù)據(jù)分組或者是分類后,各組或各類的百分比。偏度是用于衡量分布的不對(duì)稱程度或偏斜程度,峰度是用于衡量分布的集中程度或分布曲線的尖峭程度的指標(biāo)。
如果想再深入一些的話,就會(huì)用到相關(guān)系數(shù)、置信水平、統(tǒng)計(jì)指數(shù)等等。相關(guān)系數(shù)是反映變量之間線性相關(guān)程度的指標(biāo),取值范圍是【-1,1】,大于0為正相關(guān),小于0為負(fù)相關(guān),等于0表示不相關(guān)。置信水平是指總體參數(shù)值落在樣本統(tǒng)計(jì)值某一區(qū)內(nèi)的概率。統(tǒng)計(jì)指數(shù)就是將不能直接比較的一些指標(biāo)通過同度量因素的作用使得能夠比較,常見的物價(jià)指數(shù)、上證指數(shù)等等。
有了這些基本的統(tǒng)計(jì)量,我們?cè)趯?shí)際工作中只要稍微用心選擇一下,就可以比較準(zhǔn)確的描述數(shù)據(jù)的真實(shí)情況。
說管用的話是指深入分析數(shù)據(jù)的實(shí)質(zhì),挖掘數(shù)據(jù)的內(nèi)涵,而不是停留在數(shù)據(jù)的表層,說些大話、空話或者套話。這就要求在數(shù)據(jù)分析時(shí),首先明確分析的目的,其次是選擇恰當(dāng)?shù)姆椒?,最后得出有用的結(jié)論。通俗地說,說管用的話,就是不說屁話,少說廢話!
4.1明確分析目的
這里我們舉個(gè)例子。我想這個(gè)例子的時(shí)候正好是7月7號(hào),N年前的那個(gè)時(shí)候,正好是在座的各位高考的日子,所以就杜撰了一個(gè)高考的數(shù)據(jù)。
我們這個(gè)班級(jí),雖然成績(jī)很爛,800分的總分,平均成績(jī)只有486分,但是人才輩出,名字一個(gè)比一個(gè)響,人氣一個(gè)比一個(gè)旺。大家先認(rèn)識(shí)一下,有飽讀四書五經(jīng),滿腹經(jīng)綸的關(guān)東秀才呂輕侯;有籃球場(chǎng)上進(jìn)攻犀利,防守嚴(yán)密的小飛俠科比;還有足球場(chǎng)上無論是邊路傳中還是搶點(diǎn)射門都有非常出色的C羅納爾多;有喜歡煙熏妝、藍(lán)絲襪加高跟鞋出鏡的偽娘劉著,有被億萬網(wǎng)友燒香膜拜的春哥黨教主李宇春,還有經(jīng)常抱著吉他哼著綿羊音的90后MM曾軼可;以及自稱冰清玉潔、妖媚性感、擅長(zhǎng)爆發(fā)性舞蹈動(dòng)作的芙蓉姐姐和非清華北大經(jīng)濟(jì)學(xué)碩士不嫁、奧巴馬也可的重慶籍奇女子羅玉鳳!
基于學(xué)生的考試成績(jī),不同的人會(huì)關(guān)注不同的方面,高考的判卷老師會(huì)關(guān)心試卷的雷同程度,命題人會(huì)測(cè)試考卷的信度和效度,研究文理分科的專家會(huì)計(jì)算文理成績(jī)的相關(guān)程度。但是對(duì)于普通中學(xué),通常只會(huì)關(guān)心兩個(gè)方面。一是學(xué)生成績(jī),計(jì)算升學(xué)率;二是教學(xué)水平,給優(yōu)秀教師發(fā)獎(jiǎng)金。如果高中的教學(xué)科在這里研究文理相關(guān)就屬于廢話,如果還要把問卷的信效檢驗(yàn)也扯出來就是屁話了。
關(guān)于學(xué)生:
呂秀才:總分722分,班級(jí)第一,平均成績(jī)超過90分,如果將其他同學(xué)的水平比作三層小樓的話,呂秀才應(yīng)該是站在賽格頂上!奇才,上清華北大沒有問題。
科比和C羅:總分550左右,平均不到70分!屬于班級(jí)2號(hào)、3號(hào)人物,但成績(jī)確實(shí)不咋地,不過在該班級(jí)中也算鶴立雞群了。
劉著、李宇春、曾軼可:成績(jī)較差,上學(xué)肯定不是她們的出路!基于平時(shí)性情怪異,男的像女,女的像男,還有一個(gè)像綿羊,建議別走高考這條尋常路,還是去湖南衛(wèi)視選秀吧。
鳳姐、芙蓉:這成績(jī),就是個(gè)腦殘,估計(jì)腦袋不是被門擠過,就是被驢踢過!
關(guān)于老師:
衡量教師的優(yōu)劣需要剔除異常值,呂秀才就是!呂秀才屬于成績(jī)異常出眾,個(gè)人素質(zhì)極高,所以他的成績(jī)不應(yīng)該成為衡量老師優(yōu)劣的樣本。
語文均值高,變異系數(shù)??!由此看出語文老師真是好老師!該發(fā)獎(jiǎng)金!
同理,歷史老師也不錯(cuò)!也應(yīng)該適當(dāng)獎(jiǎng)勵(lì)。至于物理老師,太差,得趕快換掉,絕對(duì)不能讓他繼續(xù)誤人子弟了!
存在疑問的就是英語老師。英語成績(jī)的均值較高,但變異系數(shù)大。這說明數(shù)據(jù)里可能存在極端值??赡艿漠惓V凳强票扰cC羅??票让绹?,外語自然好!C羅葡萄牙人,但從2003年到2009年一直在英國留學(xué),6年啊,英語好也是應(yīng)該的!所以,科比與C羅的英語成績(jī)不能算是英語老師的栽培,所以科比和C羅是異常值,應(yīng)該剔除。那么,剔除異常后就會(huì)發(fā)現(xiàn)英語的均值只有47分!說明英語老師并不能算做好老師,所以只能與獎(jiǎng)金無緣了!
4.2選擇恰當(dāng)?shù)姆椒?/span>
接上面的案例。如果我們是研究高中該不該進(jìn)行文理分科的有關(guān)部門,那么我們?cè)撊绾畏治鑫睦沓煽?jī)之間的相關(guān)性?
舉例1:如何計(jì)算文理科之間的相關(guān)性。
目前基本有三種方法,一是簡(jiǎn)單相關(guān)分析,二是典型相關(guān)分析,三是潛變量相關(guān)分析。
簡(jiǎn)單相關(guān)分析就是通過加總,分別計(jì)算出文科成績(jī)總和、理科成績(jī)總和,然后計(jì)算兩者的簡(jiǎn)單相關(guān)系數(shù)。
典型相關(guān)分析主要用于衡量?jī)山M變量之間的相關(guān)性。它的基本原理是:為了從總體上把握兩組指標(biāo)之間的相關(guān)關(guān)系,分別在兩組變量中提取是的相關(guān)系數(shù)最大的一系列典型變量,然后通過計(jì)算各對(duì)典型變量之間的相關(guān)性,來反映變量間的相關(guān)程度。
潛變量相關(guān)就是計(jì)算潛變量之間的相關(guān)系數(shù)。所謂潛變量是相對(duì)于顯變量或者測(cè)量變量而言的。潛變量是實(shí)際工作中無法直接測(cè)量到的變量,包括比較抽象的概念和由于種種原因不能準(zhǔn)確測(cè)量的變量。一個(gè)潛變量往往可以有多個(gè)顯變量,潛變量是可以看做是其對(duì)應(yīng)顯變量的抽象和概括,顯變量則可視為特定潛變量的測(cè)量指標(biāo)。在文理科相關(guān)性的分析中,我們可以將文科、理科看成潛變量,將語文、外語、政治、歷史這四個(gè)顯變量看成文科的測(cè)量指標(biāo),將數(shù)學(xué)、物理、化學(xué)、生物這四個(gè)顯變量看成是理科的測(cè)量指標(biāo),那么求文理成績(jī)之間的相關(guān)問題就轉(zhuǎn)化成潛變量之間相關(guān)的問題。
那么。我們究竟該選用哪種方法呢?或者假如說我們同時(shí)使用了上面三種方法,求出相關(guān)系數(shù),該選擇哪一個(gè)呢?比如我們計(jì)算的結(jié)果分別是0.35(簡(jiǎn)單相關(guān))、0.85(最大典型變量)、-0.65(潛變量相關(guān)),這個(gè)時(shí)候我們到底該相信哪個(gè)數(shù)據(jù)呢?
其實(shí),我更愿意相信簡(jiǎn)單相關(guān)計(jì)算的結(jié)果。原因如下:
1、簡(jiǎn)單相關(guān),既簡(jiǎn)單又易理解。
2、典型相關(guān)的取值范圍是【0,1】,它計(jì)算出的結(jié)果沒有正負(fù),只有大小。與我們實(shí)際研究目的有悖。我們想知道學(xué)生是否在文理課程上均衡發(fā)展,所謂均衡就是正相關(guān),所謂不均衡就是負(fù)相關(guān)。而典型相關(guān)做不到。
3、潛變量相關(guān)雖然取值范圍是【-1.1】,但是它多數(shù)是采用主成分的方法擬合潛變量,而依據(jù)方差提取最大主成分的過程與我們的分析貌似不甚吻合。
4、最重要的是,其實(shí)簡(jiǎn)單加總與典型相關(guān)、主成分相關(guān)擁有同一個(gè)思想,就是先把多個(gè)變量擬合成一個(gè)變量(或幾個(gè)),然后分析這個(gè)擬合出來的變量之間的相關(guān)性。其實(shí),在量綱、數(shù)量級(jí)相同的情況下,而且權(quán)重也容易計(jì)算的情況下,最簡(jiǎn)單有效的擬合就是加總!所以我認(rèn)為簡(jiǎn)單加總后計(jì)算出的相關(guān)系數(shù)是最有效。而潛變量、典型變量是在量綱或數(shù)量級(jí)不等的情況下,衡量多個(gè)變量之間相關(guān)關(guān)系的有效方法。
舉例2:計(jì)算硬幣正反概率
最后,再給大家做道選擇題。
問題:如果一枚硬幣連拋10次都是正面,問第11次出現(xiàn)正面的概率是多少?
選項(xiàng):A. 接近0% B.50% C.接近100% D. 以上答案都不對(duì)
一個(gè)硬幣連拋10次都出現(xiàn)正面的概率是0.510,絕對(duì)的小概率事件。在一次實(shí)驗(yàn)中,小概率事件發(fā)生,那么我們就應(yīng)該拒絕原假設(shè)。原假設(shè)是什么?硬幣出現(xiàn)正反的概率是0.5。所以,我們可以大膽地推斷,硬幣本身就是一個(gè)兩面都是正面的硬幣,所以說第11次出現(xiàn)正面的概率是100%,或者接近100%。大家是不是有異議呢?
樹上10只鳥,獵槍一槍打死1只,樹上還剩0只的結(jié)論大家都應(yīng)該同意吧。因?yàn)槲覀兛紤]的是實(shí)際問題,不是10-1=?的數(shù)學(xué)算式。所以大家在幼兒園的時(shí)候就知道槍聲響過,樹上一只鳥都不會(huì)剩。試想,你和你的朋友打賭投硬幣猜正反,如果10次之后朋友投出來的都是正面,你會(huì)怎么想?兄弟你出千了吧,硬幣肯定有問題吧!相信用不了10次,你就會(huì)提出這樣的質(zhì)疑了。如果說計(jì)算概率,0.5沒有錯(cuò),獨(dú)立事件發(fā)生的概率不因之前的情況而改變。但是,如果用假設(shè)檢驗(yàn)的思想,100%的結(jié)論就更合理了。之所以說0.5的結(jié)果不對(duì),不是說你的計(jì)算出錯(cuò)了,而是在解決實(shí)際問題的時(shí)候,你太教條了,太書本了,從而選錯(cuò)方法了。
我的分享結(jié)束了,大家也聽了也笑了,但是笑過之后務(wù)必記住我啰嗦了一個(gè)小時(shí)的這句話:用數(shù)據(jù)說話就是用真實(shí)的數(shù)據(jù)說話,說真話、說實(shí)話、說管用的話!最后說一句廢話:希望剛剛過去的1個(gè)小時(shí)沒有浪費(fèi)大家的時(shí)間。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10