
細(xì)思極恐!大數(shù)據(jù)和機(jī)器學(xué)習(xí)揭示十二星座的真實面目
“為什么我的論文總發(fā)表不了,是不是我天生就不是做研究的料?”很多同學(xué)在寫論文中遇到挫折,經(jīng)常會發(fā)出這樣的疑問。那么今天我就用星座,真實的數(shù)據(jù)和“高大上”的機(jī)器學(xué)習(xí)來幫大家分析一下原因。首先聲明,我不是宿命論的支持者,也不懂占星術(shù)。本文也不是教大家如何成功,但利用本文的研究成果,可以幫助大家少走些彎路。現(xiàn)在網(wǎng)絡(luò)上充斥著各種星座分析,但和本文相比都弱爆了。不管大家之前對星座分析持何種態(tài)度,我希望大家耐心讀完本文之后,能對星座與天賦有全新的認(rèn)識。(本文很長,分上下兩部分。另外,本文中的“天賦”其實用“本性”更合適些,因為它還包括了性格等因素。)
本文的研究方法很簡單:聚天下之天才而觀察之。把各行各業(yè)中的天才們收集起來,看看他們哪個星座人數(shù)多,哪個星座人數(shù)少。方法簡單,人人都會。但操作細(xì)節(jié)很重要,這樣做出來的結(jié)果才會有意思(本文研究方法的具體細(xì)節(jié)見【附錄一】)。我們先來看一下有哪些天才被我當(dāng)成了“小白鼠”?!氨硪弧笨偨Y(jié)了本文所使用的數(shù)據(jù)。
表一:數(shù)據(jù)總結(jié)表
本文共選擇了27個行業(yè),總共5700多個樣本,其中華人約占350個,女性約占600個,南半球約占300個。如果沒有特別注明,各行業(yè)數(shù)據(jù)的歷史一般是從該獎項(如果有的話)設(shè)立開始,直到2017年為止。有些行業(yè)有嚴(yán)格的篩選過程,比如每年評選的諾貝爾獎,各種體育競技項目的國際比賽等,我們就可以利用它們來確定樣本。然而,另一些行業(yè)沒有固定的篩選過程,尤其是藝術(shù)類。所以,我們只能靠“時間”來篩選。具體來說,就是用搜索引擎搜索“歷史上著名XXX”(XXX為職業(yè)名,比如,建筑師,作家等),來挑選舉世公認(rèn)的行業(yè)領(lǐng)軍人物。本文使用的數(shù)據(jù)的總時間跨度大約是最近300年左右。
既然介紹了數(shù)據(jù),那么我們就來看一下使用所有的數(shù)據(jù)統(tǒng)計出的星座分布(圖一)(注:由于每個星座內(nèi)的天數(shù)稍有不同,我用得到的每個星座的人數(shù)除以該星座的天數(shù),從而算出星座分布的日均數(shù),以排除天數(shù)不同帶來的影響。本文之后所有的計算和結(jié)論都建立在諸如此類的日均數(shù)上)。圖一的四種顏色分別代表土(黃色),水(藍(lán)色),火(紅色),風(fēng)(灰色)四大星象。從圖一中,我們看到射手人數(shù)最少,而與之相鄰的摩羯座人數(shù)最多,兩者的平均數(shù)接近全部星座的平均數(shù)15.5。另外,兩頭的白羊座和雙魚座人數(shù)也不少。除此之外,就很難看出有其它什么規(guī)律了。如果本文的星座分析是這樣的話,就太”圖樣圖森破“了。所以,讓我們接著往下看。
圖一:星座人數(shù)總分布圖
1關(guān)于天賦的星座分析
我把判斷顯著差別的計分法則(見【附錄一】)運(yùn)用到“表一”的27個行業(yè)上,我們就得到了“表二”(簡單理解,正2分表示“人數(shù)非常多”,正1分表示“人數(shù)比較多”,負(fù)1分表示“人數(shù)比較少”,負(fù)2分表示“人數(shù)非常少”,0分則表示“人數(shù)不多不少,處于平均水平”)。請記住“表二”,因為它是本文上半部分最重要的成果!
表二:十二星座行業(yè)得分表
我在表的上方標(biāo)注了每個行業(yè)所可能需要的"(主要)能力"(以我這個外行的角度),有些能力是幾個行業(yè)共享的。另外,“表二”是僅僅基于北半球的樣本所得結(jié)果(至于為什么分南北半球,我將在本文下半部分作詳細(xì)解釋)。行文至此,星座與天賦之間的關(guān)系就在“表二”建立起來了。是不是表中出現(xiàn)2分的情況比你想的要多得多?有同學(xué)可能會問:
“表中某星座在某行業(yè)得了2分,說明這個星座在這個行業(yè)的領(lǐng)軍人物的人數(shù)要超過其他星座,會不會是因為這個星座從事這行業(yè)的人本來就多呢?”
要回答這個問題,就得調(diào)查這個行業(yè)的所有從業(yè)人員的星座了,可惜相關(guān)數(shù)據(jù)很難獲得。另外,如果從事這行業(yè)的人本來就多,這本身就是一個很有意思的現(xiàn)象。與本文的研究并不矛盾。
言歸正傳,鑒于此表的信息量很大,我們可以先計算各個星座的大類(科研,藝術(shù),體育)平均得分,這樣看起來可以更直觀一些。如下表所示,在科研方面,處女座和獅子座這兩個相鄰星座分別占據(jù)著科研的頭名和末名。在藝術(shù)方面,白羊座是當(dāng)仁不讓的第一,而雙子座,處女座和摩羯座則并列最后。在體育方面,摩羯座表現(xiàn)突出,而天蝎座則表現(xiàn)不佳??偟膩碚f,這些星座如果在某一方面特別強(qiáng),那么在其它方面就會差一點,甚至很差。反倒是巨蟹座和天秤座雖然沒有最強(qiáng)的某一方面,但是在全部三個方面都優(yōu)于平均水平,屬于均衡發(fā)展型。
表三:十二星座大類行業(yè)平均得分表
下面我就基于“表二”對十二個星座依次進(jìn)行分析。(請注意,下文括號內(nèi)的代表人物是一些個例,是按影響力大小選擇的,并不一定符合這里統(tǒng)計意義上的性格特征描述)
一,白羊座(代表人物:歐拉,格里高利·派克,黑澤明,卡拉揚(yáng),達(dá)芬奇,梵高)
白羊座在藝術(shù)類得分之高,無人能出其右,尤其是需要運(yùn)用感情和強(qiáng)烈的肢體語言來表達(dá)的表演,指揮和鋼琴演奏。再加上導(dǎo)演和繪畫,網(wǎng)絡(luò)上對白羊座的評價是:沖動,積極,思維活躍。我覺得還是有些靠譜的。同時,也說明他們擅長表達(dá)和詮釋事物的內(nèi)涵。這樣才能做出出色的數(shù)學(xué)研究,去詮釋世間美妙的真諦!白羊座在計算機(jī)和圍棋上得分很低,說明他們不喜歡按部就班地進(jìn)行計算和算計。
二,金牛座(代表人物:高斯,薩繆爾森,哈耶克,貝聿銘,范斯哲,奧黛麗·赫本)
金牛座在藝術(shù)類中的導(dǎo)演和時裝設(shè)計得分比較高但繪畫得分一般,說明他們畫面感很強(qiáng),而且善于運(yùn)用到實際中。金牛座在斯諾克和宇航員這兩項中得分較高,說明網(wǎng)絡(luò)上流傳的“金牛座可靠,有耐心”并非空穴來風(fēng)。優(yōu)秀的斯諾克選手需要時刻保持紳士風(fēng)度,斯諾克本身就是一項需要克制情緒的運(yùn)動,如果過度興奮或者過度悲觀,都難以打好。至于宇航員更是如此。眾所周知,宇航員的選拔條件非常嚴(yán)苛,必須具有非常堅強(qiáng)的意志品質(zhì)和忍耐力來面對各種惡劣的生存環(huán)境。金牛座在網(wǎng)球項目上得到了為數(shù)不多的負(fù)2分,這更說明他們
“穩(wěn)重,缺少爆發(fā)力” 。至于金牛座的其它性格,比如,吝嗇,古板,我們無法從行業(yè)表現(xiàn)中得到答案。
三,雙子座(代表人物:納什,赫伯特·西蒙,特朗普,吳清源)
雙子座不擅長做“大生意”,而喜歡“耍小聰明”,擺弄“小玩意兒”,比如,下個棋,照個相。他們也不擅長需要熱情沖動的行業(yè),比如,表演,繪畫,時裝設(shè)計等,而且在斯諾克上表現(xiàn)也不好。這倒挺符合網(wǎng)絡(luò)對雙子座的評價:“機(jī)智,善變,不安分”。即使是做研究也是關(guān)注“小”的方面,比如,在諾貝爾經(jīng)濟(jì)學(xué)獎獲得者中,有10位是雙子座的,竟無一人研究宏觀經(jīng)濟(jì)學(xué)。倒是有4人研究博弈論(John
Harsanyi,Lloyd S. Shapley,Robert Aumann,John Nash),4人研究微觀經(jīng)濟(jì)學(xué)(Maurice
Allais ,Herbert Simon,George Akerlof,William Vickrey)。
四,巨蟹座(代表人物:圖靈,梅麗爾·斯特里普,喬治·阿瑪尼,伊隆·馬斯克)
巨蟹座在表演,尤其是時裝設(shè)計中得了高分。如果把表演細(xì)分成男演員和女演員,巨蟹座在女演員分布中的得分比在細(xì)分前還要高(僅次于天蝎座,“蛇蝎美人”原來是有數(shù)據(jù)支持的!呵呵。)。再結(jié)合他們在時裝設(shè)計中的搶眼表現(xiàn),果然如同網(wǎng)絡(luò)所說,這是一個“母性泛濫”的星座!照這個情況,巨蟹座不應(yīng)該在鋼琴演奏中獲得低分。獲得低分的原因可能是因為它們對于枯燥的反復(fù)訓(xùn)練缺乏堅持下去的毅力。這一點得到了宇航員的佐證。在重壓之下,巨蟹座早早地就躲進(jìn)了自己的蟹殼中,呵呵。盡管如此,巨蟹座因為他們的小心謹(jǐn)慎使得他們在玩德州撲克時立于不敗之地。難道這是傳說中的凱利公式(KellyFormula)的真實寫照?(注:在重復(fù)賭局中,凱利公式根據(jù)贏輸?shù)母怕始矮@利多少來決定投資(賭注)的大小使得(長期的)總預(yù)期收益最大,使用此公式就永遠(yuǎn)不會有破產(chǎn)無注可投的情況出現(xiàn)。)而且,巨蟹座的小心謹(jǐn)慎幫助他們在科研中取得成就,巨蟹座在科研中的得分超過十二星座的平均水平。
五,獅子座(代表人物:香奈爾,聶衛(wèi)平,雷-達(dá)里奧,索羅斯,李嘉誠)
自信大膽且具有大局觀的獅子座在商界和投資界傲視群雄,果然名不虛傳!這點也體現(xiàn)在了下棋,建筑,文學(xué)和時裝設(shè)計上。另一方面,過分自信的獅子座就會變得武斷魯莽,做事不仔細(xì)考慮,觀察力不強(qiáng),這一點在高爾夫球和哲學(xué)上表現(xiàn)尤具代表性。與之相關(guān)的,他們在繪畫,作曲,物理,醫(yī)學(xué)表現(xiàn)也不佳。
六,處女座(代表人物:黎曼,安藤忠雄,歌德,小澤征爾,巴菲特)
處女座是個很有意思的星座。他們在科研類中的得分是十二個星座里最高的,尤其擅長關(guān)注結(jié)構(gòu)里的細(xì)節(jié)。而他們在藝術(shù)類的得分是最低的之一。另外,如同金牛座,處女座的忍耐力也是杠杠的,他們在斯諾克和宇航員這兩項中取得高分。由此可見,處女座既仔細(xì)又有忍耐力,但不按部就班,還有很強(qiáng)的觀察力,這是他們在搞科研時的制勝法寶。但另一方面,不感情用事的處女座缺少藝術(shù)創(chuàng)作中的那“神來一筆”。處女座在網(wǎng)上的評價,
“完美主義,吹毛求疵,頭腦清晰”。這一點在這里應(yīng)該是說得通的。
七,天秤座(代表人物:霍洛維茨,李云迪,李安,艾略特,張愛玲,楊振寧)
天秤座的平衡感強(qiáng),擅長分析處理結(jié)構(gòu)問題,比如,化學(xué),建筑,尤其是文學(xué)
。天秤座出人意料地在網(wǎng)球項目上得了高分,這可能也得益于他們的平衡感吧。在十二個星座中,天秤座在27個行業(yè)里得負(fù)分最少的星座,沒有明顯的短板。這里,我們無法驗證天秤座是否如網(wǎng)絡(luò)所說“平易近人,輕浮,優(yōu)柔寡斷”。
八,天蝎座(代表人物:費雯麗,居里夫人,比爾蓋茨,畢加索,莫奈,屠格涅夫)
天蝎座在哲學(xué)和繪畫上都得到了超高分,而且在表演方面也很強(qiáng)。這表明他們敏感,思想復(fù)雜,具有很強(qiáng)的洞察力。僅憑他們在哲學(xué)上的優(yōu)異表現(xiàn),天蝎座就無愧于十二星座中“最理性星座”的稱號!由此可以推斷,他們已把感性的繪畫和表演提升到了理性的高度。然而,過分強(qiáng)調(diào)“形而上”的天蝎座在實際科研(比如,計算機(jī),化學(xué))及其它行業(yè)(比如,鋼琴演奏,網(wǎng)球,斯諾克)中顯出了缺乏耐心,不注意細(xì)節(jié)的弱點。天蝎座不擅長變魔術(shù),應(yīng)該也是理性思考的后遺癥吧。這里無法驗證網(wǎng)絡(luò)上評價天蝎座的“疑心,善妒,報復(fù)心強(qiáng)”。
九,射手座(代表人物:勞倫斯薩莫斯,馬克吐溫,斯皮爾伯格,李政道)
與天蝎座正好相反,射手座在哲學(xué)和數(shù)學(xué)方面表現(xiàn)不佳,這可能與他們熱情開放的性格,以及缺乏縝密思維的特質(zhì)有關(guān)。而且,缺少耐心和忍耐力的他們在斯諾克,宇航員,及商業(yè)等行業(yè)中難有建樹。所以,網(wǎng)上評價射手座“浮躁,做事易半途而廢”,好像有點道理。不過,值得一提的是,射手座在經(jīng)濟(jì)研究方面的表現(xiàn)突出。一共有六位諾貝爾經(jīng)濟(jì)學(xué)獎獲得者,以及五位克拉克獎獲得者。 與雙子座相比,研究宏觀經(jīng)濟(jì)學(xué)的射手座經(jīng)濟(jì)學(xué)家的數(shù)量明顯增加,比如,F(xiàn)inn Kydland,Gunnar Myrdal,Eric Maskin,Trygve Haavelmo,Martin Feldstein,Lawrence Summers等。有意思的是,雙子座與射手座在經(jīng)濟(jì)研究上都表現(xiàn)很好(盡管擅長的方面不同),但他們在商業(yè)領(lǐng)域表現(xiàn)都很糟糕。
十,摩羯座(代表人物:牛頓,史蒂文·索德伯格,舒馬赫,老虎伍茲)
摩羯座是十二星座里唯一一個在德州撲克和(尤其是)F1賽車都得高分的星座,難怪他們被網(wǎng)上評為“最有原則”的星座。如同小心謹(jǐn)慎的巨蟹座一樣,腳踏實地的摩羯座在計算機(jī)研究領(lǐng)域優(yōu)于其它星座。然而,專注有余的摩羯座想象力和創(chuàng)造力有點不足,這點可以從他們在建筑,時裝設(shè)計,和魔術(shù)上的不佳表現(xiàn)看出。與此相關(guān),分析處理結(jié)構(gòu)問題也需要想象力和發(fā)散性思維(比如,化學(xué),建筑,文學(xué),尤其是物理),但過于嚴(yán)謹(jǐn)?shù)哪︳勺⒉簧瞄L此類問題,即使有牛頓這樣的巨擎撐腰也無濟(jì)于事。
十一,水瓶座(代表人物:保羅紐曼,莫扎特,舒伯特,狄更斯,愛迪生)
都說水瓶座充滿智慧,可是“表二” 并沒有反應(yīng)出這點。相反,水瓶座在科研類和文藝類的得分都處于十二個星座的下游。在體育類中,也只有高爾夫球是個亮點。崇尚自由的水瓶座確實不適合從事德州撲克,斯諾克和攝影等需要克制情緒的行業(yè)。順便提一下,水瓶座在表演行業(yè)中處于中游,但如果把表演行業(yè)細(xì)分成男演員和女演員,水瓶座可以在男演員中排第二位(僅次于白羊座),接近一個標(biāo)準(zhǔn)差。所以,水瓶座的男同學(xué)們只要負(fù)責(zé)耍帥,打打高爾夫球就行啦。
十二,雙魚座(代表人物:喬布斯,默多克,肖邦,愛因斯坦,雨果,加加林)
在我看來,雙魚座大概是十二星座里最神奇的星座了。首先,與天蝎座相似,雙魚座依靠縝密的思維來思考“形而上”的哲學(xué)問題,但面對需要具體計算的計算機(jī)研究和德州撲克時都表現(xiàn)不佳。但與天蝎座不同的是,雙魚座有較強(qiáng)的忍耐力和專注力,這幫助他們在商界大展身手。而且,雙魚座是唯一一個既擅長高爾夫有擅長網(wǎng)球的星座,真是“靜如處子,動如脫兔”。更重要的是,雙魚座還是個會??犰拍g(shù)的高手,說明他們在理性之中還帶有感性,可能還具有一定的膽量??傊S多事物的兩面性都體現(xiàn)在這個星座中,真是件奇妙的事情。這些表現(xiàn)與網(wǎng)絡(luò)上對雙魚座的評價“感性,濫情,意志力薄弱”很不相同。我覺得《名偵探柯南》中那個神出鬼沒,風(fēng)流倜儻的怪盜基德更像是雙魚座的(僅管他被設(shè)定為與漫畫作者本人一樣的雙子座),呵呵。
行文至此,我把每個星座所擅長和不擅長的能力都分析了一遍,而且還借此驗證了網(wǎng)上流行的星座性格分析是否靠譜。盡管性格與能力有密切聯(lián)系,但是它們終究是兩個概念。所以,正如大家在上文中看到的,在大多數(shù)情況下,我只能驗證其中的一部分。驗證的結(jié)果總結(jié)如下(見表四):有些星座的分析,經(jīng)過驗證是比較靠譜的,比如表最左側(cè)的雙子座,獅子座,處女座,巨蟹座和摩羯座。但還有一些,我只能檢驗其中的一部分。有時甚至一點也不能,比如,表最右側(cè)的天秤座和雙魚座。
表四:十二星座驗證表
在這里我想插一個花絮:大家可能知道菲爾茲獎首位(也是迄今唯一一位)女性獲得者,伊朗著名數(shù)學(xué)家瑪麗安·米爾扎哈尼(MaryamMirzakhani)最近(2017年7月)英年早逝,年僅40歲。當(dāng)我在閱讀她的生平時(見【1】),發(fā)現(xiàn)了一些有意思的事情。
瑪麗安的家里沒人是科學(xué)家,她從沒想過要學(xué)數(shù)學(xué),但一直被鼓勵自立和追求興趣。跟所有女孩一樣喜歡看小說。想當(dāng)小文青的她非但不是學(xué)霸,還對數(shù)學(xué)很頭痛,老師也說她沒天分。直到高二,她才在一個偶然的情況下發(fā)現(xiàn)了自己的數(shù)學(xué)天賦。米爾扎哈尼說自己很慢,是個“慢”數(shù)學(xué)家。到高二才發(fā)掘天分,解題也是耐心組合出辦法。當(dāng)她從事數(shù)學(xué)研究時,她的心思都在研究上,說自己是“慢人”,不靠靈光一閃解決難題,“有些問題已經(jīng)研究了十幾年,但經(jīng)過數(shù)月甚至數(shù)年,你才能發(fā)現(xiàn)問題不同的一面?!庇兴固垢4髮W(xué)同事說,她最獨特的是研究方法,能創(chuàng)新地將不同事物連接在一起,對難題特別興奮,毫無懼色。這種“慢”和“穩(wěn)”的性格不光在工作上,生活上也一樣?,旣惏驳恼煞蛞彩强茖W(xué)家。兩人一起去跑步。老公高大健壯,一開始跑前面,她體格嬌小,一直沒有放慢腳步,半個小時以后,老公精疲力竭,她還保持著最初的速度。米爾扎哈尼給世界留下過一句話:“只要有耐心,孩子總會發(fā)現(xiàn)數(shù)學(xué)之美。我不認(rèn)為每個人都應(yīng)該成為數(shù)學(xué)家,但我相信許多人不曾給數(shù)學(xué)一個真正的機(jī)會?!?br />
當(dāng)我讀完她的生平,我?guī)缀跄?0%地肯定她應(yīng)該是金牛座。于是去查了她的生日(5月3日),發(fā)現(xiàn)果然就是!當(dāng)然,這畢竟只是一個個例。在上文的星座分析中,我不做個例分析,是為了強(qiáng)調(diào)結(jié)果的統(tǒng)計屬性,避免給大家造成“以偏概全”的錯覺。不過,瑪麗安·米爾扎哈尼的例子是最近發(fā)生的,且非常具有傳奇性,所以就談一下,在下文中還會被提及。
言歸正傳,這里需要指出的是,我對這27個行業(yè)中的大部分都不是很熟悉,所以,只能從外行的角度給這些行業(yè)加上所需的能力。這樣能夠幫助完成分析,并盡量避免無法解釋某些星座表現(xiàn)的情況發(fā)生。每個人對這些行業(yè)的理解不同,就有可能導(dǎo)致分析的結(jié)論不同。非常歡迎大家提出寶貴意見。
上述的十二星座分析只停留在文字描述,下面我要對“表二”進(jìn)行量化分析。對數(shù)學(xué)不感興趣的同學(xué)可以略過,直接跳到小結(jié)部分。
2星座量化分析
上文“表二”中的每一列是一個行業(yè),也可以看成是一列數(shù)組,所以我們可以計算它們之間的關(guān)聯(lián)系數(shù)。按道理,這應(yīng)該是一個27乘27的相關(guān)系數(shù)矩陣,但篇幅有限,我只報告相關(guān)性最高的那些行業(yè)。而且,我比較關(guān)心大類與大類之間的行業(yè)相關(guān)性,而不是大類內(nèi)部行業(yè)的相關(guān)性(比如,數(shù)學(xué)和物理屬于科研大類,繪畫和作曲屬于藝術(shù)大類,等等)。注意,這里的相關(guān)性不一定是我們平常認(rèn)知里行業(yè)間的相關(guān)性,而可能是由于十二個星座在行業(yè)中的表現(xiàn)造成的相關(guān)性。所以,我們會看到一些出乎意料的結(jié)果。
“表五”列出了相關(guān)系數(shù)大于0.5的行業(yè)(不等于零的顯著性都超過至少95%)。其中有些比較容易理解,比如,商業(yè)和投資。有一些乍看不明白,但稍微想一下就理解的,比如,德州撲克和計算機(jī),哲學(xué)與繪畫,宇航員和斯諾克。但有好些就不那么容易理解了,比如,相關(guān)系數(shù)高達(dá)0.83的指揮與數(shù)學(xué),以及緊接著的作曲與醫(yī)學(xué)(相關(guān)系數(shù)0.82)。就拿指揮與數(shù)學(xué)來說,其相關(guān)系數(shù)高的原因是白羊座在這兩項都得了高分,而雙子座都得了低分,其它星座沒有一高一低相沖突的情況出現(xiàn)。
表五:行業(yè)相關(guān)性列表
具體來說,雙子座得低分可能是因為他們機(jī)智善變的性格不擅長思考“形而上”的數(shù)學(xué)或哲學(xué)問題(雙子座繪畫也不行,而繪畫與哲學(xué)相關(guān)性高達(dá)0.8)。同樣,這種性格也不適合從事需要投入感情的行業(yè),比如,指揮。另外,他們在斯諾克的低分和圍棋的高分,更證實了他們機(jī)智而不穩(wěn)重的一面。再看白羊座,情況稍稍復(fù)雜一些。沖動的白羊座不僅在指揮,還在表演和鋼琴演奏中取得高分,這是可以理解的。但他們在數(shù)學(xué)中的優(yōu)異表現(xiàn)就不能單單用“沖動”來解釋了,我只能認(rèn)為他們還擅長發(fā)掘事物的內(nèi)涵,尤其從抽象的角度。這點可以由他們在繪畫中的表現(xiàn)來佐證。
縱向看完“表二”后,我們再橫向看一下。表中的每一行也是一列數(shù)組,按道理,我們也可以計算行與行的相關(guān)性。不過,我在這里使用一個新方法:層次聚類(Hierarchical
Clustering)。這個方法的原理很簡單:每列數(shù)組在初始時刻各自為一個類別,然后由下往上(agglomerative),每一次迭代選取距離最近的兩個類別(這里使用的是Euclidean距離),把他們合并,直到最后只剩下一個類別為止,這樣“一棵樹”就構(gòu)造完成了。這種方法的好處是不用在一開始就確定聚類數(shù)(number
of
clusters),可以等到建立樹形圖后再確定。這也是機(jī)器學(xué)習(xí)中的一種分類方法(非監(jiān)督學(xué)習(xí))。“表二”的聚類樹形圖和8個聚類(紅框)如下。
圖二:十二星座層次聚類樹形圖
如“圖二”所示,水瓶座與雙魚座,還有金牛座與處女座距離很近,所以它們最先分別組成一個聚類。倒是巨蟹座與射手座的結(jié)合有點出乎意料。再向上一層,天秤座與獅子座相近,所以他們歸為一個聚類。在樹形圖中,越往上,差異越大(距離越遠(yuǎn)),例如,雙子座,摩羯座,白羊座,天蝎座。另外,除了同為土象的金牛座與處女座距離較近以外,土水火風(fēng)四大星象的說法并沒有從“圖二”得到支持。順便提一下,本方法用到的距離與相關(guān)系數(shù)實際上是一回事:(已標(biāo)準(zhǔn)化的)數(shù)組間的相關(guān)系數(shù)等于數(shù)組間的距離(Euclidean距離)的倒數(shù),即兩個數(shù)組相關(guān)系數(shù)越大,它們之間的距離就越小。這個結(jié)論符合一般認(rèn)知,也可以從它們的數(shù)學(xué)定義中證得。由于篇幅有限,此處不再贅述。
最后,我對“表二”進(jìn)行主成分分析(PCA,也屬于機(jī)器學(xué)習(xí)中非監(jiān)督學(xué)習(xí)的一種)。如“圖三”所示,第一個因子(PC1),也是最重要的因子,只能解釋“表二”中20%的方差。要想累計貢獻(xiàn)率達(dá)到90%,必須用到前8個因子。這種情況是符合一般認(rèn)知的,因為我們知道十二個星座之間有明顯差異,很難用一兩個因子就解釋全部信息。在進(jìn)行主成分分析時,原有的分類被打破,所以很難解釋所得到的結(jié)果。這也是主成分分析的一個弱點。
圖三和表六:主成分分析方差累計貢獻(xiàn)率及相關(guān)星座
因此,我計算了前四個主成分因子與12個星座的相關(guān)性,并把其中系數(shù)絕對值最大的星座列在了 “表六” 。這樣我們可以大致了解這些主成分因子所代表的含義。比如說,第一個因子與雙子座的相關(guān)性高達(dá)93%,與白羊座為-70%。那么,我們可以大致認(rèn)為雙子座與白羊座的反面是十二星座里最主要的星座,盡管它們只能解釋所有信息中的五分之一。以此類推,由于越往后,所剩信息越少,所以因子與星座的相關(guān)性會變?nèi)?。但我們還是能夠看出個大概。值得注意的是, “表六” 列出的星座與前文中的層次聚類樹形圖最上方的星座大體相符,例如,雙子座,摩羯座,獅子座,白羊座等,說明這些星座的確比較特別一些(類似于矩陣中的基)。
3小結(jié)與應(yīng)用
我在本文(上半部分)考查了星座與天賦之間的關(guān)系。通過觀察十二星座在總共27個行業(yè)中的表現(xiàn),我們把每個星座和它們各自的強(qiáng)項和弱項聯(lián)系了起來。其次,借助星座們在行業(yè)中的表現(xiàn),我對網(wǎng)絡(luò)上的星座評價進(jìn)行驗證。有些星座經(jīng)過驗證是靠譜的(比如,雙子座,獅子座),但有些我們只能驗證一部分,甚至于還有一些我們無法驗證(比如,天秤座,雙魚座)。最后,通過量化分析,我們了解了十二星座大致可以分成8個聚類(cluster),其中有些星座比較相似,比如,水瓶座與雙魚座,還有金牛座與處女座。但有些星座與其它星座比起來更不同一些,比如,雙子座,摩羯座,獅子座,白羊座等。另外,我們需要至少8個主成分因子,才能使累計貢獻(xiàn)率達(dá)到90%。
看到這里,有同學(xué)可能會問:“我只是個普通人,你分析了一大堆關(guān)于天才的數(shù)據(jù),那與我何干?” 這個可以從三方面來回答:挖掘個人潛能,改進(jìn)個人短處,以及人際交往。
雖然本文探討的不是如何挖掘普通人的潛能,但本文的研究結(jié)果可以提供一個參考。從體育類及藝術(shù)類行業(yè)來說,一個初入某一新行業(yè)的成年人,要想通過挖掘潛能成為這一行業(yè)的領(lǐng)軍人物不太現(xiàn)實,但經(jīng)過一定課時的基本訓(xùn)練,把潛能發(fā)展成興趣愛好還是可行的。當(dāng)然,我不是說其它星座的同學(xué)不能做,而是說這些星座的同學(xué)的性格比較適合玩這些項目。舉個例子,機(jī)智靈巧的雙子座同學(xué)可以試著學(xué)學(xué)圍棋,玩玩攝影。小心謹(jǐn)慎的巨蟹座同學(xué)可以玩玩德州撲克。沖動熱情的白羊座同學(xué)可以開發(fā)的項目就更多了,從表演,繪畫,到鋼琴,甚至導(dǎo)演。在如今“自媒體”橫行的時代,白羊座有了一個很好的施展的平臺。說不定哪天,又會出來一個類似papi醬(水瓶座)的網(wǎng)紅。
另一方面,本文可以幫助大家更有的放矢地改進(jìn)自己的短處。比如,小心謹(jǐn)慎的巨蟹可以試著加強(qiáng)韌勁和自信,在工作和學(xué)習(xí)中有意識地大聲說出自己的想法,遇到困難時不輕易打退堂鼓。當(dāng)然,我不是說巨蟹座的同學(xué)一定就缺乏自信,而是說這種情況較其它星座更有可能發(fā)生。而且,我們也不一定要改進(jìn)得與金牛和獅子不相上下。如果能做到他們的一半,甚至只有三四成,那和原來的巨蟹比起來,已經(jīng)是不小的進(jìn)步了。其它星座也可仿效此方法對自己的短處進(jìn)行改進(jìn)。無論是挖掘長處,還是改進(jìn)短處,后天的自我完善和自我升華,無論對個人還是對國家,都會有是有益的。
本文的研究結(jié)果也可以應(yīng)用于平常的人際交往中。舉個例子,如果你老板(公司里或?qū)W校里)是獅子座,那就經(jīng)常性地給他(她)帶高帽子,讓自信的獅子更出風(fēng)頭。這樣你即使出點小錯,粗心的獅子也不會在意的。相反,你老板如果是處女座,那你只能辛苦一下,必須比他(她)還仔細(xì),否則既仔細(xì)又有忍耐力的處女會把你逼瘋的。又假如你老板是白羊座,那你做事最好不要拖沓,沖動的白羊總是希望立馬看到效果。如果你老板是雙子座,那他(她)倒不會怎么為難你,因為他(她)自己也飄忽不定,不過你要時刻準(zhǔn)備著應(yīng)付他(她)不知從哪兒冒出來的“鬼點子”。再假如你老板是金牛座,那就要避免與他(她)正面沖突或爭論(即使你是對的一方),否則他(她)會和你死扛到底。剩下的星座,我就不一一點評了,大家自己慢慢琢磨吧。
以上這些觀點也適用于戀愛中的男女朋友!而且,本文的量化分析結(jié)果也可以幫助大家“速配”。比如,金牛座和處女座,還有水瓶座和雙魚座這兩個容易湊到一起,可能他們之間的思維方式和性格比較相似一些吧。不過,如果我說得不準(zhǔn),大家不要怪我,要怪就怪機(jī)器學(xué)習(xí)吧,呵呵。
最后,在結(jié)束本文上半部分前,再次提醒一下大家,以上所有結(jié)論都建立在北半球的數(shù)據(jù)上,至于南半球的結(jié)論如何,以及為何要南北半球分開分析,這些都將在本文下半部分討論。當(dāng)然,下半部分要討論的遠(yuǎn)遠(yuǎn)不止這些,內(nèi)容非常勁爆,敬請期待!
附錄一:本文研究方法的具體細(xì)節(jié)
一,如何選擇行業(yè)?
在“表一”中,27個行業(yè)的選擇遵循以下三個原則:
要能夠突顯單個星座的特質(zhì)。比如,諾貝爾和平獎得主沒有被選為研究對象,因為他們大多是政治家,后天因素起了主要作用,不符合本文的初衷。又比如,許多體育項目沒有被選中,因為大多數(shù)項目是集體活動,即使產(chǎn)生了許多體育明星,也很難區(qū)分他們的成功是由于團(tuán)隊的力量還是個人的天賦造就的。而且,興奮劑在體育界的濫用也是另一個重要原因。
要有可靠的(經(jīng)過篩選的)且樣本數(shù)不是太小的數(shù)據(jù)。比如,歷年諾貝爾獎得主就是很好的數(shù)據(jù),僅管有些科目越來越強(qiáng)調(diào)團(tuán)隊合作(比如,化學(xué),醫(yī)學(xué)),從而掩蓋了單個星座的特質(zhì)。
選擇范圍盡量地廣。人類的天賦具有多面性,所以選擇的行業(yè)要盡可能覆蓋它們,比如想象力,邏輯推斷力,表達(dá)能力,等等。
當(dāng)然,我也不敢肯定這27個行業(yè)就一定能代表人類的所有天賦。但由于數(shù)據(jù)的限制,要想選出符合上述三個原則的行業(yè)并不是很容易。歡迎大家多提寶貴意見。
二,為什么要選擇每個行業(yè)中的天才?
這是因為在他們身上所體現(xiàn)的某些特質(zhì)較普通人明顯,僅管(在研究前)我們暫時不知道到底是哪些特質(zhì)。而且,他們在行業(yè)中的表現(xiàn)是客觀存在的,不會受到他人主觀評價的影響。其次,如同上文提及的,天才們是經(jīng)過了嚴(yán)格的篩選后得到的,數(shù)據(jù)可靠且容易獲得。
最后也是最重要的一點,如上所述,本文不是討論如何挖掘天賦,而是假設(shè)天賦已顯露出來后,研究它與星座的關(guān)系。我不是宿命論的支持者,一個人的天賦與他(她)最后取得的成就沒有必然聯(lián)系,因為會受到許多后天因素的影響。我使用‘天才’們的數(shù)據(jù)恰恰可以控制這些后天因素,尤其是學(xué)術(shù)類和體育類行業(yè),使得我更有效地觀察星座與天才之間的關(guān)系。打個比方,我們可以不失一般性地認(rèn)為諾貝爾經(jīng)濟(jì)學(xué)獎獲得者的經(jīng)濟(jì)學(xué)基本理論知識都很扎實,并且背景相似(都具有博士學(xué)位,都在高等學(xué)校任教,等等)。而且,我們也無法推斷說今年的諾獎獲得者比往屆的都要勤奮刻苦。至于藝術(shù)類,后天因素的影響就更小了,有人天生對聲音敏感,而有人天生對色彩敏感,諸如此類。即使有老師指導(dǎo),也只是起輔助作用。所以,如果在后天因素被控制的情況下,某個星座的人數(shù)相較其它星座還存在顯著差別,那么我們有理由懷疑造成這種差別的原因不是來自后天,而是先天!
三,如何判斷一個星座的人數(shù)比另一個星座的人數(shù)多(或少)?
這里我使用簡單的統(tǒng)計學(xué)方法。假設(shè)給定一個行業(yè)的星座分布(如圖一),我可以算出分布的平均值與標(biāo)準(zhǔn)差。如果某個星座在離開平均數(shù)1個標(biāo)準(zhǔn)差附近,那么情況就
“有點意思” 了,計正(負(fù))0.5分。如果明顯超過1個標(biāo)準(zhǔn)差,那么情況就 “很有意思” 了,計正(負(fù))1分。如果超過2個標(biāo)準(zhǔn)差,那么情況就
“非常有意思” 了,計正(負(fù))2分。如果是在1個標(biāo)準(zhǔn)差以內(nèi),則視為 “無差別”
,計0分。這樣做的好處是可以排除某些行業(yè)樣本數(shù)過大帶來的影響(注1:所有行業(yè)的星座分布都是人數(shù)分布,除了圍棋。每位圍棋選手按水平高低有一個實力評分,圍棋的星座分布建立在這些評分上)。
參考文獻(xiàn)
【1】小時候被指沒天分,長大卻成天才少女,她的生命很短但驚艷了世界(http://www.weidu8.net/wx/1017150055433484)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10