99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展大數(shù)據(jù)的三大理念解析_數(shù)據(jù)分析師
大數(shù)據(jù)的三大理念解析_數(shù)據(jù)分析師
2014-11-12
收藏

大數(shù)據(jù)的三大理念解析_數(shù)據(jù)分析師


維克托·邁爾·舍恩伯格同學(xué)曾在他的作品《大數(shù)據(jù)時(shí)代》中總結(jié)了相對于傳統(tǒng)的思維模式,大數(shù)據(jù)時(shí)代需要做出的三個(gè)轉(zhuǎn)變,也可以說是大數(shù)據(jù)思維模式的三個(gè)理念。這里也不準(zhǔn)備標(biāo)新立異了,還是沿著這個(gè)思路。不過,對于這種觀點(diǎn),我們還是需要批判的看待,既不能像網(wǎng)上某些人的評論那樣將其批判的一無是處,也不能不假思索的全盤接受。用馬克思主義哲學(xué)的說法,只有使用去粗取精、去偽存真的方式,取其精華,棄其糟粕,才能真正了解其精髓,從而實(shí)現(xiàn)繼承和發(fā)揚(yáng)。
  
一、大數(shù)據(jù)的理念之:用全量代替樣本
  
1841年埃德加·愛倫·坡發(fā)表了文學(xué)史上的第一部偵探小說《莫格街謀殺案》,盡管這部小說的解答有些欠抽,但不可否認(rèn),它開創(chuàng)了偵探小說的一種模式——“密室”,而這種模式被后來人所追隨,以至于似乎沒有寫過這種類型小說的都不算是偵探小說作家。所謂的“密室”,就是在一個(gè)封閉的空間內(nèi)犯下的兇案,終極目標(biāo)就是解答出兇手的犯案方式以及如何從密室中逃脫。在一代又一代的偵探小說家的努力下,密室的難度越來越大,從正常人無法進(jìn)入到所有人類都無法進(jìn)入,直至正常情況下所有生物都無法進(jìn)入。然而即便這樣,如果嚴(yán)格來說的話,絕對的密室是不存在的,它肯定會(huì)有空隙,就算看起來密不透風(fēng)也從微觀的角度找到某些空隙。既然不可能達(dá)到絕對的封閉,只能使用相對的概念,對于正常人無法進(jìn)入的空間都屬于密室,否則整個(gè)偵探小說界就少了一個(gè)很重要的組成部分。
  
剛接觸化學(xué)課的時(shí)候,接觸到了純凈物和混合物的概念,與此同時(shí)也提到了,絕對的純凈物是不存在的,即使是再精確的提純。于是,對于一種物質(zhì),只要沒有提到存在雜質(zhì),默認(rèn)按照純凈物來看待,否則就不僅僅是幾道考試題的問題了,可能整個(gè)化學(xué)學(xué)科的研究都沒法開展下去了。例如兩種物質(zhì)發(fā)生反應(yīng),如果按照實(shí)際情況都當(dāng)作混合物看待,不斷的糾結(jié)于各種雜質(zhì)的問題,那就偏離了真正的研究方向。
  
舉了上面兩個(gè)貌似不相干的例子,想表達(dá)的觀點(diǎn)就是,和多、少這類的相對概念一樣,實(shí)際上全也是一個(gè)相對的概念,絕對的全也是不存在的。之所以這么說,主要有兩方面的原因:
  
首先,當(dāng)數(shù)據(jù)量超過一個(gè)范圍之后,取得全部信息會(huì)很復(fù)雜,以至于可能根本是無法完成的任務(wù)。如果要獲取一個(gè)學(xué)校所有學(xué)生的某個(gè)信息,這個(gè)很容易,只需要將全校的學(xué)生聚集起來一起獲取,或者以班級為單位單獨(dú)獲取之后再進(jìn)行匯總,因?yàn)橐粋€(gè)學(xué)校不管有多大,學(xué)生人數(shù)都不會(huì)太大。而如果要獲取全市所有人的某個(gè)信息呢,這似乎就是不可能的了:如果在大街上隨機(jī)詢問,對于那些不出門的宅男、宅女們的信息就沒法獲?。蝗绻ぜ野暨M(jìn)行詢問,對于那種經(jīng)常不在家的就不太容易能遇到,而且那種無家可歸的流浪漢的信息也沒有辦法獲取;如果通過電話詢問,也肯定有因?yàn)槟撤N原因無非接電話的人,或者看到是陌生號碼就是不接的;也許互聯(lián)網(wǎng)可以解決這種問題,但肯定有那種一心只跳廣場舞、對網(wǎng)絡(luò)世界一竅不通的大爺、大媽們,就算是網(wǎng)絡(luò)一族,也有可能因?yàn)椴魂P(guān)注或者不感興趣而對此完全無視。就算可以獲取全市所有人的信息,那推廣到全省、全國呢。要知道,所謂的所有人,包括那種沒有戶籍的“黑戶”,以及那種隱姓埋名的在逃犯等人群。
  
就算這個(gè)問題可以隨著技術(shù)的進(jìn)步得以解決,那么接下來的問題就是在理論上都無法解決的,那就是有些屬性是連續(xù)的,比如時(shí)間、空間的概念。就像無法窮盡(0,1)之間的所有有理數(shù)一樣,取某個(gè)時(shí)間范圍內(nèi)所有時(shí)間點(diǎn)的某個(gè)信息,或者某個(gè)空間區(qū)域中所有位置的某個(gè)信息,從理論上講都是不可能的,因?yàn)樗械臄?shù)據(jù)都只能獲取離散的信息點(diǎn)。
  
綜上,獲取全部數(shù)據(jù),在理論上和實(shí)際上都是不可能實(shí)現(xiàn)的,那么就只能變通一下。對于第一種情況,可以縮小調(diào)查范圍,只關(guān)注某種類型的信息,畢竟對于另外類型的信息有可能根本沒有實(shí)際意義,比如電商們不會(huì)關(guān)注那些從來不網(wǎng)購的人們是怎么想的;同時(shí)默認(rèn),只要獲取的信息量超過總量的一個(gè)比例,就認(rèn)為它是全部數(shù)據(jù)。而對于第二種情況,可以通過細(xì)分相應(yīng)屬性來實(shí)現(xiàn),比如在某個(gè)時(shí)間范圍內(nèi)每隔0.1秒獲取一次信息,就可以認(rèn)為是全部的時(shí)間點(diǎn),畢竟這基本上是人類的最快反應(yīng)速度,要知道,百米比賽中發(fā)令槍響之后0.1秒之內(nèi)起跑的也屬于搶跑。
  
當(dāng)然,隨著技術(shù)的發(fā)展,在數(shù)據(jù)全面這一點(diǎn)上,會(huì)越來越趨近這個(gè)目標(biāo)。盡管離這個(gè)目標(biāo)還有一定的距離,但現(xiàn)在已經(jīng)默認(rèn)我們掌握了全部的數(shù)據(jù)。之所以可以這樣假設(shè),是因?yàn)樗^的“大數(shù)據(jù)”,更多的是一種思想,通過這種思想可以得到之前無法得到的結(jié)論。
  
之所以這么說,是因?yàn)椤按髷?shù)據(jù)”思維和傳統(tǒng)的思維有本質(zhì)的區(qū)別。
  
記得當(dāng)年學(xué)習(xí)關(guān)于抽樣檢驗(yàn)相關(guān)知識的時(shí)候,舉過的一個(gè)例子,驗(yàn)證一批燈泡的使用壽命,需要隨機(jī)抽取一定數(shù)量的燈泡,通過這些燈泡的測試結(jié)果來驗(yàn)證這一批燈泡的合格率大約是多少。由于燈泡在測試完之后就沒法再使用了,所以無法采取全量的方式,因?yàn)槿绻菢幼龅脑?,最終得到的會(huì)是一個(gè)絕對正確的結(jié)論和一堆廢品。
  
由于上述原因,只能通過抽樣的方式進(jìn)行這樣的檢驗(yàn),于是形成了一套抽樣檢驗(yàn)的理論,包括如果進(jìn)行隨機(jī)抽樣,以及形成了期望、方差等統(tǒng)計(jì)學(xué)概念,最終形成了概率論與數(shù)理統(tǒng)計(jì)這樣的學(xué)科。
  
接下來的問題就是,對于那些沒被抽樣檢測的燈泡,它的使用壽命信息就沒有實(shí)際意義了嗎?顯然不是。如果通過某種方式可以獲取了某工廠生產(chǎn)的所有使用過的燈泡的壽命(以目前的技術(shù),這種信息應(yīng)該是可以獲取的),就可以得到一些可能更有用的信息,比如可以通過找到哪些因素可以讓燈泡的使用壽命更長,提高制作工藝從而提升整體的產(chǎn)品質(zhì)量。當(dāng)然,這僅僅是最容易想到的,實(shí)際上能夠獲取的信息會(huì)更多。
  
而這種思維方式就是“大數(shù)據(jù)”的思維方式,它是處理那些已經(jīng)完成歷史使命的數(shù)據(jù),在這種海量的歷史數(shù)據(jù)中找出規(guī)律,從而對未來進(jìn)行預(yù)測;或者找到相關(guān)的影響因素,從而改善方案以達(dá)到利益最大化。
  
數(shù)據(jù),和普通的商品不同,并不會(huì)隨著它的使用而消失;只要有足夠的存儲空間存放,它便會(huì)一直保留著。而“大數(shù)據(jù)”思維,恰恰是在處理這種已經(jīng)使用過的數(shù)據(jù),并從中獲取到想要的信息。也許對于一次交易,只要結(jié)算完畢,交易信息就完成了歷史使命;對于一次實(shí)時(shí)檢測,只要得到結(jié)果并判斷是否需要人工干預(yù),檢測信息就完成了歷史使命;對于一次網(wǎng)絡(luò)檢索,只要找到需要的信息,查詢結(jié)果信息就完成了歷史使命……然而,只要把這些已經(jīng)完成歷史使命的數(shù)據(jù)都匯集起來,也許會(huì)得到意想不到的結(jié)果。因?yàn)殡S著數(shù)量的累積,它會(huì)慢慢的誘發(fā)質(zhì)變。
  
中國古人有一句諺語:“熟讀唐詩三百首,不會(huì)作詩也會(huì)吟?!蔽鞣絺商叫≌f里的人物福爾摩斯也曾經(jīng)曰過:“你掌握一百個(gè)案子的來龍去脈,第一百零一個(gè)案子一定不會(huì)在你的算計(jì)之外?!边@兩個(gè)貌似風(fēng)馬牛不相及的言論,恰恰反映了同一個(gè)理論,就是上學(xué)的時(shí)候物理課上經(jīng)常講的“量變到質(zhì)變”的理論,只要量變達(dá)到了一定程度,就會(huì)帶來質(zhì)的飛躍。
  
其實(shí)分析一下,道理是一樣的:
  
對于唐詩,只要被創(chuàng)造出來,抒發(fā)了詩人的情感,它就已經(jīng)完成了歷史使命。而通過熟讀前人的詩詞,只要達(dá)到了一定的數(shù)量(肯定是不止三百首了),以至于幾乎熟讀過所有前人的詩詞,就能夠分析出怎樣才能寫好一首詩,從而創(chuàng)造出新的詩篇來。
  
對于案件,只要經(jīng)過調(diào)查分析,找到兇手及相關(guān)信息,最終結(jié)案,它就已經(jīng)完成了歷史使命。而通過研究前人偵破的案件,只要達(dá)到了一定的數(shù)量(肯定是不止一百個(gè)了),以至于幾乎研究過所有案件的所有相關(guān)信息,就能夠獲得破案的思路和方法,從而當(dāng)遇到新的案件時(shí),就可以按照正確的偵破方向進(jìn)行。
  
當(dāng)然,上面的言論有人為拔高的成分,不能這些言論都算作大數(shù)據(jù)的思維方式,然而所謂的“大數(shù)據(jù)”思維方式肯定不是憑空產(chǎn)生的,而它的來源其實(shí)就是這種“量變到質(zhì)變”的理論。畢竟,在一定的范圍內(nèi),沒有比全部數(shù)據(jù)的量更大的數(shù)據(jù)集了。
  
二、大數(shù)據(jù)的理念之:兼容不精確
  
自然博物館,一游客問館里的講解員某個(gè)古生物化石距今有多少年,講解員答曰:“五百萬零二十年?!庇慰筒唤?,問這二十年是哪兒來的,講解員說:“我剛參加工作的時(shí)候,這個(gè)古生物化石距今有五百萬年;我現(xiàn)在工作了二十年,所以,這個(gè)古生物化石距今有五百萬零二十年?!碑?dāng)然,這僅僅是個(gè)段子。但從另一方面也說明了,當(dāng)數(shù)量超過了一定的范圍之后,其精確性已經(jīng)不重要了。
  
然而,什么屬于精確性呢?
  
上學(xué)的時(shí)候應(yīng)該都聽老師講過這樣的故事,說美國挑戰(zhàn)者號出現(xiàn)故障即將墜毀的時(shí)候,給航天員對自己親人做最后囑托的機(jī)會(huì)。其中一個(gè)航天員對自己的兒子說,挑戰(zhàn)者號之所以出現(xiàn)故障,就是因?yàn)殄e(cuò)了一個(gè)小數(shù)點(diǎn)。當(dāng)然,正常情況下這個(gè)時(shí)候老師都會(huì)用富含感情的話語表達(dá),就那么一個(gè)小小的錯(cuò)誤就導(dǎo)致了那么大的災(zāi)難,所以在以后的學(xué)習(xí)生活中,要認(rèn)真、仔細(xì)、嚴(yán)謹(jǐn)……
  
先不去糾結(jié)這個(gè)故事是否是中國教育界的原創(chuàng),仔細(xì)想一下,小數(shù)點(diǎn)的錯(cuò)誤真的是一個(gè)小小的錯(cuò)誤嗎?
  
小數(shù)點(diǎn)本身是不會(huì)出錯(cuò)的,沒有人會(huì)把它寫成別的符號。這里說的小數(shù)點(diǎn)錯(cuò)誤,只有一種可能,就是小數(shù)點(diǎn)的位置有誤,包括該有小數(shù)點(diǎn)的地方?jīng)]加小數(shù)點(diǎn),以及不該有小數(shù)點(diǎn)的地方卻加上了小數(shù)點(diǎn),這意味著,整個(gè)的數(shù)量級都是錯(cuò)誤的。而航天相關(guān)的計(jì)算中,很少使用加減法,更多的是乘、除,以及乘方等運(yùn)算,這樣會(huì)導(dǎo)致最終的結(jié)果也會(huì)出現(xiàn)數(shù)量級的錯(cuò)誤,而這種錯(cuò)誤,與正確結(jié)果至少相差十倍。這樣看來,這個(gè)小數(shù)點(diǎn)還能算作小問題嗎?
  
而與此同時(shí),在高中物理課上,關(guān)于萬有引力相關(guān)的部分(包括一些航天相關(guān)的),很多情況下的計(jì)算結(jié)果并不要求十分精確,只要數(shù)量級是正確的、并且前面的數(shù)值在某個(gè)范圍內(nèi),就算正確,甚至高考的時(shí)候都是這樣。也就是說,在這種特殊的領(lǐng)域,對于小數(shù)點(diǎn)后幾位的值,是沒必要十分精確的,盡管它的絕對數(shù)值也許會(huì)很大(如果數(shù)量級很大的話,小數(shù)點(diǎn)之后很多位所代表的實(shí)際數(shù)值也會(huì)是很大的)。
  
就像這部分開頭的段子那樣,對于人來說,二十年是一個(gè)很大的數(shù)量,人生能有幾個(gè)二十年呢;但對于遠(yuǎn)古時(shí)期的化石來說,甚至兩百年、兩千年都是可以被忽略不計(jì)的。同樣,對于地球上生活的人類來說,一公里是一個(gè)比較長的距離,但是在茫茫宇宙,它也是可以被忽略不計(jì)的部分。我們會(huì)用幾萬年前、幾百萬年前或者幾億年前來記錄古生物所處的時(shí)期,會(huì)用光年作為單位去衡量宇宙中的距離,盡管這樣的數(shù)值是不需要精確到具體多少年或者具體多少公里,但如果年限的數(shù)量級、光年前面的整數(shù)位數(shù)值都是錯(cuò)誤的,那這樣的數(shù)據(jù)也就是失去了它的意義。
  
這就是大數(shù)據(jù)所謂的不要求精確性,它僅僅是不去糾結(jié)于那些被忽略不計(jì)的小數(shù)點(diǎn)后多少位的具體值;然而,它并不意味著準(zhǔn)確性也不做要求,如果整數(shù)位、甚至數(shù)量級本身就是錯(cuò)誤的,那得出的結(jié)論就會(huì)與實(shí)際情況相差很遠(yuǎn),也就失去了它的意義和價(jià)值。
  
當(dāng)然,之所以可以不要求精確性,也是因?yàn)椤按髷?shù)據(jù)”處理的是歷史數(shù)據(jù)。對于一些正在使用的數(shù)據(jù)來說,是需要精確性的:銀行賬戶上的金額,以及支付寶、余額寶相關(guān)的交易金額,這些都是需要完全精確的,以保證社會(huì)的公平;某些觀測數(shù)據(jù)也是需要精確性的,也許小數(shù)點(diǎn)后的某一位的區(qū)別,都可能得到不同的結(jié)果;甚至對于一些醫(yī)療相關(guān)的數(shù)據(jù),也許幾毫克的差別都會(huì)影響著一個(gè)生命是否會(huì)消逝;更別說還有其他意義更加重大的數(shù)據(jù)了。然而,等到“大數(shù)據(jù)”進(jìn)行處理的時(shí)候,它實(shí)際上已經(jīng)完成了歷史使命,那么即使它不是十分精確,至少不會(huì)造成嚴(yán)重的后果。
  
而事實(shí)上,當(dāng)數(shù)據(jù)量達(dá)到一定程度的時(shí)候,數(shù)據(jù)本身就無法保證其準(zhǔn)確性了。比如,當(dāng)每小時(shí)只測量一次的時(shí)候,可以認(rèn)認(rèn)真真、仔仔細(xì)細(xì)的進(jìn)行測量,這樣的數(shù)據(jù)可以說是準(zhǔn)確的;但如果每幾分鐘就要測一次呢,就無法保證每一次都非常認(rèn)真,就不可能十分精確;當(dāng)每幾秒鐘就需要測一次的話,人工就無法實(shí)現(xiàn)了,必須借助工具,數(shù)據(jù)的準(zhǔn)確程度就與相應(yīng)的工具息息相關(guān);而如果一秒中要測量多次呢,也許再精妙的工具都無法保證每一條數(shù)據(jù)都是非常精確的。
  
各種理論直接往往都是相通的,量子物理學(xué)里有一個(gè)“測不準(zhǔn)原理”,而在大數(shù)據(jù)領(lǐng)域也有類似的原理,即在測量的密度增大之后,測量值的不確定性就會(huì)增加。當(dāng)然,這并不能阻礙大數(shù)據(jù)的使用,因?yàn)檫@樣的數(shù)據(jù)之間是可以進(jìn)行相互印證的。
  
一般情況下,“大數(shù)據(jù)”是不會(huì)只使用一種數(shù)據(jù)來源的,它會(huì)將多個(gè)數(shù)據(jù)來源進(jìn)行綜合分析,從而實(shí)現(xiàn)各數(shù)據(jù)信息之間的相互印證。而這種互相印證的過程,也是去粗取精、去偽存真的過程,這樣一來利用不精確的數(shù)據(jù)源,反而能夠獲得更加準(zhǔn)確的結(jié)論。
  
不過,這導(dǎo)致了數(shù)據(jù)的結(jié)構(gòu)化程度降低了。對于傳統(tǒng)技術(shù)而言,一般處理的都是結(jié)構(gòu)化的數(shù)據(jù),即每條記錄都有同樣的結(jié)構(gòu),而且?guī)缀醢怂兄笜?biāo)的信息。然而,“大數(shù)據(jù)”所處理的數(shù)據(jù),還包含半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,甚至是圖片、音頻、視頻等非文本的。這也就是相對于傳統(tǒng)技術(shù)而言,大數(shù)據(jù)技術(shù)的一個(gè)飛躍性的提升。
  
也許在面對這種所謂的“大數(shù)據(jù)”的情形,很類似一名警官面對一樁復(fù)雜的案件。在他的面前有各種線索:有可能讓人的消化道不舒服的死者的狀態(tài),有現(xiàn)場的情況(包括實(shí)地觀測及相關(guān)的照片信息),有與死者相關(guān)的人物信息及與死者的關(guān)系情況(主要是利益關(guān)系以及是否彼此之間有矛盾),有目擊者或者相關(guān)人員的證詞,有通過法醫(yī)學(xué)測驗(yàn)得出的各種結(jié)論,甚至包括現(xiàn)場周圍監(jiān)控錄像的內(nèi)容……最終的目的就是將這些信息整合成一個(gè)完整的證據(jù)鏈,發(fā)現(xiàn)以及證明誰是兇手。類似的,這些線索中,有跟案件緊密聯(lián)系的,也有跟本案毫無關(guān)系的干擾信息,也有因?yàn)榉N種原因?qū)е碌牟煌耆珳?zhǔn)確甚至完全不準(zhǔn)確的信息,甚至也有兇手為了干擾辦案人員故意給出的假線索。當(dāng)處理這些浩如煙海的線索的時(shí)候,不僅需要通過單個(gè)線索獲得相應(yīng)的結(jié)論,還需要將各線索的得出的結(jié)論進(jìn)行綜合分析、互相印證,這樣才能最終得到正確的結(jié)論。
  
其實(shí)人生也一樣,一方面,生活本身就是繁雜的(寫這篇文章的方式也盡可能符合這一點(diǎn),即盡可能包羅萬象),“結(jié)構(gòu)化”的只是其中的一小部分,更多的是“非結(jié)構(gòu)化”的。
  
哪怕是僅僅作為一個(gè)“碼農(nóng)”,也是一樣的:如果只了解所使用的技術(shù),哪怕研究得再深入,那也是一個(gè)低層次的“碼農(nóng)”;想要成為一名高層次的“碼農(nóng)”,還需要了解一些看起來跟編碼沒有半毛錢關(guān)系的知識。
  
我們都知道愛因斯坦作為一名科學(xué)家所獲得的成績,而與此同時(shí),他還是一個(gè)優(yōu)秀的小提琴手,在音樂上也有很深的造詣。很難想象,如果愛因斯坦的腦子里只有一個(gè)個(gè)冰冷的物理公式,他是否還能做出這么大的成績。
  
隨著信息時(shí)代的到來,我們已經(jīng)不需要陳景潤式的人物了,更需要的是對多個(gè)領(lǐng)域都有所了解的人才,或者說是“一專多能”式的人才,這樣才能整合各領(lǐng)域的信息,在更高的層面上有所建樹。
  
另一方面,生活本身也是不完美的。當(dāng)然,我們需要有追求完美的精神;但是,如果刻意的追求完美,一味的糾結(jié)于各種細(xì)節(jié),反而會(huì)“因?yàn)橐黄瑯淙~而失去了整個(gè)森林”。同樣的,精確性是我們的努力的目標(biāo),但我們應(yīng)該清楚,絕對的精確是不存在的。
  
三、大數(shù)據(jù)的理念之:更加關(guān)注相關(guān)規(guī)律
  
在這一點(diǎn)上,我們的維克托同學(xué)給出了一個(gè)“標(biāo)新立異”的觀點(diǎn),即只關(guān)注關(guān)聯(lián)關(guān)系,不關(guān)注因果關(guān)系。這也許是很多人,包括翻譯那部作品的那位同學(xué),堅(jiān)決持反對態(tài)度的一個(gè)觀點(diǎn)。然而,是不是我們沒有理解作者的意圖呢?
  
經(jīng)過了八年的豌豆實(shí)驗(yàn),孟德爾先生發(fā)現(xiàn)了遺傳學(xué)的兩大定律:分離定律和自由組合定律。而此時(shí)他發(fā)現(xiàn)的僅僅是關(guān)聯(lián)關(guān)系,即對于某一類相對性狀,存在顯性和隱性,如果將兩個(gè)不同性狀的物種進(jìn)行雜交,其后代呈現(xiàn)顯性性狀;而如果將這些呈現(xiàn)顯性性狀的第二代物種彼此之間進(jìn)行雜交,其第三代中所呈現(xiàn)的顯性性狀與隱性性狀的比例約為3:1。而至于為什么會(huì)是這樣,以當(dāng)時(shí)的情況,是無法解釋的。
  
在此之后,科學(xué)家們在細(xì)胞核內(nèi)發(fā)現(xiàn)的染色體,并在染色體中發(fā)現(xiàn)的遺傳基因,同時(shí)也發(fā)現(xiàn)了染色體是成對出現(xiàn)的,以及在細(xì)胞的有絲分裂和減數(shù)分裂時(shí)染色體的狀態(tài),甚至發(fā)現(xiàn)了遺傳基因的載體DNA的雙螺旋結(jié)構(gòu)。在此基礎(chǔ)上提出的顯性基因和隱性基因的理論,從而解釋了孟德爾的遺傳定律。
  
然而,這就是根本原因嗎?顯然不是,至少為什么第二代會(huì)呈現(xiàn)出顯性基因的性狀,這還是一個(gè)未解之謎。要想知道這個(gè)的原因,需要了解關(guān)于DNA的更多的信息,甚至在此之外還有更多需要研究的地方。
  
而這里的第一部分,我們可以理解成另外一個(gè)大數(shù)據(jù)分析的步驟,通過對海量的數(shù)據(jù)進(jìn)行分析處理之后得到了一個(gè)關(guān)聯(lián)關(guān)系。然后呢,就木有然后了。如果想要知道因果關(guān)系,即這個(gè)關(guān)聯(lián)關(guān)系的相關(guān)原理,需要從理論高度進(jìn)行研究,或者通過其他途徑得到其本質(zhì)原因,而大數(shù)據(jù)本身對此是無能為力的。
  
其實(shí)很多的科學(xué)研究的過程都是這樣:先通過一些實(shí)驗(yàn)數(shù)據(jù)得到一個(gè)結(jié)論或者假說(即上面提到的關(guān)聯(lián)關(guān)系),再通過理論推導(dǎo)或者更高層次的研究,了解其本質(zhì)(即因果關(guān)系)。而大數(shù)據(jù)所扮演的僅僅是先前的實(shí)驗(yàn)過程而已。
  
故曰,之所以說大數(shù)據(jù)不關(guān)注因果關(guān)系,是因?yàn)樗旧硎菬o法得到因果關(guān)系的,并不是說因果關(guān)系不重要。
  
由于因果關(guān)系需要進(jìn)行嚴(yán)謹(jǐn)?shù)姆治?,甚至需要一點(diǎn)點(diǎn)的靈感,它并不是在短時(shí)間內(nèi)能夠得到的。而經(jīng)過大數(shù)據(jù)分析,已經(jīng)基本上可以保證關(guān)聯(lián)關(guān)系的準(zhǔn)確性,而且其本身還屬于“僅供參考”的范疇,直接使用得到的結(jié)論,至少結(jié)果不會(huì)太糟(除非分析方法嚴(yán)重有誤)。在追求效率的今天,這種“先斬后奏”還是值得嘗試的。
  
況且,如果沒有通過大數(shù)據(jù)得到的關(guān)聯(lián)關(guān)系,對于相關(guān)因果關(guān)系的探求就沒有了方向。所以說,大數(shù)據(jù)僅僅是第一步,唯一的區(qū)別就是,在沒有得到因果關(guān)系之前,相應(yīng)的結(jié)論就可以放心大膽的使用;而對于相應(yīng)的因果關(guān)系,那是給想要獲得諾貝爾獎(jiǎng)的人們準(zhǔn)備的。(文章來源:CDA數(shù)據(jù)分析師

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }