
出品 | CDA數(shù)據(jù)分析研究院
來(lái)源 | 《Data Scientists at Work》
本系列整理對(duì)世界頂尖數(shù)據(jù)科學(xué)家們的訪談?dòng)涗?。讓我們一起?lái)領(lǐng)略他們對(duì)數(shù)據(jù)科學(xué)的理解和看法。
采訪的第一位嘉賓是Chris Wiggins。
Chris Wiggins是《紐約時(shí)報(bào)》的首席數(shù)據(jù)科學(xué)家,哥倫比亞大學(xué)應(yīng)用數(shù)學(xué)副教授。
Chris Wiggins在《紐約時(shí)報(bào)》工作期間,正在創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)小組,分析記者制作的內(nèi)容、讀者消費(fèi)文章所產(chǎn)生的數(shù)據(jù),以及更廣泛的讀者導(dǎo)航模式所產(chǎn)生的數(shù)據(jù),其首要目標(biāo)是更好地傾聽(tīng)《紐約時(shí)報(bào)》消費(fèi)者的聲音,并重新思考未來(lái)100年的新聞業(yè)將會(huì)是什么樣子。
在哥倫比亞大學(xué),Chris Wiggins專(zhuān)注于將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于生物大數(shù)據(jù)研究。這包括對(duì)自然發(fā)生的網(wǎng)絡(luò)的分析,應(yīng)用于生物時(shí)間序列數(shù)據(jù)的統(tǒng)計(jì)推斷,以及計(jì)算生物學(xué)中的大規(guī)模序列信息學(xué)。作為他在哥倫比亞大學(xué)工作的一部分,他是該大學(xué)數(shù)據(jù)科學(xué)與工程研究所(IDSE)和系統(tǒng)生物學(xué)系的創(chuàng)始成員。以下是采訪Chris Wiggins的對(duì)話整理內(nèi)容。
您在哪里工作?
我在哥倫比亞大學(xué)(Columbia University)和《紐約時(shí)報(bào)》(New York Times)之間度過(guò)了一段時(shí)間。我在哥倫比亞大學(xué)擔(dān)任應(yīng)用數(shù)學(xué)副教授,在《紐約時(shí)報(bào)》擔(dān)任首席數(shù)據(jù)科學(xué)家。
我可以長(zhǎng)時(shí)間地談?wù)撁總€(gè)機(jī)構(gòu)。作為背景,我對(duì)紐約有著長(zhǎng)久的愛(ài)。上世紀(jì)80年代,我作為一名本科生來(lái)到紐約上哥倫比亞大學(xué)。我認(rèn)為哥倫比亞大學(xué)本身就是一個(gè)偉大的實(shí)驗(yàn),看看你能否在紐約市的實(shí)驗(yàn)中培養(yǎng)一個(gè)常春藤盟校的教育和一個(gè)強(qiáng)大的科學(xué)研究社區(qū),紐約市充滿了興奮、分心和變化,最重要的是,充滿了人性。哥倫比亞大學(xué)是一個(gè)非常令人興奮和充滿活力的地方,充滿了非常具有顛覆性的學(xué)生和校友,包括我自己,而且已經(jīng)有幾個(gè)世紀(jì)了。
《紐約時(shí)報(bào)》也有上百年的歷史。這是一家有著163年歷史的公司,我認(rèn)為它也代表了一套我堅(jiān)信的價(jià)值觀,而且與我非常喜歡的紐約有著非常緊密的聯(lián)系。每當(dāng)我想到《紐約時(shí)報(bào)》,我就會(huì)想到托馬斯·杰斐遜(Thomas jefferson)所表達(dá)的一種觀點(diǎn):如果你可以在經(jīng)營(yíng)良好的民主與經(jīng)營(yíng)不良的媒體之間做出選擇,或者在經(jīng)營(yíng)良好的媒體與經(jīng)營(yíng)不良的民主之間做出選擇,他寧愿選擇經(jīng)營(yíng)良好的媒體。你們需要一個(gè)經(jīng)營(yíng)良好的新聞媒體和一個(gè)良好的新聞文化,以培育和確保民主的存續(xù)。
數(shù)據(jù)科學(xué)如何與您的工作相適應(yīng)?
我想說(shuō),在數(shù)據(jù)科學(xué)、學(xué)術(shù)界和《紐約時(shí)報(bào)》工作是一個(gè)令人興奮的時(shí)刻。數(shù)據(jù)科學(xué)現(xiàn)在已經(jīng)成為一個(gè)學(xué)術(shù)領(lǐng)域。你可以在計(jì)算統(tǒng)計(jì)學(xué)家比爾?克利夫蘭(Bill Cleveland) 2001年的一項(xiàng)提議中找到它的學(xué)術(shù)根源。顯然,你也可以在職位描述中找到數(shù)據(jù)科學(xué)家的根源,最著名的例子是LinkedIn的帕蒂爾(DJ Patil)和facebook的杰夫?哈默巴赫(Jeff Hammerbacher)。然而,在某些方面,知識(shí)分子的根源可以追溯到1962年統(tǒng)計(jì)學(xué)家約翰?圖基(John Tukey)的著作。
半個(gè)世紀(jì)以來(lái),學(xué)術(shù)界一直在醞釀著這樣一種現(xiàn)象:統(tǒng)計(jì)學(xué)作為一個(gè)越來(lái)越多的數(shù)學(xué)領(lǐng)域,與世界每時(shí)每刻都在產(chǎn)生越來(lái)越多的數(shù)據(jù)、計(jì)算能力隨著時(shí)間呈指數(shù)增長(zhǎng)這一現(xiàn)實(shí)之間的脫節(jié)。越來(lái)越多的字段有興趣嘗試從數(shù)據(jù)中學(xué)習(xí)。
我在哥倫比亞大學(xué)(Columbia university)過(guò)去10年或更長(zhǎng)時(shí)間里的研究一直是我們現(xiàn)在所說(shuō)的“數(shù)據(jù)科學(xué)”——我過(guò)去常稱(chēng)之為“應(yīng)用于生物學(xué)的機(jī)器學(xué)習(xí)”,但現(xiàn)在可能被稱(chēng)為“自然科學(xué)中的數(shù)據(jù)科學(xué)”。“我們的目標(biāo)是與具有領(lǐng)域?qū)iL(zhǎng)的人合作——甚至沒(méi)有必要——非常定量的或數(shù)學(xué)領(lǐng)域的專(zhuān)長(zhǎng)——這些專(zhuān)長(zhǎng)是在數(shù)十年的實(shí)踐中積累起來(lái)的,涉及生物學(xué)工作中一些實(shí)際問(wèn)題,這些問(wèn)題很復(fù)雜,但肯定不是隨機(jī)的。處理這些問(wèn)題的社區(qū)發(fā)現(xiàn)自己越來(lái)越被數(shù)據(jù)淹沒(méi)。
所以這里有一個(gè)智力上的挑戰(zhàn)并不完全是機(jī)器學(xué)習(xí)的智力上的挑戰(zhàn)。更大的智力挑戰(zhàn)是嘗試使用機(jī)器學(xué)習(xí)來(lái)回答來(lái)自真實(shí)世界領(lǐng)域的問(wèn)題。很長(zhǎng)一段時(shí)間以來(lái),在生物學(xué)領(lǐng)域的研究一直很令人興奮。
能在《紐約時(shí)報(bào)》工作也令人興奮,因?yàn)椤都~約時(shí)報(bào)》是規(guī)模更大、經(jīng)濟(jì)更穩(wěn)定的出版商之一,同時(shí)捍衛(wèi)民主,并在歷史上為新聞?wù)\信設(shè)置了很高的標(biāo)準(zhǔn)。他們通過(guò)幾十年甚至幾百年強(qiáng)烈的自我反省來(lái)做到這一點(diǎn)。他們不怕質(zhì)疑公司的原則、選擇,甚至是領(lǐng)導(dǎo)層,我認(rèn)為這創(chuàng)造了一種非常健康的知識(shí)文化。
與此同時(shí),盡管作為出版商,它的經(jīng)濟(jì)實(shí)力很強(qiáng),但過(guò)去兩個(gè)世紀(jì)左右的出版商業(yè)模式在過(guò)去10年里已經(jīng)完全消失;超過(guò)70%的平面廣告收入直接蒸發(fā)了,最急劇的蒸發(fā)發(fā)生在2004年2月左右。因此,盡管這棟大樓里擠滿了非常聰明的人,但就如何定義可持續(xù)新聞的未來(lái)而言,它正在經(jīng)歷一場(chǎng)明顯的巨變。
目前的領(lǐng)導(dǎo)層,一直到記者,都非常好奇“數(shù)字”。這意味著:當(dāng)你把新聞與傳播媒介分離開(kāi)來(lái)時(shí),它會(huì)是什么樣子?甚至“報(bào)紙”這個(gè)詞都不會(huì)涉及到報(bào)紙。報(bào)紙對(duì)《紐約時(shí)報(bào)》來(lái)說(shuō)仍然非常重要,不僅是事物的組織方式,甚至是日常日程的組織方式,而且在概念上也是如此。與此同時(shí),我認(rèn)為這里有很多非常有遠(yuǎn)見(jiàn)的人,包括記者和技術(shù)人員,他們開(kāi)始使《紐約時(shí)報(bào)》傳播新聞的方式多樣化。
要做到這一點(diǎn),你需要不斷地做實(shí)驗(yàn)。如果你在做實(shí)驗(yàn),你需要測(cè)量一些東西。
在2014年,你衡量事物的方式,是通過(guò)人們對(duì)產(chǎn)品的投入程度。因此,從weblog到每次有人與移動(dòng)應(yīng)用程序交互的活動(dòng),這家公司都能獲得大量的數(shù)據(jù)來(lái)弄清楚:讀者想要什么?他們看重的是什么?當(dāng)然,這個(gè)答案可能是動(dòng)態(tài)的。有可能,2014年讀者想要的與2013年或2004年截然不同。因此,我們?cè)跀?shù)據(jù)科學(xué)小組中要做的就是從《紐約時(shí)報(bào)》收集的大量數(shù)據(jù)中學(xué)習(xí),并使之有意義。
您是什么時(shí)候意識(shí)到想以數(shù)據(jù)科學(xué)為職業(yè)?
有一天,我在研究生院和其他一些研究生一起吃午飯的時(shí)候。
一名研究生走進(jìn)布拉哈德,他的基因組是第一個(gè)自由測(cè)序的活體。這是一種100年前就被發(fā)現(xiàn)的病原體。但是,把某樣?xùn)|西按順序排列意味著,你從有它的圖片,或者你把東西倒在上面,然后它可能變成藍(lán)色的實(shí)驗(yàn),到有了電話簿上有價(jià)值的信息。不幸的是,這些信息是用我們沒(méi)有選擇的語(yǔ)言寫(xiě)的,只是一個(gè)四個(gè)字母的字母表。
這就引出了一個(gè)統(tǒng)計(jì)和科學(xué)的問(wèn)題:你如何理解這些豐富的信息?
我們有數(shù)據(jù)。我們已經(jīng)用了100年了。我們知道它的作用,現(xiàn)在我們面對(duì)的是一種完全不同的方式來(lái)理解數(shù)據(jù)。
上世紀(jì)90年代初,當(dāng)我開(kāi)始攻讀博士學(xué)位時(shí),我正在研究物理學(xué)家的建模風(fēng)格,即尋找簡(jiǎn)單的問(wèn)題,在這些問(wèn)題中,簡(jiǎn)單的模型可以揭示洞察力。物理學(xué)和生物學(xué)之間的關(guān)系在不斷發(fā)展,但在性質(zhì)上卻受到了限制,因?yàn)槲锢韺W(xué)家建模的風(fēng)格通常是試圖確定一個(gè)問(wèn)題,這個(gè)問(wèn)題是關(guān)鍵要素,是關(guān)鍵的簡(jiǎn)化描述,它允許基本的建模。突然把電話簿放在桌上,然后說(shuō)“讓他有意義”,這是一種完全不同的理解方式。在某種程度上,它與物理學(xué)家所推崇的基本模型背道而馳。那就是我開(kāi)始學(xué)習(xí)學(xué)習(xí)的時(shí)候。
幸運(yùn)的是,物理學(xué)家也很擅長(zhǎng)進(jìn)入其他領(lǐng)域。我有很多文化經(jīng)紀(jì)人,我可以以其他物理學(xué)家的形式去找他們,他們勇敢地投身于計(jì)算神經(jīng)科學(xué)或其他領(lǐng)域,在這些領(lǐng)域,科學(xué)領(lǐng)域與如何理解數(shù)據(jù)之間已經(jīng)建立了良好的關(guān)系。事實(shí)上,機(jī)器學(xué)習(xí)中最杰出的會(huì)議之一叫做nipand, N代表“神經(jīng)科學(xué)”。在基因組學(xué)出現(xiàn)之前,這個(gè)群體就已經(jīng)在嘗試我們現(xiàn)在所說(shuō)的“數(shù)據(jù)科學(xué)”,也就是用數(shù)據(jù)來(lái)回答科學(xué)問(wèn)題。
上世紀(jì)90年代末,當(dāng)我完成我的博士學(xué)位時(shí),我對(duì)這個(gè)不斷增長(zhǎng)的關(guān)于人們提出生物學(xué)統(tǒng)計(jì)問(wèn)題的文獻(xiàn)非常感興趣。不能把小麥從谷殼中分離出來(lái),真使我惱火。當(dāng)我讀這些論文的時(shí)候,真正把小麥和谷殼區(qū)分開(kāi)來(lái)的唯一方法就是自己動(dòng)手寫(xiě)論文,試著找出哪些是可行的,哪些是不可行的。學(xué)術(shù)界有時(shí)在揭示什么是小麥,什么是谷殼方面進(jìn)展緩慢,但最終它做得非常好。論文數(shù)量激增,幾年后,人們意識(shí)到哪些東西是金子,哪些東西是傻瓜的金子。我認(rèn)為現(xiàn)在有一個(gè)潮流就是,人們使用機(jī)器學(xué)習(xí)來(lái)回答科學(xué)問(wèn)題。
對(duì)您來(lái)說(shuō),數(shù)據(jù)科學(xué)中最令人興奮的事情是什么?
對(duì)我來(lái)說(shuō)最令人興奮的事情不是新事物。
對(duì)我來(lái)說(shuō)最令人興奮的事情是意識(shí)到每個(gè)人都認(rèn)為的新事物實(shí)際上是舊事物。
關(guān)于這個(gè)叫做“數(shù)據(jù)科學(xué)”的新事物有很多令人興奮的地方?!拔艺J(rèn)為去看那些比Tukey還要古老的統(tǒng)計(jì)數(shù)據(jù)真的很有趣。例如,Sewall Wright在20世紀(jì)20年代使用圖形化的遺傳學(xué)模型。真正讓我興奮的不是新奇的東西。它特別圍繞著思想,而不是太多的東西,因?yàn)椋僬f(shuō)一遍,人,思想,和事物的順序。改變的事情。當(dāng)我們認(rèn)為自己有了一個(gè)新想法時(shí),這是很有趣的,但通常我們隨后意識(shí)到這個(gè)想法實(shí)際上是非常古老的。你對(duì)此有所了解,這就非常棒。
例如,隨機(jī)優(yōu)化和隨機(jī)梯度下降,在過(guò)去的5年里取得了巨大的成功,但是它們來(lái)自于羅賓斯和蒙羅在1951年1月12日寫(xiě)的一篇論文,這是一個(gè)好主意,但事實(shí)上,我認(rèn)為這是一個(gè)好主意意味著很久以前有人用鉛筆在紙上仔細(xì)思考過(guò)。試著通過(guò)數(shù)據(jù)和你的電腦來(lái)了解這個(gè)世界是個(gè)好主意。這就是為什么圖基在1962年寫(xiě)了一篇關(guān)于統(tǒng)計(jì)的文章,當(dāng)時(shí)他命令每個(gè)人重新定位統(tǒng)計(jì)學(xué)作為一門(mén)專(zhuān)業(yè)學(xué)科。1962年,他寫(xiě)了一篇名為《數(shù)據(jù)分析的未來(lái)》(The Future of Data Analysis)的文章。
上世紀(jì)90年代,里奧?布雷曼(Leo Breiman)一直在給他的統(tǒng)計(jì)學(xué)家社區(qū)寫(xiě)信,“讓我們用數(shù)據(jù),統(tǒng)計(jì)社區(qū)!”上世紀(jì)90年代末,他在寫(xiě)論文,告訴他所有的同事們開(kāi)始研究數(shù)據(jù)科學(xué)——這就像他走進(jìn)荒野,回來(lái)后對(duì)伯克利的每個(gè)人說(shuō),伯克利是最早的數(shù)理統(tǒng)計(jì)學(xué)院之一,“你們需要醒過(guò)來(lái),因?yàn)樗鹆?。你們還在證明定理。外面著火了。醒醒!”
我認(rèn)為人們有一個(gè)傳統(tǒng),那就是通過(guò)數(shù)據(jù)來(lái)理解世界是多么的強(qiáng)大,多么的不同。
“數(shù)據(jù)至上”是伯克利大學(xué)的一位數(shù)理統(tǒng)計(jì)學(xué)家在很久以前就用過(guò)的一個(gè)詞,伯克利大學(xué)強(qiáng)調(diào)的這種根深蒂固的傳統(tǒng)是通過(guò)2001年從約翰·圖基到里奧·布雷曼再到比爾·克利夫蘭的這種極端思想而延續(xù)下來(lái)的。他們中的一些人認(rèn)為自己是正統(tǒng)的統(tǒng)計(jì)學(xué)家,盡管他們是相當(dāng)極端的人。因?yàn)榻y(tǒng)計(jì)學(xué)每五年就會(huì)在數(shù)學(xué)上翻一番,因?yàn)閿?shù)學(xué)的起源使統(tǒng)計(jì)學(xué)成為一個(gè)真正的領(lǐng)域。
這就是我認(rèn)為最令人興奮的事情——不要被今天的事情分心,而要找到那些比你年長(zhǎng)得多的人和他們的世界觀。
數(shù)據(jù)科學(xué)的未來(lái)會(huì)是什么樣子?
數(shù)據(jù)科學(xué)的未來(lái),這是一個(gè)很大的話題,是它的形式?還是它的內(nèi)容呢?還是去使用它的人呢?他們的未來(lái)都是不一樣的。
我認(rèn)為數(shù)據(jù)科學(xué)沒(méi)有理由不像其他許多領(lǐng)域那樣遵循同樣的過(guò)程,因?yàn)樗趯W(xué)術(shù)界找到了歸宿,這意味著它成為一種認(rèn)證功能,尤其是在專(zhuān)業(yè)領(lǐng)域。你將獲得碩士學(xué)位和博士學(xué)位。該領(lǐng)域?qū)⒕哂幸饬x,但也將具有專(zhuān)門(mén)性。您已經(jīng)看到人們使用“數(shù)據(jù)工程”和“數(shù)據(jù)科學(xué)”這兩個(gè)短語(yǔ)作為分隔符。我在《紐約時(shí)報(bào)》的團(tuán)隊(duì)是數(shù)據(jù)科學(xué)組,它是數(shù)據(jù)科學(xué)與工程更大團(tuán)隊(duì)的一部分。人們開(kāi)始理解數(shù)據(jù)科學(xué)團(tuán)隊(duì)如何涉及數(shù)據(jù)科學(xué)、特征工程、數(shù)據(jù)可視化和數(shù)據(jù)體系結(jié)構(gòu)。
數(shù)據(jù)還不是一種產(chǎn)品,但如果你看一下,比如說(shuō),數(shù)據(jù)科學(xué)是如何在linkedin發(fā)生的——數(shù)據(jù)科學(xué)是如何通過(guò)產(chǎn)品層次結(jié)構(gòu)報(bào)告出來(lái)的。在其他公司,數(shù)據(jù)科學(xué)通過(guò)業(yè)務(wù)報(bào)告;或者it通過(guò)工程報(bào)告?,F(xiàn)在我身處《紐約時(shí)報(bào)》的工程部門(mén),獨(dú)立于產(chǎn)品,獨(dú)立于營(yíng)銷(xiāo),獨(dú)立于廣告。不同的公司在不同的部門(mén)定位數(shù)據(jù)科學(xué)。
所以我認(rèn)為會(huì)有資格認(rèn)證,我認(rèn)為會(huì)有專(zhuān)業(yè)化。紐菲爾德誕生了——我不會(huì)一直這么說(shuō),因?yàn)榘凑宅F(xiàn)實(shí)世界的標(biāo)準(zhǔn),學(xué)術(shù)界從來(lái)沒(méi)有發(fā)生過(guò)什么事情——但大學(xué)里每隔幾年就會(huì)誕生新的院系。它發(fā)生的方式是創(chuàng)建新字段的一部分。我已經(jīng)長(zhǎng)大了,我有幸目睹了,比如說(shuō),系統(tǒng)生物學(xué)作為一個(gè)領(lǐng)域誕生,合成生物學(xué)作為一個(gè)領(lǐng)域誕生,甚至納米科學(xué)作為一個(gè)領(lǐng)域誕生。我在20世紀(jì)80年代的第一個(gè)研究項(xiàng)目是在一片混亂中進(jìn)行的,而那個(gè)時(shí)候正是一個(gè)新的領(lǐng)域誕生的時(shí)候。詹姆斯·格萊克(James Gleick)當(dāng)時(shí)為《紐約時(shí)報(bào)》撰寫(xiě)了一本關(guān)于這方面的著名著作,名為《混亂:創(chuàng)造新科學(xué)》(Chaos:Making a New science)。只是和現(xiàn)實(shí)世界的節(jié)奏相比,它實(shí)在是太慢了,我認(rèn)為這是最好的。年輕人的未來(lái)危在旦夕,所以我認(rèn)為情況其實(shí)沒(méi)那么糟。
因此,我認(rèn)為數(shù)據(jù)科學(xué)的未來(lái)是成為學(xué)術(shù)界的一部分,這意味著不同大學(xué)之間就什么是真正的數(shù)據(jù)科學(xué)展開(kāi)激烈而有爭(zhēng)議的對(duì)話。你已經(jīng)開(kāi)始看到這方面的工作了。例如,在哥倫比亞大學(xué),我的一位名叫馬特·瓊斯的同事,他是一位歷史學(xué)家,正在寫(xiě)一本關(guān)于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)歷史的書(shū)。所以你已經(jīng)開(kāi)始看到人們意識(shí)到數(shù)據(jù)科學(xué)并不是在2008年從真空中誕生的。從智力上講,我們所有的數(shù)據(jù)科學(xué)都已經(jīng)意識(shí)到——也就是說(shuō),在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)之間存在鴻溝,還有一些其他的東西。所以我認(rèn)為人們會(huì)更加欣賞歷史。
當(dāng)一個(gè)領(lǐng)域成為一個(gè)學(xué)術(shù)領(lǐng)域時(shí),會(huì)發(fā)生三件主要的事情——
學(xué)術(shù)經(jīng)典是一組我們認(rèn)為是該領(lǐng)域核心知識(shí)分子的課程。最后,通過(guò)對(duì)歷史的研究,我們可以了解當(dāng)時(shí)的背景:這些想法從何而來(lái)?
當(dāng)人們使用的名稱(chēng)和短語(yǔ)變得更有意義時(shí),你就有了專(zhuān)業(yè)化的可能性,因?yàn)槲覀儸F(xiàn)在所擁有的是,當(dāng)人們說(shuō)“數(shù)據(jù)科學(xué)”時(shí),他們可能意味著許多事情。
它們可能意味著數(shù)據(jù)可視化、特征工程、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)或其他一些東西。隨著技術(shù)本身的使用更加細(xì)化,我認(rèn)為您你會(huì)看到團(tuán)隊(duì)更加高效的專(zhuān)門(mén)化。你不可能有這樣一個(gè)足球隊(duì),每個(gè)人都說(shuō):“我是一個(gè)鄉(xiāng)巴佬?!薄坝腥诵枰蔀槎ㄎ磺蚴郑腥诵枰蔀槌智蚴?,有人需要成為后衛(wèi)。當(dāng)人們開(kāi)始專(zhuān)業(yè)化的時(shí)候,你就可以通過(guò)了。你可以與人進(jìn)行有意義的合作,因?yàn)槿藗冎浪麄兊慕巧汀巴瓿傻娜蝿?wù)”是什么樣子的。
現(xiàn)在,我認(rèn)為未來(lái)數(shù)據(jù)科學(xué)究竟是什么樣子還有待觀察,但是能確定的是走向?qū)I(yè)化的細(xì)分。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10