
在巨大的數(shù)據(jù)集中進行篩選的最好工具是什么?通過和數(shù)據(jù)駭客的交流,我們知道了他們用于硬核數(shù)據(jù)分析最喜歡的語言和工具包。
在這些語言名單中,如果R語言排第二,那就沒其他能排第一。自1997年以來,作為昂貴的統(tǒng)計軟件,如Matlab和SAS的免費替代品,它漸漸風(fēng)靡全球。
在過去的幾年時間中,R語言已經(jīng)成為了數(shù)據(jù)科學(xué)的寵兒——數(shù)據(jù)科學(xué)現(xiàn)在不僅僅在書呆子一樣的統(tǒng)計學(xué)家中人盡皆知,而且也為華爾街交易員,生物學(xué)家,和硅谷開發(fā)者所家喻戶曉。各種行業(yè)的公司,例如Google,F(xiàn)acebook,美國銀行,以及紐約時報都使用R語言,R語言正在商業(yè)用途上持續(xù)蔓延和擴散。
R語言有著簡單而明顯的吸引力。使用R語言,只需要短短的幾行代碼,你就可以在復(fù)雜的數(shù)據(jù)集中篩選,通過先進的建模函數(shù)處理數(shù)據(jù),以及創(chuàng)建平整的圖形來代表數(shù)字。它被比喻為是Excel的一個極度活躍版本。
R語言最偉大的資本是已圍繞它開發(fā)的充滿活力的生態(tài)系統(tǒng):R語言社區(qū)總是在不斷地添加新的軟件包和功能到它已經(jīng)相當豐富的功能集中。據(jù)估計,超過200萬的人使用R語言,并且最近的一次投票表明,R語言是迄今為止在科學(xué)數(shù)據(jù)中最流行的語言,被61%的受訪者使用(其次是Python,39%)。
此外,它的身影也漸漸出現(xiàn)在了華爾街。以前,銀行分析師會全神貫注于Excel文件直到深夜,但現(xiàn)在R語言被越來越多地用于金融建模R,特別是作為一種可視化工具,Niall O’Connor,美國銀行的副總裁如是說。 “R語言使我們平凡的表格與眾不同,”他說。
R語言的日漸成熟,使得它成為了數(shù)據(jù)建模的首選語言,雖然當企業(yè)需要生產(chǎn)大型產(chǎn)品時它的能力會變得有限,也有的人說這是因為它的地位正在被其他語言篡奪。
“R更適合于做一個草圖和大概,而不是詳細的構(gòu)建,”Michael Driscoll,Metamarkets的首席執(zhí)行官說。 “你不會在谷歌的網(wǎng)頁排名以及Facebook的朋友推薦算法的核心找到R語言。工程師會用R語言做原型,然后移交給用Java或Python寫的模型?!?/span>
話說回來,早在2010年,Paul Butler就以R語言打造了全球的Facebook地圖而著名,這證明了該語言豐富的可視化功能。盡管他現(xiàn)在已經(jīng)不像以前那樣頻繁地使用R語言了。
“R正在一點點地過時,因為它的緩慢和處理大型數(shù)據(jù)集的笨重,”Butler說。
那么,他使用什么代替呢?請繼續(xù)閱往下看。
Python
如果說R語言是一個神經(jīng)質(zhì)又可愛的高手,那么Python是它隨和又靈活的表兄弟。作為一種結(jié)合了R語言快速對復(fù)雜數(shù)據(jù)進行挖掘的能力并構(gòu)建產(chǎn)品的更實用語言,Python迅速得到了主流的吸引力。Python是直觀的,并且比R語言更易于學(xué)習(xí),以及它的生態(tài)系統(tǒng)近年來急劇增長,使得它更能夠用于先前為R語言保留的統(tǒng)計分析。
“這是這個行業(yè)的進步。在過去的兩年時間中,從R語言到Python已經(jīng)發(fā)生了非常明顯的轉(zhuǎn)變,”Butler說。
在數(shù)據(jù)處理中,在規(guī)模和復(fù)雜性之間往往會有一個權(quán)衡,于是Python成為了一種折中方案。IPython notebook和NumPy可以用作輕便工作的一種暫存器,而Python可以作為中等規(guī)模數(shù)據(jù)處理的強大工具。豐富的數(shù)據(jù)社區(qū),也是Python的優(yōu)勢,因為可以提供了大量的工具包和功能。
美國銀行使用Python在銀行的基礎(chǔ)架構(gòu)中構(gòu)建新的產(chǎn)品和接口,同時也用Python處理財務(wù)數(shù)據(jù)?!癙ython廣泛而靈活,因此人們趨之若鶩,”O(jiān)’Donnell說。
不過,它并非最高性能的語言,只能偶爾用于大規(guī)模的核心基礎(chǔ)設(shè)施,Driscoll這樣說道。
Julia
雖然當前的數(shù)據(jù)科學(xué)絕大多數(shù)是通過R語言,Python,Java,MatLab和SAS執(zhí)行的。但依然有其他的語言存活于夾縫中,Julia就是值得一看的后起之秀。
業(yè)界普遍認為Julia過于晦澀難懂。但數(shù)據(jù)駭客在談到它取代R和Python的潛力時會不由得眉飛色舞。Julia是一種高層次的,極度快速的表達性語言。它比R語言快,比Python更可擴展,且相當簡單易學(xué)。
“它正在一步步成長。最終,使用Julia,你就能夠辦到任何用R和Python可以做到的事情,”Butler說。
但是至今為止,年輕人對Julia依然猶豫不前。Julia數(shù)據(jù)社區(qū)還處于早期階段,要能夠和R語言和Python競爭,它還需要添加更多的軟件包和工具。
“它還很年輕,但它正在掀起浪潮并且非常有前途,”Driscoll說。
JAVA
Java,以及基于Java的框架,被發(fā)現(xiàn)儼然成為了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你會發(fā)現(xiàn),Java是它們所有數(shù)據(jù)工程基礎(chǔ)設(shè)施的基礎(chǔ)語言,”Driscoll說。
Java不能提供R和Python同樣質(zhì)量的可視化,并且它并非統(tǒng)計建模的最佳選擇。但是,如果你移動到過去的原型制作并需要建立大型系統(tǒng),那么Java往往是你的最佳選擇。
hadoop 和 Hive
一群基于Java的工具被開發(fā)出來以滿足數(shù)據(jù)處理的巨大需求。Hadoop作為首選的基于Java的框架用于批處理數(shù)據(jù)已經(jīng)點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用于后端分析。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結(jié)對工作。
Scala
Scala是另一種基于Java的語言,并且和Java相同的是,它正日益成為大規(guī)模機器學(xué)習(xí),或構(gòu)建高層次算法的工具。它富有表現(xiàn)力,并且還能夠構(gòu)建健壯的系統(tǒng)。
“Java就像是建造時的鋼鐵,而Scala則像黏土,因為你之后可以將之放入窯內(nèi)轉(zhuǎn)變成鋼鐵,”Driscoll說。
Kafka 和 Storm
那么,當你需要快速實時的分析時又該怎么辦呢?Kafka會成為你的好朋友。它大概5年前就已經(jīng)出現(xiàn)了,但是直到最近才成為流處理的流行框架。
Kafka,誕生于LinkedIn內(nèi)部,是一個超快速的查詢消息系統(tǒng)。Kafka的缺點?好吧,它太快了。在實時操作時會導(dǎo)致自身出錯,并且偶爾地會遺漏東西。
“有精度和速度之間有一個權(quán)衡,”Driscoll說, “因此,硅谷所有的大型高科技公司都會使用兩條管道:Kafka或Storm用于實時處理,然后Hadoop用于批處理系統(tǒng),此時雖然是緩慢的但超級準確?!?/span>
Storm是用Scala編寫的另一個框架,它在硅谷中因為流處理而受到了大量的青睞。它被Twitter納入其中,勿庸置疑的,這樣一來,Twitter就能在快速事件處理中得到巨大的裨益。
鼓勵獎
MatLab
MatLab一直以來長盛不衰,盡管它要價不菲,但它仍然被廣泛使用在一些非常特殊的領(lǐng)域:研究密集型機器學(xué)習(xí),信號處理,圖像識別,僅舉幾例。
Octave
Octave和MatLab非常相似,但它是免費的。不過,它在學(xué)術(shù)性信號處理圈子之外很少見到。
GO
GO是另一個正在掀起浪潮的后起之秀。它由Google開發(fā),從C語言松散地派生,并在構(gòu)建健壯基礎(chǔ)設(shè)施上,正在贏得競爭對手,例如Java和Python的份額。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03