
2017年度盤(pán)點(diǎn):15個(gè)最流行的GitHub機(jī)器學(xué)習(xí)項(xiàng)目
在本文中,作者列出了 2017 年 GitHub 平臺(tái)上最為熱門(mén)的知識(shí)庫(kù),囊括了數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中的各種項(xiàng)目,希望能對(duì)大家學(xué)習(xí)、使用有所幫助。
GitHub 是計(jì)算機(jī)科學(xué)領(lǐng)域最為活躍的社區(qū),在 GitHub 上,來(lái)自不同背景的人們分享越來(lái)越多的軟件工具和資源庫(kù)。在其中,你不僅可以獲取自己所需的工具,還可以觀看代碼是如何寫(xiě)成并實(shí)現(xiàn)的。
作為一名機(jī)器學(xué)習(xí)愛(ài)好者,作者在本文中列出了 2017 年 GitHub 平臺(tái)上最為熱門(mén)的知識(shí)庫(kù),其中包含了學(xué)習(xí)資料與工具。希望對(duì)你的學(xué)習(xí)和研究有所幫助。
目 錄
1. 學(xué)習(xí)資源
1. Awesome Data Science
2. Machine Learning / Deep Learning Cheat Sheet
3. Oxford Deep Natural Language Processing Course Lectures
4. PyTorch – Tutorial
5. Resources of NIPS 2017
2. 開(kāi)源工具
1. TensorFlow
2. TuriCreate – A Simplified Machine Learning Library
3. OpenPose
4. DeepSpeech
5. Mobile Deep Learning
6. Visdom
7. Deep Photo Style Transfer
8. CycleGAN
9. Seq2seq
10. Pix2code
1、學(xué)習(xí)資源
1.1 Awesome Data Science
項(xiàng)目地址: https://github.com/bulutyazilim/awesome-datascience
該 repo 是數(shù)據(jù)科學(xué)的基本資源。多年來(lái)的無(wú)數(shù)貢獻(xiàn)構(gòu)建了此 repo 里面的各種資源,從入門(mén)指導(dǎo)、信息圖,到社交網(wǎng)絡(luò)上你需要 follow 的賬號(hào)。無(wú)論你是初學(xué)者還是業(yè)內(nèi)老兵,里面都有大量的資源需要學(xué)習(xí)。
從該 repo 的目錄可以看出其深度。
1.2 Machine Learning / Deep Learning Cheat Sheet
項(xiàng)目地址:https://github.com/kailashahirwar/cheatsheets-ai
該項(xiàng)目以 cheatsheet 的形式介紹了機(jī)器學(xué)習(xí)/深度學(xué)習(xí)中常用的工具與技術(shù),從 pandas 這樣的簡(jiǎn)單工具到深度學(xué)習(xí)技術(shù)都涵蓋其中。在收藏或者 fork 該項(xiàng)目之后,你就不用再費(fèi)事搜索常用的技巧和注意事項(xiàng)了。
簡(jiǎn)單介紹下,cheatsheets 類(lèi)型包括 pandas、numpy、scikit learn、matplotlib、ggplot、dplyr、tidyr、pySpark 和神經(jīng)網(wǎng)絡(luò)。
1.3 Oxford Deep Natural Language Processing Course Lectures
項(xiàng)目地址:https://github.com/oxford-cs-deepnlp-2017/lectures
斯坦福的 NLP 課程一直是自然語(yǔ)言處理領(lǐng)域的金牌教程。但是近期隨著深度學(xué)習(xí)的發(fā)展,在 RNN 和 LSTM 等深度學(xué)習(xí)架構(gòu)的幫助下,NLP 出現(xiàn)了大量進(jìn)步。
該 repo 基于牛津大學(xué)的 NLP 課程,涵蓋先進(jìn)技術(shù)和術(shù)語(yǔ),如使用 RNN 進(jìn)行語(yǔ)言建模、語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音(TTS)等。該 repo 包含該課程從課程材料到實(shí)踐聯(lián)系的所有內(nèi)容。
1.4 PyTorch – Tutorial
項(xiàng)目地址:https://github.com/yunjey/pytorch-tutorial
截至今天,PyTorch 仍是 TensorFlow 的唯一競(jìng)爭(zhēng)對(duì)手,它的功能和聲譽(yù)使其成為了頗具競(jìng)爭(zhēng)力的深度學(xué)習(xí)框架。因其 Pythonic 風(fēng)格的編程、動(dòng)態(tài)計(jì)算圖和更快的原型開(kāi)發(fā),Pytorch 已經(jīng)獲得了深度學(xué)習(xí)社區(qū)的廣泛關(guān)注。
該知識(shí)庫(kù)包含 PyTorch 上大量的深度學(xué)習(xí)任務(wù)代碼,包括 RNN、GAN 和神經(jīng)風(fēng)格遷移。其中的大多數(shù)模型在實(shí)現(xiàn)上僅需 30 余行代碼。這充分說(shuō)明了 PyTorch 的抽象能力,它讓研究人員可以專(zhuān)注于找到正確的模型,而無(wú)需糾纏于編程語(yǔ)言和工具選擇等細(xì)節(jié)。
1.5 Resources of NIPS 2017
項(xiàng)目地址:https://github.com/hindupuravinash/nips2017
該 repo 包含 NIPS 2017 的資源和所有受邀演講、教程和研討會(huì)的幻燈片。NIPS 是一年一度的機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)會(huì)議。
過(guò)去幾年中,數(shù)據(jù)科學(xué)領(lǐng)域內(nèi)的大部分突破性研究都曾作為研究結(jié)果出現(xiàn)在 NIPS 大會(huì)上。如果你想站在領(lǐng)域前沿,那這就是很好的資源!
2、開(kāi)源軟件庫(kù)
2.1 TensorFlow
項(xiàng)目地址:https://github.com/tensorflow/tensorflow
TensorFlow 是一種采用數(shù)據(jù)流圖(data flow graph)進(jìn)行數(shù)值計(jì)算的開(kāi)源軟件庫(kù)。其中 Tensor 代表傳遞的數(shù)據(jù)為張量(多維數(shù)組),F(xiàn)low 代表使用計(jì)算圖進(jìn)行運(yùn)算。數(shù)據(jù)流圖用「結(jié)點(diǎn)」(node)和「邊」(edge)組成的有向圖來(lái)描述數(shù)學(xué)運(yùn)算?!附Y(jié)點(diǎn)」一般用來(lái)表示施加的數(shù)學(xué)操作,但也可以表示數(shù)據(jù)輸入的起點(diǎn)和輸出的終點(diǎn),或者是讀取/寫(xiě)入持久變量(persistent variable)的終點(diǎn)。邊表示結(jié)點(diǎn)之間的輸入/輸出關(guān)系。這些數(shù)據(jù)邊可以傳送維度可動(dòng)態(tài)調(diào)整的多維數(shù)據(jù)數(shù)組,即張量(tensor)。
TensorFlow 自正式發(fā)布以來(lái),一直保持著「深度學(xué)習(xí)/機(jī)器學(xué)習(xí)」頂尖庫(kù)的位置。谷歌大腦團(tuán)隊(duì)和機(jī)器學(xué)習(xí)社區(qū)也一直在積極地貢獻(xiàn)并保持最新的進(jìn)展,尤其是在深度學(xué)習(xí)領(lǐng)域。
TensorFlow 最初是使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的開(kāi)源軟件庫(kù),但從目前來(lái)看,它已經(jīng)成為構(gòu)建深度學(xué)習(xí)模型的完整框架。它目前主要支持 TensorFlow,但也支持 C、C++ 和 Java 等語(yǔ)言。此外,今年 11 月谷歌終于發(fā)布了新工具的開(kāi)發(fā)者預(yù)覽版本,這是一款 TensorFlow 用于移動(dòng)設(shè)備和嵌入式設(shè)備的輕量級(jí)解決方案。
2.2 TuriCreate:一個(gè)簡(jiǎn)化的機(jī)器學(xué)習(xí)庫(kù)
項(xiàng)目地址:https://github.com/apple/turicreate
TuriCreate 是蘋(píng)果最近貢獻(xiàn)的一個(gè)開(kāi)源項(xiàng)目,它為機(jī)器學(xué)習(xí)模型提供易于使用的創(chuàng)建方法和部署方法,這些機(jī)器學(xué)習(xí)模型包括目標(biāo)檢測(cè)、人體姿勢(shì)識(shí)別和推薦系統(tǒng)等復(fù)雜任務(wù)。
可能我們作為機(jī)器學(xué)習(xí)愛(ài)好者會(huì)比較熟悉 GraphLab Create,一個(gè)非常簡(jiǎn)便高效的機(jī)器學(xué)習(xí)庫(kù),而當(dāng)初創(chuàng)建該庫(kù)的公司 TuriCreate 被蘋(píng)果收購(gòu)時(shí),造成了很大反響。
TuriCreate 是針對(duì) Python 開(kāi)發(fā)的,且它最強(qiáng)的的特征是將機(jī)器學(xué)習(xí)模型部署到 Core ML 中,用于開(kāi)發(fā) iOS、macOS、watchOS 和 tvOS 等應(yīng)用程序。
2.3 OpenPose
項(xiàng)目地址: https://github.com/CMU-Perceptual-Computing-Lab/openpose
OpenPose 是一個(gè)多人關(guān)鍵點(diǎn)檢測(cè)庫(kù),它可以幫助我們實(shí)時(shí)地檢測(cè)圖像或視頻中某個(gè)人的位置。OpenPose 軟件庫(kù)由 CMU 的感知計(jì)算實(shí)驗(yàn)室開(kāi)發(fā)并維護(hù),對(duì)于說(shuō)明開(kāi)源研究如何快速應(yīng)用于部署到工業(yè)中,它是非常好的一個(gè)案例。
OpenPose 的一個(gè)使用案例是幫助解決活動(dòng)檢測(cè)問(wèn)題,即演員完成的動(dòng)作或活動(dòng)能被實(shí)時(shí)捕捉到。然后這些關(guān)鍵點(diǎn)和它們的動(dòng)作可用來(lái)制作動(dòng)畫(huà)片。OpenPose 不僅有 C++的 API 以使開(kāi)發(fā)者能快速地訪(fǎng)問(wèn)它,同時(shí)它還有簡(jiǎn)單的命令行界面用來(lái)處理圖像或視頻。
2.4 DeepSpeech
項(xiàng)目地址: https://github.com/mozilla/DeepSpeech
DeepSpeech 是百度開(kāi)發(fā)的開(kāi)源實(shí)現(xiàn)庫(kù),它提供了當(dāng)前頂尖的語(yǔ)音轉(zhuǎn)文本合成技術(shù)。它基于 TensorFlow 和 Python,但也可以綁定到 NodeJS 或使用命令行運(yùn)行。
Mozilla 一直是構(gòu)建 DeepSpeech 和開(kāi)源軟件庫(kù)的主要研究力量,Mozilla 技術(shù)戰(zhàn)略副總裁 Sean White 在一篇博文中寫(xiě)道:「目前只有少數(shù)商用質(zhì)量的語(yǔ)音識(shí)別引擎是開(kāi)源的,它們大多數(shù)由大型公司主宰。這樣就減少了初創(chuàng)公司、研究人員和傳統(tǒng)企業(yè)為它們的用戶(hù)定制特定的產(chǎn)品與服務(wù)。但我們與機(jī)器學(xué)習(xí)社區(qū)的眾多開(kāi)發(fā)者和研究者共同完善了該開(kāi)源庫(kù),因此目前 DeepSpeech 已經(jīng)使用了復(fù)雜和前沿的機(jī)器學(xué)習(xí)技術(shù)創(chuàng)建語(yǔ)音到文本的引擎。」
2.5 Mobile Deep Learning
項(xiàng)目地址:https://github.com/baidu/mobile-deep-learning
該 repo 將數(shù)據(jù)科學(xué)中的當(dāng)前最佳技術(shù)移植到了移動(dòng)平臺(tái)上。該 repo 由百度研究院開(kāi)發(fā),目的是將深度學(xué)習(xí)模型以低復(fù)雜性和高速度部署到移動(dòng)設(shè)備(例如 Android 和 IOS)上。
該 repo 解釋了一個(gè)簡(jiǎn)單的用例,即目標(biāo)檢測(cè)。它可以識(shí)別目標(biāo)(例如一張圖像中的手機(jī))的準(zhǔn)確位置,很棒不是嗎?
2.6 Visdom
項(xiàng)目地址:https://github.com/facebookresearch/visdom
Visdom 支持圖表、圖像和文本在協(xié)作者之間進(jìn)行傳播。你可以用編程的方式組織可視化空間,或者通過(guò) UI 為實(shí)時(shí)數(shù)據(jù)創(chuàng)建儀表盤(pán),檢查實(shí)驗(yàn)結(jié)果,或者調(diào)試實(shí)驗(yàn)代碼。
繪圖函數(shù)中的輸入會(huì)發(fā)生改變,盡管大部分輸入是數(shù)據(jù)的張量 X(而非數(shù)據(jù)本身)和(可選)張量 Y(包含可選數(shù)據(jù)變量,如標(biāo)簽或時(shí)間戳)。它支持所有基本圖表類(lèi)型,以創(chuàng)建 Plotly 支持的可視化。
Visdom 支持使用 PyTorch 和 Numpy。
2.7 Deep Photo Style Transfer
項(xiàng)目地址:https://github.com/luanfujun/deep-photo-styletransfer
該 repo 基于近期論文《Deep Photo Style Transfer》,該論文介紹了一種用于攝影風(fēng)格遷移的深度學(xué)習(xí)方法,可處理大量圖像內(nèi)容,同時(shí)有效遷移參考風(fēng)格。該方法成功克服了失真,滿(mǎn)足了大量場(chǎng)景中的攝影風(fēng)格遷移需求,包括時(shí)間、天氣、季節(jié)、藝術(shù)編輯等場(chǎng)景。
2.8 CycleGAN
項(xiàng)目地址:https://github.com/junyanz/CycleGAN
CycleGAN 是一個(gè)有趣且強(qiáng)大的庫(kù),展現(xiàn)了該頂尖技術(shù)的潛力。舉例來(lái)說(shuō),下圖大致展示了該庫(kù)的能力:調(diào)整圖像景深。這里有趣的點(diǎn)在于你事先并沒(méi)有告訴算法需要注意圖像的哪一部分。算法完全依靠自己做到了!
目前該庫(kù)用 Lua 編寫(xiě),但是它也可以在命令行中使用。
2.9 Seq2seq
項(xiàng)目地址:https://github.com/google/seq2seq
Seq2seq 最初是為機(jī)器翻譯而建立的,但已經(jīng)被開(kāi)發(fā)用于多種其它任務(wù),包括摘要生成、對(duì)話(huà)建模和圖像捕捉。只要一個(gè)問(wèn)題的結(jié)構(gòu)是將輸入數(shù)據(jù)編碼為一種格式,并將其解碼為另一種格式,就可以使用 Seq2seq 框架。它使用了所有流行的基于 Python 的 TensorFlow 庫(kù)進(jìn)行編程。
2.10 Pix2code
項(xiàng)目地址:https://github.com/tonybeltramelli/pix2code
這個(gè)深度學(xué)習(xí)項(xiàng)目非常令人振奮,它嘗試為給定的 GUI 自動(dòng)生成代碼。當(dāng)建立網(wǎng)站或移動(dòng)設(shè)備界面的時(shí)候,通常前端工程師必須編寫(xiě)大量枯燥的代碼,這很費(fèi)時(shí)和低效。這阻礙了開(kāi)發(fā)者將主要的時(shí)間用于實(shí)現(xiàn)真正的功能和軟件邏輯。Pix2code 的目的是通過(guò)將過(guò)程自動(dòng)化來(lái)克服這一困難。它基于一種新方法,允許以單個(gè) GUI 截圖作為輸入來(lái)生成計(jì)算機(jī) token。
Pix2code 使用 Python 編寫(xiě),可將移動(dòng)設(shè)備和網(wǎng)站界面的捕捉圖像轉(zhuǎn)換成代碼。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03