99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁大數(shù)據(jù)時代作為一個數(shù)據(jù)科學(xué)家，管理你的可重復(fù)使用的Python代碼

作為一個數(shù)據(jù)科學(xué)家，管理你的可重復(fù)使用的Python代碼

2022-02-15

以下是我作為數(shù)據(jù)科學(xué)家管理自己的可重復(fù)使用的Python代碼的一些方法，從最常用的代碼到最不常用的代碼，并針對初學(xué)者介紹。

有很多不同的方法來管理你自己的代碼，這將取決于你的要求、個性、技術(shù)知識、角色和許多其他因素。一個經(jīng)驗豐富的開發(fā)者可能會有一個非常規(guī)范的方法來組織他們的代碼，跨越多種語言、項目和用例，而一個很少寫自己的代碼的數(shù)據(jù)分析師可能會因為缺乏必要而更加臨時和缺乏動力。其實沒有什么對錯之分，這只是一個對你有用的問題，而且是合適的。

具體地說，我所說的“管理代碼”是指如何組織、存儲和調(diào)用您自己編寫并發(fā)現(xiàn)作為編程工具箱的長期補(bǔ)充有用的不同代碼片段。編程都是關(guān)于自動化的，因此，如果作為一個編寫代碼的人，你發(fā)現(xiàn)自己在重復(fù)執(zhí)行類似的任務(wù)，那么以某種方式自動調(diào)用與該任務(wù)相關(guān)的代碼才有意義。

這就是為什么您已經(jīng)在使用第三方庫。無需每次使用時從頭開始重新實現(xiàn)支持向量機(jī)代碼庫；相反，您可以使用一個庫（可能是Scikit learn），并利用大量人員的集體工作，隨著時間的推移完善一些代碼。

將這個想法擴(kuò)展到個人編程領(lǐng)域才有意義。您可能已經(jīng)在這樣做了（我希望您是這樣），但如果不是的話，以下是我作為一名數(shù)據(jù)科學(xué)家為管理自己的可重用Python代碼而確定的幾種方法，從最常用的代碼使用到最不常用的代碼使用。

完整的庫

這是最通用的方法，也可以說是最 "專業(yè) "的方法；但是，僅僅這一點并不意味著它在任何時候都是正確的選擇。

如果你發(fā)現(xiàn)你在許多用例中使用相同的功能，并且經(jīng)常這樣做，這就是要走的路。如果你想重用的功能很容易被參數(shù)化，這也是有意義的；也就是說，通過編寫和調(diào)用一個通用的函數(shù)，你可以在每次調(diào)用時定義變量，就可以反復(fù)地處理這個任務(wù)。

例如，我經(jīng)常發(fā)現(xiàn)我想在一個字符串中找到某個子串的第n次出現(xiàn)，而Python標(biāo)準(zhǔn)庫中沒有這樣的函數(shù)。因此，我有一段簡單的代碼，它接受一個字符串、子串和我要找的第n次出現(xiàn)作為輸入，并返回這個第n次出現(xiàn)在字符串中開始的位置（很久以前從這里搬來的）。

def find_nth(haystack, needle, n):

start = haystack.find(needle)

while start >= 0 and n > 1:

start = haystack.find(needle, start+len(needle))

n -= 1

return start

由于我處理了大量的文本處理，我把它和我經(jīng)常使用的許多其他文本處理函數(shù)一起收集起來，并創(chuàng)建了一個庫，像其他Python庫一樣駐留在我的計算機(jī)上，并且能夠像其他庫一樣導(dǎo)入這個庫。創(chuàng)建這個庫的步驟有些冗長，雖然很簡單，所以我不會在這里介紹，但這篇文章是眾多做得很好的文章之一。

因此，現(xiàn)在我有了一個textproc庫，我可以很容易地導(dǎo)入和使用我的find_nth函數(shù)，而且可以隨心所欲地使用，而不必在我寫的每個程序中都復(fù)制和粘貼該函數(shù)。

from textproc import find_nth

segment = line[:find_nth(line, ',', 4)].strip()

另外，如果我想擴(kuò)展這個庫，增加更多的功能，或者改變現(xiàn)有的find_nthcode，我可以在一個地方完成，只需重新導(dǎo)入。

特定項目的共享腳本

也許你不需要一個完整的庫，因為你想重用的代碼似乎沒有超出你目前正在進(jìn)行的項目的用途，但你確實需要在一個特定的項目中重用它。在這種情況下，你可以把這些函數(shù)放在一個腳本中，并簡單地按名稱導(dǎo)入該腳本。這是一個可憐的女人的圖書館，但它往往正是我們所需要的。

在我的研究生工作中，我不得不寫很多與無監(jiān)督學(xué)習(xí)有關(guān)的代碼，特別是k-means聚類。我寫了一些初始化中心點、計算數(shù)據(jù)點和中心點之間的距離、重新計算中心點等的函數(shù)，并使用不同的算法完成了許多這些任務(wù)。我很快發(fā)現(xiàn)，保留一個單獨的腳本并復(fù)制其中的一些算法函數(shù)并不是最佳選擇，因此將它們移出到自己的腳本中，以便導(dǎo)入。它的工作方式幾乎與庫相同，但這個過程是特定路徑的，而且只為這個項目而設(shè)。

很快我就有了不同的中心點初始化函數(shù)和距離計算函數(shù)的腳本，以及數(shù)據(jù)加載和處理函數(shù)。隨著這些代碼變得越來越多的參數(shù)化和普遍有用，這些代碼最終進(jìn)入了一個合法的庫。

至少在我的經(jīng)驗中，事情似乎就是這樣發(fā)展的。你在你的腳本中寫了一個你現(xiàn)在需要使用的函數(shù)，然后你使用了它。項目擴(kuò)大了，或者你轉(zhuǎn)到了一個類似的項目，你意識到現(xiàn)在擁有同樣的功能會很方便。于是，這個功能被下放到一個自己的腳本中，并被你導(dǎo)入使用。如果這種有用性持續(xù)到近期，并且你發(fā)現(xiàn)這個函數(shù)有更普遍和更長期的用途，那么這個函數(shù)現(xiàn)在就會被添加到一個現(xiàn)有的庫中，或者成為一個新庫的基礎(chǔ)。

然而，導(dǎo)入簡單腳本的另一個具體有用的方面是在使用Jupyter筆記本的時候。鑒于Jupyter筆記本中的大部分內(nèi)容都具有臨時性、探索性和實驗性，我并不喜歡將筆記本作為模塊導(dǎo)入其他筆記本中。如果我發(fā)現(xiàn)一個以上的筆記本經(jīng)常使用一些代碼摘錄，那么這些代碼就會被下放到存儲在同一文件夾中的腳本中，然后被導(dǎo)入到筆記本中。這種方法對我來說更有意義，并提供了更多的穩(wěn)定性，因為我知道另一個筆記本所依賴的一個筆記本沒有被以有害的方式編輯過。

特定任務(wù)的模板

我發(fā)現(xiàn)我經(jīng)常重復(fù)執(zhí)行一些相同的任務(wù)，這些任務(wù)不適合被參數(shù)化，或者是可以被參數(shù)化的任務(wù)，但要付出更多的努力，這是不值得的。在這種情況下，我采用了代碼模板化，或稱鍋爐式模板化。這就是我在本文一開始就想避免的復(fù)制和粘貼代碼的做法，但有時這也是正確的選擇。

例如，我經(jīng)常需要對Pandas DataFrame的內(nèi)容進(jìn)行 "列表"，因為缺乏一個更好的詞，雖然寫一個函數(shù)可以確定列的數(shù)量，可以接受作為輸入的列，等等，但往往輸出也需要調(diào)整，所有這些都表明寫一個函數(shù)太耗時了。

在這種情況下，我只是寫了一個很容易改變的腳本模板，并把它放在一個類似模板的文件夾里，很方便。下面是listify_df的摘錄，它從CSV文件到Pandas DataFrame，再到想要的HTML輸出。。

在這種情況下，清晰的文件名和文件夾組織有助于管理這些經(jīng)常有用的片段。

簡短的單行字和塊

最后，有很多重復(fù)的片段你可能經(jīng)常輸入。那么你為什么要這樣做呢？

你應(yīng)該利用文本擴(kuò)展工具，在需要時插入簡短的 "短語"。我使用AutoKey來管理這些短語，這些短語與觸發(fā)關(guān)鍵詞相關(guān)聯(lián)，然后在輸入這些關(guān)鍵詞時插入。

例如，你是否為你的所有特定類型的項目導(dǎo)入大量相同的庫？我有。例如，你可以通過輸入#nlpimport來設(shè)置你在某一特定任務(wù)中所需要的所有導(dǎo)入，一旦輸入，就會被識別為一個觸發(fā)關(guān)鍵詞，并被替換為以下內(nèi)容。

import sys, requests

import numpy as np

import pandas as pd

import texthero

import scattertext as st

import spacy

from spacy.lang.en.stop_words import STOP_WORDS

from datasets import load_metric, list_metrics

from transformers import pipeline

from fastapi import FastAPI

應(yīng)該指出的是，有些IDE有這些功能。我自己一般使用美化的文本編輯器來編碼，所以自動鍵在我的情況下是必要的（而且非常有用）。如果你有一個集成開發(fā)環(huán)境可以照顧到這一點，那太好了。關(guān)鍵是，你不應(yīng)該一直重復(fù)輸入這些東西。

以上是對作為一個數(shù)據(jù)科學(xué)家管理可重用的Python代碼的概述。我希望你能發(fā)現(xiàn)它是有用的。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

DataFrame 監(jiān)督學(xué)習(xí) pandas requests 無監(jiān)督學(xué)習(xí) 聚類 numpy 無監(jiān)督

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇AdaGCN：將傳統(tǒng)方法AdaBoost用于深度圖神經(jīng)網(wǎng)絡(luò)，效果會如何（CDA干貨內(nèi)容分享）

下一篇深入了解13位數(shù)據(jù)科學(xué)家的角色及其職責(zé)

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

作為一個數(shù)據(jù)科學(xué)家，管理你的可重復(fù)使用的Python代碼

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

作為一個數(shù)據(jù)科學(xué)家，管理你的可重復(fù)使用的Python代碼

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

作為一個數(shù)據(jù)科學(xué)家，管理你的可重復(fù)使用的Python代碼

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...