
作者 | A字頭
來源 | 數(shù)據(jù)札記倌
有些朋友在工作中會有這樣的困惑:明明我從早忙到晚,為什么得到的評價還不高?
要知道,企業(yè)對一個員工的評價是出于“產(chǎn)出”而非“付出”。所以,如果把大量時間花在機械重復的工作上,不但工作效率不高,對個人發(fā)展來說也無甚幫助。
而這些工作,如果對于會點編程的人來說,往往通過幾行代碼就可以快速搞定了。
于是,我去了解了一下身邊不同崗位(HR、產(chǎn)品、運營、市場、數(shù)據(jù)分析師等)每天需要面對的重復性勞動(肯定會有不全,歡迎補充~),總結(jié)了一些在工作中非常常見的例子,并且將源碼整理好供參考。希望這些程序可以讓你的工作更高效?。ㄉ毤有搅藙e忘了回來發(fā)紅包哦~)
那么如何將這些統(tǒng)統(tǒng)實現(xiàn)呢?
我將這些分為以下幾類,大家可以自行評估,各取所需:
系統(tǒng)錄入自動化
由于你經(jīng)常需要不斷的將一些信息錄入系統(tǒng),每一次錄入的過程中你可能需要不斷的點擊一些按鈕,面對這種情況,完全可以寫一個自動腳本,每次代替你來執(zhí)行這些點擊的行為。
這里我們需要用到splinter:
pip install splinter
這里寫了一個自動登錄郵箱的腳本,可以實現(xiàn)文本輸入和網(wǎng)頁點擊:
#coding=utf-8 import time from splinter import Browser def splinter(url): browser = Browser() #login 126 email websize browser.visit(url) #wait web element loading time.sleep(5) #fill in account and password browser.find_by_id('idInput').fill('xxxxxx') browser.find_by_id('pwdInput').fill('xxxxx') #click the button of login browser.find_by_id('loginBtn').click() time.sleep(8) #close the window of brower browser.quit() if __name__ == '__main__': websize = 'https://mail.163.com/' splinter(websize)
同理可以寫一個簡單的游戲掛機腳本,游戲掛機腳本,無非就是自動移動鼠標,自動點擊,進行重復操作,所以,第一步就是如何控制鼠標。
import win32api import time def move_click(x, y, t=0): # 移動鼠標并點擊左鍵 win32api.SetCursorPos((x, y)) # 設(shè)置鼠標位置(x, y) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTDOWN | win32con.MOUSEEVENTF_LEFTUP, x, y, 0, 0) # 點擊鼠標左鍵 if t == 0: time.sleep(random.random()*2+1) # sleep一下 else: time.sleep(t) return 0 # 測試 move_click(30, 30) def resolution(): # 獲取屏幕分辨率 return win32api.GetSystemMetrics(0), win32api.GetSystemMetrics(1)
值得注意的是,一定要在管理員權(quán)限下的cmd中運行,否則點擊無效。
這個時候,你已經(jīng)可以寫個循環(huán),不停地點擊屏幕上不同的幾個點,最基礎(chǔ)的掛機腳本就實現(xiàn)了。
Excel自動化處理
Excel合并
在實際應用中可能會有不同月份的數(shù)據(jù)或者不同周的報告等等的Excel數(shù)據(jù),都是單個獨立的文件,如果想要整體使用的話就需要合并一下,那么如何利用python把指定目錄下的所有Excel數(shù)據(jù)合并成一個文件呢?
思路:利用python xlrd包讀取excle文件,然后將文件內(nèi)容存入一個列表中,再利用xlsxwriter將內(nèi)容寫入到一個新的excel文件中。
# -*- coding: utf-8 -*- #將多個Excel文件合并成一個 import xlrd import xlsxwriter #獲取excel中所有的sheet表 def getsheet(fh): return fh.sheets() #獲取sheet表的行數(shù) def getnrows(fh,sheet): table=fh.sheets()[sheet] return table.nrows #讀取文件內(nèi)容并返回行內(nèi)容 def getFilect(file,shnum): fh=open_xls(file) table=fh.sheets()[shnum] num=table.nrows for row in range(num): rdata=table.row_values(row) datavalue.append(rdata) return datavalue
或者直接用concat+一個循環(huán)來實現(xiàn):
for i in var_list: df_0 = data[['var_1','var_2','var_3','var_4',i]][data[i]=='信息'] df_0['month'] = date_replace(i) df_0 = df_0[['var_1','var_2','var_3','var_4','var_5']] li.append(df_0) writer = pd.ExcelWriter(r'C:\Users\mapping.xlsx') df = pd.concat(li) df.to_excel(writer,'Sheet1',index=False,header = None) df
Excel中添加數(shù)據(jù)圖表整理好excel文件后下一步需要做的是處理文件里的數(shù)據(jù),根據(jù)數(shù)據(jù)來生成一些自己需要的圖表:
import xlsxwriter #設(shè)置一個例子 data = [20, 45, 26, 18, 45] #創(chuàng)建表格 workbook = xlsxwriter.Workbook("temp.xlsx") worksheet = workbook.add_worksheet("data") #添加數(shù)據(jù) worksheet.write_column('A1', data) #創(chuàng)建圖表 chart = workbook.add_chart({'type': 'line'}) #圖表添加數(shù)據(jù) chart.add_series({ 'values': '=data!$A1:$A6', 'name': '圖表名稱', 'marker': { 'type': 'circle', 'size': 8, 'border': {'color': 'black'}, 'fill': {'color': 'red'} } , 'data_labels': {'values': True}, 'trendline': { 'type': 'polynomial', 'order': 2, 'name': '趨勢線', 'forward': 0.5, 'backward': 0.5, 'display_equation':True, 'line': {'color': 'red', 'width':1, 'dash_type': 'long_dash'} } }) worksheet.insert_chart('c1', chart) workbook.close()
實現(xiàn)效果:
word關(guān)鍵信息提取
假設(shè)你收到1萬份簡歷,你想先根據(jù)學校做一些篩選,這時候利用python將大量的簡歷進行信息匯總,只提取關(guān)鍵信息用excel查看起來更加方便。
docx文件自己本身是壓縮文件,打開壓縮包之后竟然發(fā)現(xiàn)里面有個專門存儲word里面文本的文件。 那么步驟就變得簡單了:1. 打開docx的壓縮包2. 獲取word里面的正文信息3. 利用正則表達式匹配出我們想要的信息4. 將信息存儲到txt中(txt可以用excel打開)5. 批量調(diào)用上述過程,完成一萬份簡歷的提取工作利用正則匹配獲取關(guān)鍵信息:
import re def get_field_value(text): value_list = [] m = re.findall(r"姓 名(.*?)性 別", table) value_list.append(m) m = re.findall(r"性 別(.*?)學 歷", table) value_list.append(m) m = re.findall(r"民 族(.*?)健康狀況", table) value_list.append(m) ''' 此處省略其他字段匹配 ''' return value_list
自動化運營監(jiān)控
在平時的工作中,一定會有對運營情況的監(jiān)控,假設(shè)你管理一家店鋪,那么一些關(guān)鍵指標肯定是你需要每天查看到的,比如店鋪訪問數(shù),商品瀏覽數(shù),下單數(shù)等等,這個時候不用每天重復地去統(tǒng)計這些數(shù)據(jù),這需要寫一個自動化程序,每天將數(shù)據(jù)保存在固定的文件夾下就可以實現(xiàn)報表的實時監(jiān)控。
如果你的數(shù)據(jù)來源是線下文件:
from impala.dbapi import connect from impala.util import as_pandas import datetime conn = connect(host='host',port=21050,auth_mechanism='PLAIN',user='user',password='password') #host:數(shù)據(jù)庫域名 #user:數(shù)據(jù)庫用戶名 #password:數(shù)據(jù)庫密碼 df_data = pd.read_excel('temp.xlsx') rows =[] for index, row in df_data.iterrows(): rows.append('('+'"'+str(row['case_id']).replace('nan','null')+'"'+','+'"'+str(row['birth_date'])+'"'+')'+',') a= ''' INSERT into table (case_id, birth_date) values ''' for i in rows: a += i a = a[:-1] cursor1 = conn.cursor() cursor1.execute(a) cursor1.close() conn.close() print('成功導入數(shù)據(jù)至數(shù)據(jù)庫...') del a del rows
如果你的數(shù)據(jù)來源是線上文件(存在數(shù)據(jù)庫)
import sql #sql是封裝的sql文件 sql_end = sql.sql_end cursor1 = conn.cursor() for i in sql_end.split(';'): print(i) cursor1.execute(i) cursor1.close() conn.close() print('程序運行結(jié)束,請執(zhí)行下一步。')
自動發(fā)送郵件
使用Python實現(xiàn)自動化郵件發(fā)送,可以讓你擺脫繁瑣的重復性業(yè)務,節(jié)省非常多的時間。數(shù)據(jù)分析師經(jīng)常會遇到一些取數(shù)需求,有些數(shù)據(jù)需求是每天都需要的,有些數(shù)據(jù)需求是每周一次的。對于這些周期性的數(shù)據(jù)需求,每次都重復性地手動導出這些數(shù)據(jù),并回傳給需求方,是很繁瑣且浪費時間的。所以完全可以設(shè)置自動郵件來解決。"Talk is cheap, show you the code"常見的郵件肯定有三部分:1、正文2、圖片3、附件OK導入我們需要用到的包
from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.image import MIMEImage import smtplib msg = MIMEMultipart()
在郵件中插入正文:
##在郵件中插入文本信息 df_text='''<html> <body> <p> Hi all ,</p> <p> 這是一個測試郵件,詳情請參考附件 </p> <p> 情況如下圖: </p> </body></html>''' msgtext = MIMEText(df_text, 'html', 'utf-8') msg.attach(msgtext)
如果你需要插入圖片,利用同樣的方法,在郵件中插入圖片:
##在郵件中插入圖片信息 image = open('temp.jpg','rb') msgimage = MIMEImage(image.read()) msg.attach(msgimage)
在郵件中插入附件:
##在郵件添加附件 msgfile = MIMEText(open('temp.xlsx', 'rb').read(), 'base64', 'utf-8') msgfile["Content-Disposition"] = 'attachment; filename="temp.xlsx"' msg.attach(msgfile)
剩下的就是設(shè)置一些郵件參數(shù)來發(fā)送郵件:
#設(shè)置郵件信息常量 email_host= '' # 服務器地址 sender = '' # 發(fā)件人 password ='' # 密碼,如果是授權(quán)碼就填授權(quán)碼 receiver = '' # 收件人
發(fā)送郵件:
try: smtp = smtplib.SMTP(host=email_host) smtp.connect(email_host) smtp.starttls() smtp.login(sender, password) smtp.sendmail(sender, receiver.split(',') , msg.as_string()) smtp.quit() print('發(fā)送成功') except Exception: print('發(fā)送失敗')
然后將你的任務設(shè)置定時執(zhí)行就可以輕松實現(xiàn)啦
實現(xiàn)效果:
平時的工作中,真的有太多可以去自動化的任務,由于經(jīng)驗受限這里不能一一舉例說明,只能盡量分享一些我遇到過或者聽說過的例子。希望大家都越來越高效,邊偷懶邊完成工作~
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03