成人国产亚洲精品a区,果冻国产精品麻豆成人av电影

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)工程師常用的幾個(gè)小工具（附python源代碼）

2018-01-12

數(shù)據(jù)工程師常用的幾個(gè)小工具（附python源代碼）

作為數(shù)據(jù)工程師或者數(shù)據(jù)分析師，經(jīng)常會(huì)跟各種數(shù)據(jù)打交道，其中，獲取數(shù)據(jù)這一關(guān)是無(wú)法避免的，下面，我就將自己時(shí)常工作中用到的數(shù)據(jù)連接配置模型分享出來(lái)，供大家交流。

MySQL數(shù)據(jù)庫(kù)
mysql數(shù)據(jù)庫(kù)是目前用的最多的數(shù)據(jù)庫(kù)之一，此處我做的是讀和寫的接口，而刪除和更新操作，一般不是分析師做的，而是開發(fā)，所以我沒有做這個(gè)。

     1 import MySQLdb
     2 import pandas as pd
     3 from sqlalchemy import create_engine
     4
     5 class con_analyze:
     6     """數(shù)據(jù)分析平臺(tái)連接"""
     7
     8     def __init__(self, database='myanalyze'):
     9         self.database = database
    10         self.conn = None
    11
    12     def connect(self):
    13         self.conn = MySQLdb.connect(host='***', user='root', passwd='***', db=self.database,
    14                                     charset='utf8')
    15
    16     def query(self, sql):
    17         try:
    18             self.connect()
    19             data = pd.read_sql(sql, self.conn)
    20         except (AttributeError, MySQLdb.OperationalError):
    21             self.connect()
    22             data = pd.read_sql(sql, self.conn) # 讀取數(shù)據(jù)出現(xiàn)錯(cuò)誤,再次連接
    23         return data
    24
    25     def store(self, mydataframe, table_name, if_exists='replace'):
    26         conn2 = "mysql+mysqldb://root:***@***:3306/%s" % self.database
    27         local_engine = create_engine(conn2)
    28         mydataframe.to_sql(table_name, local_engine, if_exists=if_exists, index=False, chunksize=10000)
    29
    30     '''還可以加一個(gè)函數(shù)用來(lái)執(zhí)行單條sql語(yǔ)句,不僅僅是讀取數(shù)據(jù)，還可以u(píng)pdate，create等'''

作為一個(gè)鏈接類來(lái)使用，初始化的時(shí)候給出的conn是None，只有在執(zhí)行查詢函數(shù)的時(shí)候才創(chuàng)建鏈接，（鏈接中，我隱去了自己的host信息，你需要將自己的host填進(jìn)去）
查詢的時(shí)候使用了try語(yǔ)句，如果鏈接不成功或者查詢不成功，就會(huì)出錯(cuò)，如果是鏈接不成功，那就在異常中再次連接。關(guān)于重復(fù)執(zhí)行一段代碼，有一個(gè)庫(kù)大家可以關(guān)注一下：tenacity 這個(gè)庫(kù)能讓你實(shí)現(xiàn)更優(yōu)雅（pythonic）的代碼重復(fù)
此處讀取數(shù)據(jù)是使用pandas庫(kù)中的read_sql函數(shù)，此函數(shù)可以直接將查詢結(jié)果轉(zhuǎn)化成一個(gè)dataframe，方便了后面的分析工作
存儲(chǔ)功能也是使用dataframe的函數(shù)tosql，此函數(shù)是將一個(gè)df直接轉(zhuǎn)化成sql數(shù)據(jù)存入數(shù)據(jù)庫(kù)，如果tablename存在，可以選擇替換（replace）、增加（append）等，如果df很大很長(zhǎng)，就需要設(shè)置一下chunksize參數(shù)
chunksize的設(shè)定，程序會(huì)自動(dòng)將你的長(zhǎng)達(dá)幾十萬(wàn)行的df迭代存儲(chǔ)，每次只存儲(chǔ)10000行（這個(gè)數(shù)字是我設(shè)定的，你也可以改）。
看到這里，你可能會(huì)有疑問，為什么讀和寫的conn不一樣，一個(gè)是用 MySQLdb.connect創(chuàng)建，而另一個(gè)是用create_engine創(chuàng)建。我想說(shuō)的是，后面這個(gè)conn2其實(shí)可以作為讀的連接參數(shù)，但是使用 MySQLdb.connect創(chuàng)建的連接卻不一定能用來(lái)寫，因?yàn)槲以趯?shí)踐中多次運(yùn)行發(fā)生了錯(cuò)誤，所以我就改了。
其實(shí)，其他的數(shù)據(jù)庫(kù)可以類似這種做法，給自己的項(xiàng)目配置一個(gè)連接類，使用的時(shí)候應(yīng)該是這樣的：
首先，你需要把代碼放在一個(gè)單獨(dú)的配置文件，比如config.py中
然后在你需要使用的地方，導(dǎo)入此配置文件

1 from config import con_analyze
2
3
4 class AnalyzeData:
5     def __init__(self):
6         # 此處初始化，可以帶一個(gè)參數(shù)：database,默認(rèn)為myanalyze
7         self.conn = con_analyze()
8         # self.conn2 = con_analyze("myanalyze_2")
9
10     def get_data(self, sql):
11         # 執(zhí)行sql查詢結(jié)果保存到df中
12         df = self.conn.query(sql=sql)
13
14     def store_data(self, df):
15         # 將dataframe類型的數(shù)據(jù)df，存入名為dd_name的數(shù)據(jù)表中
16         self.conn.store(df, 'db_name')

MongoDB

mongodb是一個(gè)非結(jié)構(gòu)化數(shù)據(jù)庫(kù)，里面存儲(chǔ)的數(shù)據(jù)類似于json，是鍵值對(duì)的形式，如果你遇到了需要查詢mongodb中的數(shù)據(jù)，下面我就簡(jiǎn)單介紹一下。
同樣，也是要建立一個(gè)類，這是為了規(guī)范。

1 import pymongo
2 import pandas as pd
3
4 class Conn_Mongo:
5     """mongo 數(shù)據(jù)庫(kù)連接"""
6
7     def __init__(self):
8         self.mongo_utoken = pymongo.MongoClient('mongodb://***:27000').utoken # 用戶表
9
10     def get_user_data_mongo(self,list_id):
11         """
12         通過(guò)連接 mongo查找
13         """
14         user_data = pd.DataFrame(list(self.mongo_fotor.userinfo.find({'FToken': {'$in': list(list_id)}})))
15         return user_data

這個(gè)畢竟簡(jiǎn)單，就是一個(gè)查詢操作，我是先傳入一串id，根據(jù)id找到對(duì)應(yīng)的信息。一般來(lái)說(shuō)，mongodb的庫(kù)容量都比較大，所以我是有針對(duì)的查詢相關(guān)信息。
這里用到了pymongo庫(kù)，通過(guò)它創(chuàng)建一個(gè)到相應(yīng)地址（我用*隱掉了）的連接，后面的.utoken是對(duì)應(yīng)的庫(kù)名稱，其實(shí)你也可以把它作為參數(shù)，在初始化的時(shí)候傳進(jìn)去。
后面查詢的時(shí)候使用了find函數(shù)，其前面的userinfo是表的名稱，find的參數(shù)也是鍵值對(duì)的形式，這里我指定了鍵的名稱”FToken”，其值{‘$in’: list(list_id)}代表的意思是：在什么什么中。
將id 做成了一個(gè)list（為了大家理解，取名為list_id），相關(guān)語(yǔ)法大家可以查閱一下。
Flurry

如果你的工作涉及到了app的數(shù)據(jù)，那經(jīng)常會(huì)使用Flurry獲取數(shù)據(jù)。
Flurry是一個(gè)移動(dòng)統(tǒng)計(jì)平臺(tái)，雖然是國(guó)外的，但國(guó)內(nèi)依然可以用（不像谷歌分析被禁了），ios和Android應(yīng)用的運(yùn)營(yíng)數(shù)據(jù)都可以在上面統(tǒng)計(jì)查詢。
如果你還沒有，又想了解的，可以戳這里：Flurry（https://login.flurry.com/）
對(duì)，網(wǎng)頁(yè)瀏覽的話，界面就是這樣的。
常用的功能是用戶數(shù)據(jù)
以及功能點(diǎn)擊事件
不過(guò)，這不是我要說(shuō)的重點(diǎn)，上面只是讓你看一下Flurry長(zhǎng)什么樣，現(xiàn)在我要寫python接口，將這些數(shù)據(jù)取出。
Flurry的api地址，請(qǐng)戳這里：Flurry API
這是創(chuàng)建分析報(bào)告的api，有別于開發(fā)的api
首先，我們需要去申請(qǐng)一個(gè)app token，用于獲取連接權(quán)限，申請(qǐng)方法請(qǐng)參考：app access token(https://developer.yahoo.com/flurry/docs/api/code/apptoken/）
它是大一串字母
只要獲取到了這個(gè)token，我們就可以創(chuàng)建一個(gè)url，用于獲取Flurry里面的數(shù)據(jù)了，具體看如下的代碼：

import pandas as pd
import json, requests

1 class Conn_Flurry:
2     """flurry api data"""
3     api_token = "******.****.****"
4     headers = {'Authorization': 'Bearer {}'.format(api_token)}
5     url = "https://api-metrics.flurry.com/public/v1/data/appEvent/day/app?metrics=activeDevices,newDevices,averageTimePerDevice&dateTime=2017-05-23/2017-05-24"
6
7     def get_results(self, url=url):
8         '''
9         這里使用的url是一個(gè)示例，也可以使用get_url函數(shù)創(chuàng)建需要的url傳入此函數(shù)作為參數(shù)
10         '''
11         data = requests.get(url, headers=self.headers)
12         cleaned = json.loads(data.text, 'utf-8')
13         cleaned = pd.DataFrame(cleaned['rows'])
14         return cleaned
15
16     def get_url(self, table='appEvent', timegrain='day', dimensions='app/event', metrics='occurrences',
17                 dateTime='2017-09-23/2017-05-24', filters=""):
18         '''
19         若filters為空，不影響結(jié)果
20         標(biāo)準(zhǔn)的url：endpoint + '/table/timeGrain/dimension1/dimension2;show=all/dimension3{...}?metrics=[comma-separated-metrics]&dateTime=[..]&filters=[...]&topN=[..]&sort=[..]&having=[..]&format=[..]&timeZone=[..]'
21         App Usage url： endpoint+ "/appUsage/day?metrics=sessions,activeDevices,newDevices&dateTime=2016-06-01/2016-08-01&filters=app|name-in[appname]"
22         app event url: endpoint + "/appEvent/day/app/appVersion/event?metrics=occurrences&dateTime=2016-07-01/2016-07-03&filters=app|name-in[foo],event|name-in[login,register]"
23         app event url2: endpoint + "/appEvent/day/app/country?metrics=activeDevices,newDevices&dateTime=2016-07-01/2016-07-03&filters=app|name-in[foo],event|name-in[login]&topN=5&sort=activeDevices|desc"
24         event parameter: endpoint+ "/eventParams/day/app;show=all/event/paramName/paramValue?metrics=count&dateTime=2016-11-07/2016-11-08&filters=app|name-in[foo],event|name-in[level_complete]"
25         注意，dimensions的變化，當(dāng)要看某一事件的具體信息時(shí)：app;show=all/event/paramName/paramValue，加了個(gè)show=all
26         注意filters里面filters的格式，可以選擇app名稱和事件名稱
27         注意timegrain和datetime的關(guān)系，常見的就是day和month，datetime的格式也要跟著變
28         '''
29         endpoint = 'https://api-metrics.flurry.com/public/v1/data'
30         url = "{}/{}/{}/{}?metrics={}&dateTime={}&filters={}".format(endpoint, table, timegrain, dimensions, metrics,
31                                                                      dateTime, filters)
32         return url

代碼稍微有點(diǎn)長(zhǎng)，中間許多注釋行，但總的來(lái)說(shuō)就是兩個(gè)步驟：

    構(gòu)建url

    獲取url對(duì)應(yīng)的結(jié)果
    但是細(xì)細(xì)說(shuō)來(lái)，這里面涉及到的東西比較多，比如，為什么url的格式是這樣的，還有headers為什么是那樣構(gòu)造的，還有結(jié)果的形式等等
    我想說(shuō)的是，這些在官網(wǎng)api上已有很詳細(xì)的說(shuō)明，我就不搬磚了，不過(guò)，如果你有任何疑問，歡迎在評(píng)論區(qū)留言，我知道的一定盡心解答。

1 url = self.conn_flurry.get_url('appUsage', 'month', 'app','averageTimePerSession,activeDevices,newDevices,sessions', self.time_range)
2 user_mobile = self.conn_flurry.get_results(url)

上面就是一個(gè)簡(jiǎn)單的應(yīng)用，其中time_range應(yīng)該是這樣的格式

self.time_range = '2017-09/2017-10'

對(duì)于這個(gè)時(shí)間范圍，F(xiàn)lurry默認(rèn)是左閉右開的，即不包含10月
同理，如果是這樣

'2017-09-23/2017-10-24'

那就代表從9月23號(hào)起，但是不包含10月24號(hào)的結(jié)果，這一點(diǎn)尤其要注意。如果你是拿某一段時(shí)間內(nèi)的數(shù)據(jù)，就很容易忽略這點(diǎn)，導(dǎo)致少拿數(shù)據(jù)
如果是按天拿還好，有date這個(gè)維度，會(huì)提醒你到底拿到了哪些天的數(shù)據(jù)。