99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

帝都房價回調(diào)？帶你用python了解北京二手房市場現(xiàn)狀

2020-08-10

CDA數(shù)據(jù)分析師出品

作者：Mika

數(shù)據(jù)：真達

后期：澤龍

【導(dǎo)讀】

今天讓我們來聊一聊北京的二手房市場現(xiàn)狀。

Show me data，用數(shù)據(jù)說話

今天我們聊一聊北京二手房數(shù)據(jù)

對于許多在一線城市打拼的人群而言，能夠在大城市安家，扎根下來都是為止奮斗的夢想。但一線城市的突破天際房價也讓很多人望而卻步。

轉(zhuǎn)眼間2020年已經(jīng)過半，大家買房子、買房子的愿望實現(xiàn)了嗎？你關(guān)注的房子降價了嗎？

之前DT財經(jīng)的《我只有300萬預(yù)算，能在上海買到什么樣的房子？》分析了上海二手房的房價，引起了很多人的反響。

那么帝都的二手房市場又是怎樣的呢？這次我們用python來分析下北京的二手房數(shù)據(jù)。

我們使用python獲取了鏈家網(wǎng)上北京市16個區(qū)的二手房數(shù)據(jù)。首先導(dǎo)入要使用的數(shù)據(jù)處理包pandas,可視化工具pyecharts和plotly。





# 導(dǎo)入所需包
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import os  

from pyecharts.charts import Pie, Map, Bar, Line, Grid, Page
from pyecharts import options as opts 

import plotly as py 
import plotly.graph_objs as go 
import plotly.express as px

使用循環(huán)讀入數(shù)據(jù)集，然后進行去重處理，查看一下數(shù)據(jù)集大小，可以看到去重之后一共有4403條數(shù)據(jù)。

# 讀入數(shù)據(jù) file_list = os.listdir('../data/')

df_all = pd.DataFrame()  for file in file_list:
    file_name = file.split('.')[0]
    df = pd.read_csv(f'../data/{file}')
    df['region_name'] = file_name 
    df_all = df_all.append(df, ignore_index=True)  # 去重 df_all = df_all.drop_duplicates()
print(df_all.shape)

(33509, 9)

預(yù)覽以下數(shù)據(jù):

df_all.head(2)

02數(shù)據(jù)預(yù)處理

我們對數(shù)據(jù)集的各個特征進行提取和處理，以便后續(xù)的數(shù)據(jù)分析工作，主要處理工作包含：

title：無需分析，刪除
detail_url：無需分析，刪除
position：維度過細、刪除
houseInfo：提取室、廳、面積、方位、裝修、樓層（高中低）、建筑年份、板塔
followInfo：無需分析，刪除
tag_info：提取是否靠近地鐵
total_price：提取房屋總價
unitPrice：房屋單價
region_name：無需處理









# 刪除列
df_all = df_all.drop(['title', 'detail_url', 'position', 'followInfo'], axis=1)  

# 提取室廳
df_all['halls'] = df_all['houseInfo'].str.split('|').str[0].str.extract(r'(\d+)室')
df_all['bedrooms'] = df_all['houseInfo'].str.split('|').str[0].str.extract(r'\d室(\d+)廳') 
# 提取面積
df_all['area'] = df_all['houseInfo'].str.split('|').str[1].str.extract(r'(\d+.*\d+)平米')
# 提取朝向
df_all['orient'] = df_all['houseInfo'].str.split('|').str[2]
# 提取裝修類型
df_all['decorate_type'] = df_all['houseInfo'].str.split('|').str[3]
# 提取樓層
df_all['floor'] = df_all['houseInfo'].str.split('|').str[4]
# 提取建筑年份
df_all['built_year'] = df_all['houseInfo'].str.split('|').str[5].str.extract(r'(\d+)')
# 提取板塔
df_all['banta'] = df_all['houseInfo'].str.split('|').str[6]
# 刪除houseInfo
df_all = df_all.drop('houseInfo', axis=1) 

# 提取地鐵
df_all['subway'] = [1 if '地鐵' in i else 0 for i in df_all['tag_info']]
# 刪除tag_info
df_all = df_all.drop('tag_info', axis=1)

# 提取總價
df_all['total_price'] = df_all['total_price'].str.extract(r'(\d+)')
df_all['unitPrice'] = df_all['unitPrice'].str.extract(r'(\d+)')

# 空值-直接刪除
df_all = df_all.dropna()

# 轉(zhuǎn)換數(shù)據(jù)類型
df_all['total_price'] = df_all['total_price'].astype('int')
df_all['unitPrice'] = df_all['unitPrice'].astype('int')
df_all['halls'] = df_all['halls'].astype('int')
df_all['bedrooms'] = df_all['bedrooms'].astype('int')
df_all['area'] = df_all['area'].astype('float')
df_all['built_year'] = df_all['built_year'].astype('int')
df_all['subway'] = df_all['subway'].astype('int')
df_all.head()

進一步處理樓層、建筑年份和房屋朝向字段。





def transform_floor(x):
    if x == '高樓層' or x == '頂層' or x == '上疊':
        return '高層'
    elif x == '低樓層' or x == '底層' or x == '下疊' or x == '1層' or x == '2層' or x == '3層':
        return '低層'
    elif x == '中樓層' or x == '4層' or x == '5層' or x == '6層':
        return '中層' 
    elif x == '地下室':
        return '地下室'
    else:  # 其他歸為高層
        return '高層'  

# floor一般化
df_all['floor_type'] = df_all['floor'].str.replace(r'\(.*?\)', '').str.strip()
df_all['floor_type'] = df_all.floor_type.apply(transform_floor)
df_all = df_all.drop('floor', axis=1) 

# orient-一般化
df_all['orient'] = df_all['orient'].str.extract(r'([\u4e00-\u9fa5])')

# bulit_year
df_all['built_year'] = 2020 - df_all['built_year']

# banta-一般化
df_all['banta'] = df_all.banta.str.strip()
df_all.head()

03數(shù)據(jù)探索和可視化

以下僅列出關(guān)鍵部分數(shù)據(jù)可視化分析代碼：

近一年北京二手房房價走勢圖

首先我們看到近一年來，北京二手房房價的走勢圖，可以看到有回調(diào)的趨勢，目前的均價在每平方米57589的樣子。

北京不同區(qū)域的二手房房源數(shù)量

那么北京各個區(qū)域的二手房源分布如何呢？

經(jīng)過統(tǒng)計可以看到，朝陽區(qū)的二手房數(shù)量遙遙領(lǐng)先，達到25648.其次是豐臺，共11094。之后海淀、昌平、大興緊隨其后。

北京不同區(qū)域的二手房均價

不同區(qū)域的二手房價又是怎樣的呢？西城區(qū)一馬當先，以114980元每平米的價格領(lǐng)跑北京的二手房市場。其次，東城區(qū)以97295每平米排在第二位。海淀區(qū)以85954每平米的價格排在第三位。

代碼如下：

# 產(chǎn)生數(shù)據(jù) s_region = df_all.groupby('region_name')['unitPrice'].mean().sort_values(ascending=False) 
x_data = [i+'區(qū)' for i in s_region.index.tolist()]
y_data = [round(i) for i in s_region.values.tolist()] 

data_pair = [list(z) for z in zip(x_data, y_data)]

# 地圖
map1 = Map(init_opts=opts.InitOpts(width='1350px', height='750px'))
map1.add('', data_pair, maptype='北京')
map1.set_global_opts(title_opts=opts.TitleOpts(title='北京不同區(qū)域的二手房均價(元/平米)'), 
                     visualmap_opts=opts.VisualMapOpts(max_=114979))
map1.render()

# 條形圖 bar2 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar2.add_xaxis(x_data)
bar2.add_yaxis('', y_data)
bar2.set_global_opts(title_opts=opts.TitleOpts(title='北京不同區(qū)域的二手房均價(元/平米)'), 
                     visualmap_opts=opts.VisualMapOpts(max_=114979))
bar2.render()

北京二手房都處在什么價位

那么在北京買一套二手房到底要花多少錢？接著我們分析了二手房的價位，從圖中可以看到總價在300-500萬內(nèi)的最多，占比達到35.9%。500-800萬的占比26.54%。300萬以下的占比19.54%。

代碼如下：

bins = [74, 300, 500, 800, 1000, 8299]
bins_label = ['300萬及以下', '300-500萬', '500-800萬', '800-1000萬', '1000萬以上']  # 新增字段 df_all['price_cut'] = pd.cut(df_all['total_price'], bins=bins, labels=bins_label) 

price_num = df_all.price_cut.value_counts()  # 數(shù)據(jù)對 data_pair = [list(z) for z in zip(price_num.index.tolist(), price_num.values.tolist())]

# 繪制餅圖
pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))
pie1.add('', data_pair=data_pair, radius=['30%', '60%'], rosetype='radius')
pie1.set_global_opts(title_opts=opts.TitleOpts(title='北京二手房都處在哪些價位？'), 
                     legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter=":geybsqlxm7mc%"))
pie1.set_colors(['#FF7F0E', '#1F77B4', '#2CA02C', '#D62728', '#946C8B'])
pie1.render()

北京二手房房齡分布

那么這些二手房的房齡都有多久了呢？可以看到房齡在20年以上的最多，有10946套占比33.73%，其次房齡在15-20年的有7835套，占比24.15%。5年以內(nèi)的僅有1441套，占比4.44%。

是否靠近地鐵和房屋單價的關(guān)系

一般來說，靠近地鐵越近的房子房價越高，從分布的箱線圖可以看出，以中位數(shù)來看，靠近地鐵的房子單價比不不靠近地鐵的房子每平米高12317元。

不同朝向的房屋數(shù)量分布

房屋朝向方面，朝南的自然是最多的，占比達到68.97%。其次是朝東的，占比18.25%。

不同房屋結(jié)構(gòu)的數(shù)量分布

房屋結(jié)構(gòu)方面，板樓是最多的占比64.39%。其次是塔樓，占比16.85%。板樓塔樓結(jié)合的占比16.45%。

房屋面積和房屋價格的關(guān)系

從散點圖可以看出，房屋的面積和房屋價格呈現(xiàn)正相關(guān)，計算皮爾遜相關(guān)系數(shù)的值為0.67，為強相關(guān)。

代碼如下：

# 添加軌跡 fig = px.scatter(df_all, x='area', y='total_price')

fig.update_layout(title='房屋面積和房屋價格的關(guān)系(萬元)') 
py.offline.plot(fig, filename='房屋面積和房屋價格的關(guān)系.html')

臥室數(shù)量和房屋價格的關(guān)系

從分布的箱線圖可以看出，臥室數(shù)量越多，面積越大，則房屋總價越高。房價呈現(xiàn)右偏分布，且離群值較多。

客廳數(shù)量和房屋價格的關(guān)系

客廳和臥室一樣反映在房屋的面積上，客廳數(shù)越多，則房屋總價越高。

代碼如下：

# 合并 df_all['halls'] = [i if i<=4 else '5及以上' for i in df_all['halls']]
df_all['halls'] = df_all.halls.astype('str') # 添加數(shù)據(jù) y1 = df_all[df_all['halls']=='1']['total_price'].values
y2 = df_all[df_all['halls']=='2']['total_price'].values
y3 = df_all[df_all['halls']=='3']['total_price'].values
y4 = df_all[df_all['halls']=='4']['total_price'].values
y5 = df_all[df_all['halls']=='5及以上']['total_price'].values # 實例Figure fig = go.Figure()  # 添加軌跡 fig.add_trace(trace=go.Box(y=y1, name='1廳'))
fig.add_trace(trace=go.Box(y=y2, name='2廳'))
fig.add_trace(trace=go.Box(y=y3, name='3廳'))
fig.add_trace(trace=go.Box(y=y4, name='4廳'))
fig.add_trace(trace=go.Box(y=y5, name='5廳及以上')) # 配置項 fig.update_layout(title='客廳數(shù)量和房屋價格的關(guān)系（萬元）')
py.offline.plot(fig, filename='客廳數(shù)量和房屋價格的關(guān)系.html')

裝修類型和房屋單價的關(guān)系

不同裝修類型花費的成本不同，從裝修類型看，精裝的房子單價最高，然后是簡裝、毛坯。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python echarts 字段 pandas 數(shù)據(jù)分析 numpy matplotlib 散點圖

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇教你利用帕累托模型評估客戶價值

下一篇原理+代碼｜python基于主成分分析的客戶信貸評級實戰(zhàn)

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗證后自動注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

帝都房價回調(diào)？帶你用python了解北京二手房市場現(xiàn)狀

CDA數(shù)據(jù)分析師出品

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

帝都房價回調(diào)？帶你用python了解北京二手房市場現(xiàn)狀

CDA數(shù)據(jù)分析師 出品

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

CDA數(shù)據(jù)分析師出品

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...