決策樹決策樹(decision tree)是一種基本的分類與回歸方法決策樹由結(jié)點(node)和有向邊(directed edge)組成結(jié)點類型:根結(jié)點(root node),內(nèi)部結(jié)點(internal node)和葉結(jié) 點(leaf node)決策樹:可以把決策樹看成一個if-else規(guī)則的集合由決策樹的根結(jié)點到葉結(jié)點的每一條路徑構(gòu)建一條規(guī)則路徑上內(nèi)部結(jié)點的特征對應(yīng)著規(guī)則的條件,而葉結(jié)點的類對應(yīng)著
于家崎
2020-08-26
聚類聚類(Clustering):將數(shù)據(jù)集劃分為若干相似對象組成的多個組(group) 或簇(cluster)的過程,使得同一組中對象間的相似度最大化,不同組 中對象間的相似度最小化?;蛘哒f一個簇(cluster)就是由彼此相似的 一組對象所構(gòu)成的集合,不同簇中的對象通常不相似或相似度很低聚類分析指將物理或抽象對象的集合分組為由類似的對象 組成的多個類的分析過程。它是一種重要的人類行為。聚類源于很
于家崎
2020-08-25
K近鄰算法K最近鄰(kNN,k-Nearest Neighbor):工作原理:存在一個樣本數(shù)據(jù)集合,也稱作為訓(xùn)練樣本集,并且樣 本集中每個數(shù)據(jù)都存在標簽,即每一個數(shù)據(jù)與所屬分類的一一對應(yīng) 關(guān)系。輸入沒有標簽的新數(shù)據(jù)后,將新的數(shù)據(jù)的每個特征與樣本集 中數(shù)據(jù)對應(yīng)的特征進行比較,然后算法提取樣本最相似數(shù)據(jù)(最近鄰) 的分類標簽。一般來說,只選擇樣本數(shù)據(jù)集中前k個最相似的數(shù)據(jù),這就是k-近鄰 算法中k的出
于家崎
2020-08-24
算法特征匯總最小二乘法 (1)多元回歸中,ols 可以處理多個自變量的情況,尋求殘差平方和最小化; (2)將數(shù)據(jù)視為矩陣,利用線性代數(shù)尋求系數(shù)最優(yōu)化,對內(nèi)存要求很高; (3)大數(shù)據(jù)場景下,存在線性和內(nèi)存約束問題。 (4)小數(shù)據(jù)情況的常用算法; 正則化法——約束 (1)一方面尋求最小化模型誤差,另一方面可以減少模型復(fù)雜度(取 L1 絕對值),如自 變量個數(shù)很多的時候,選擇較少的重要變量來表示
于家崎
2020-08-18
PYECHARTS介紹pyecharts 中??檔 https://pyecharts.org/#/zh-cn/ github 主? https://github.com/pyecharts/ pyecharts新版本修改說明https://github.com/pyecharts/ pyecharts/issues/1033
于家崎
2020-08-14
數(shù)據(jù)可視化——Matplotlib風(fēng)格style查看風(fēng)格:style.available使用風(fēng)格:style.use("風(fēng)格")設(shè)置支持中文字體顯示:windows電腦 Matplotlib 支持中文plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsemac電腦正常顯示中文plt.r
于家崎
2020-08-13
DataFrameDataFrame 是一個帶有索引的二維數(shù)據(jù)結(jié)構(gòu),每列可以有自己的名字,并且可以有不同的數(shù)據(jù)類型。你可以把它想象成一個 excel 表格或者數(shù)據(jù)庫中的一張表,DataFrame 是最常用的 Pandas 對象。創(chuàng)建在構(gòu)建 DataFrame 的時候,主要有兩種思路數(shù)據(jù)為字典類的格式, 是以列的方式進行組織, 字典的 key 將會作為列名,字典的值value作為列的數(shù)據(jù).數(shù)據(jù)為列表
于家崎
2020-08-11
Panads介紹Pandas通常是用于數(shù)據(jù)分析過程中, 數(shù)據(jù)的清洗, 數(shù)據(jù)預(yù)處理, 數(shù)據(jù)的描述性分析等過程中.在整個Python數(shù)據(jù)分析的生態(tài)環(huán)境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的對數(shù)據(jù)進行各種各樣的處理與操作.Pandas的名稱來自于面板數(shù)據(jù)(panel data)和python數(shù)據(jù)分析(data analysis)。在Pandas中, 最重要的兩種數(shù)據(jù)結(jié)構(gòu)是1維
于家崎
2020-08-11
NumpyNumpy 是 Python 的一個科學(xué)計算包,包含了多維數(shù)組以及多維數(shù)組的操作。Numpy 的核心是 ndarray 對象,這個對象封裝了同質(zhì)數(shù)據(jù)類型的n維數(shù)組。起名 ndarray 的原因就是因為是 n-dimension-array 的簡寫。ndaarray:只能有一種數(shù)據(jù)類型,而且每個元素占用內(nèi)存空間大小相同。import numpy as np 加載numpy包Numpy 常見
于家崎
2020-08-10
函數(shù)函數(shù)的基本構(gòu)成:def function_name(parameter): function_body1.在定義函數(shù)的時候,python是允許函數(shù)功能為空的,也就是我們上面第一個例子。2.同樣,我們的小括號“( )”中的參數(shù)也可以為空,換句話說,就是當我們調(diào)用這個函數(shù)的時候,函數(shù)會直接執(zhí)行函數(shù)包裹的代碼塊。3.含參數(shù)的函數(shù),即將同樣的參數(shù)名稱的傳入值代碼塊相應(yīng)位置,參
于家崎
2020-08-06
代碼結(jié)構(gòu)1.if else條件判斷語句:if 條件: #(若條件成立,所執(zhí)行的語句)else(這里的條件省略,因為與if條件互斥“非彼即此”): #(若條件不成立,所執(zhí)行的語句)2.if elif else條件判斷語句:if 條件1: #(滿足條件1時執(zhí)行的語句)elif 條件2: #(滿足條件2時執(zhí)行的語句) #...elif 條件n-1: #(滿足條件n-1時執(zhí)行的
于家崎
2020-08-05
基本容器容器:列表、元組、字典以及集合。Python還有兩種序列結(jié)構(gòu):元組和列表。他們都可包含零個或者多個元素。1.列表[ ]列表是一個有序的序列結(jié)構(gòu)2.元組( )與列表類似,元組也是由任意類型元素組成的序列。與列表不同的是,元組是不可變的,這意味著一旦元組被定義,將無法再進行增加、刪除或修改元素等操作。因此,元組就像是一個常量列表。3.字典{key:value }字典(dictionary),與
于家崎
2020-08-04
Python基礎(chǔ)Python中最基本的數(shù)據(jù)類型:>> 1. 布爾類型(bool):表示真假的類型,僅包含True(真)和False(假)兩種取值> 2. 整型(int):表示整數(shù),例如1,2,1000,10000> 3. 浮點型(float):表示小數(shù),例如3.1415;或是科學(xué)記數(shù)法表示的數(shù)字,例如:3.14e3(3.14的乘以10的3次方)> 4. 字符串類型(str):表示字符組成的有序序列
于家崎
2020-08-03
列聯(lián)分析用來分析定性數(shù)據(jù)對定性數(shù)據(jù)的影響。相當于檢驗多總體比例是否一致。理論數(shù)=行合*列合/總合Excel中使用CHITEST 進行列聯(lián)分析,注意數(shù)據(jù)的排法不同帶來的自由度也不同。(需要先計算期望數(shù)據(jù))列聯(lián)分析主要有兩大作用:擬合優(yōu)度檢驗和獨立性檢驗。方差分析用來分析定性數(shù)據(jù)對定量數(shù)據(jù)是否有影響。組內(nèi)比較SSE組間比較SSA所有數(shù)據(jù)一起比較SST可以證明得到:SST=SSE+SSA進一步計算方差組
于家崎
2020-07-29
假設(shè)檢驗——已知部分信息但不知道是否正確假設(shè)檢驗的概念(1)假設(shè)(hypothesis) 一般定義:對事物未知事實的一種陳述。統(tǒng)計學(xué)定義:對總體參數(shù)的的數(shù)值所作的一種陳述。(2)假設(shè)檢驗(hypothesis testing)1)定義:事先對總體參數(shù)或分布形式作出某種假設(shè),然后利用樣本信息來判斷原假設(shè)是否成立;2)地位:是統(tǒng)計方法(描述性統(tǒng)計和推斷性統(tǒng)計)中推斷性統(tǒng)計(參數(shù)估計和假設(shè)檢驗)的兩大方
于家崎
2020-07-28
推斷統(tǒng)計估計均值、標準差包含了一組數(shù)據(jù)的大部分主要信息;我們可以借助均值、標準差進行進一步的估計。參數(shù)估計:已知或假定分布。非參數(shù)估計:未知且無法假定(常借用“秩”進行估計,即數(shù)據(jù)的大小順序)。參數(shù)估計的四步驟:1.選定參數(shù)——確定需要估計的參數(shù)2.選定統(tǒng)計量——確定估計參數(shù)的統(tǒng)計量3.抽樣分布——已知或假定模型分布4.估計——得出結(jié)果一.選定參數(shù)1.總體均值的估計:單總體均值,兩總體均值之差2.
于家崎
2020-07-27
什么是統(tǒng)計學(xué)統(tǒng)計學(xué)是一門收集,處理,分析,解釋并從中得出結(jié)論的科學(xué)。核心:數(shù)據(jù)數(shù)據(jù)分析步驟:收集數(shù)據(jù)=》處理數(shù)據(jù)=》分析數(shù)據(jù)=》解釋數(shù)據(jù)統(tǒng)計學(xué)運用在分析數(shù)據(jù)的方法分為兩大類:描述性數(shù)據(jù)方法??傮w規(guī)模、對比關(guān)系、集中趨勢、離散程度、偏態(tài)、 峰態(tài)、......推斷性數(shù)據(jù)分析方法。估計、假設(shè)檢驗、列聯(lián)分析、方差分析、相關(guān)分析、 回歸分析、......統(tǒng)計學(xué)的對象是數(shù)據(jù)數(shù)據(jù)有兩種形式:數(shù)字和文字。如何區(qū)分
于家崎
2020-07-24
銷售漏斗對整個銷售業(yè)務(wù)有著巨大的價值控制銷售過程,有針對性的快速解決銷售問題了解銷售情況,準確預(yù)測銷售業(yè)績及時指導(dǎo)及監(jiān)督銷售人員工作,避免客戶流失,提高贏單率實現(xiàn)營銷管理的最高境界 ---- 標準化管理銷售漏斗數(shù)據(jù)要求應(yīng)保證銷售漏斗數(shù)據(jù)的準確性與時效性1.準確性銷售階段內(nèi)容準確:銷售階段內(nèi)容應(yīng)嚴格依據(jù)銷 售階段定義如實錄入系統(tǒng)商機金額準確:應(yīng)如實估算商機金額,盡量做到 商機金額與最終成交金額相同角
于家崎
2020-07-21
銷售管理分析: 銷售漏斗管理模型概念介紹銷售運營與數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動銷售運營業(yè)務(wù),實現(xiàn)銷售利潤最大化為目。1.了解及把握過去及現(xiàn)在的銷售情況2.可視化呈現(xiàn)銷售數(shù)據(jù)趨勢3.迅速把握與戰(zhàn)略相關(guān)重要KPI指標情況4.為制定應(yīng)對決策提供客觀數(shù)據(jù)依據(jù)5.提前預(yù)測銷售趨勢走向6.檢驗過往銷售策略的得失銷售管理分析的重要性:對于銷售人員:1.改善銷售行為、預(yù)測業(yè)務(wù)達成率、管理商機進度2.提前掌握風(fēng)險商機,及時制
于家崎
2020-07-20
電商案例 – 流量分析電商黃金公式: 銷售額 = 流量 * 轉(zhuǎn)化率 * 客單價流量相關(guān)重要指標:流量數(shù)量重要指標:1.訪客數(shù)(UV):到達店鋪頁面的非重復(fù)用戶數(shù)2.瀏覽量(PV):店鋪內(nèi)瀏覽和查看頁面的累加次數(shù)3.訪問次數(shù)(Visits):一個會話內(nèi)被用戶連續(xù)訪問的次數(shù)(登錄訪問后退出,再次訪問)4.新訪客數(shù): 新進訪客數(shù)流量質(zhì)量重要指標:1.平均訪問深度:瀏覽量 / 訪問次數(shù)2.跳失率:跳出次數(shù)
于家崎
2020-07-17