sas字符變量基于iv值的最優(yōu)分類 1.IV的用途 IV的全稱是InformationValue,中文意思是信息價值,或者信息量。 我們在用邏輯回歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有2 ...
2017-03-27SAS中最常用的10個命令 SAS是喬伊平時學習中常用到的數據處理軟件之一。在處理大批量數據時,SAS不能說太好用呢。SAS也是學習起來十分簡單的一個軟件,掌握一些基本的命令,就可以滿足日常的數據處理需求。 ...
2017-03-27簡單易學的機器學習算法—Gibbs采樣 一、Gibbs采樣概述 前面介紹的Metropolis-Hastings采樣為從指定分布中進行采樣提供了一個統一的框架,但是采樣的效率依賴于指定的分布的選擇,若是選擇的不好,會使得接受率 ...
2017-03-27MATLAB技巧—sort和sortrows函數 1、sort函數 sort函數用于對數據進行排序,通過help sort命令,可以查找到sort函數的具體用法: Y = SORT(X,DIM,MODE) has two optional parameters. DIM selects a dimensio ...
2017-03-27機器學習算法實踐—K-Means算法與圖像分割 一、理論準備 1.1、圖像分割 圖像分割是圖像處理中的一種方法,圖像分割是指將一幅圖像分解成若干互不相交區(qū)域的集合,其實質可以看成是一種像素的聚類過程。通常使用 ...
2017-03-27使用Python分析紐約出租車搭乘數據 在紐約,出租車分為兩類:黃色和綠色。黃色出租(Yellow TAXI)車可以在紐約五大區(qū)(布朗克斯區(qū)、布魯克林區(qū)、曼哈頓、皇后區(qū)、斯塔滕島)內任何地點搭載乘客。綠色出租車(Gree ...
2017-03-27機器學習算法與Python實踐之(四)支持向量機(SVM)實現 八、SVM的實現之SMO算法 終于到SVM的實現部分了。那么神奇和有效的東西還得回歸到實現才可以展示其強大的功力。SVM有效而且存在很高效的訓練算法, ...
2017-03-26機器學習算法與Python實踐之(三)支持向量機(SVM)進階 五、核函數 如果我們的正常的樣本分布如下圖左邊所示,之所以說是正常的指的是,不是上面說的那樣由于某些頑固的離群點導致的線性不可分。它是真的 ...
2017-03-26機器學習算法與Python實踐之(二)支持向量機(SVM)初級 一、引入 支持向量機(SupportVector Machines),這個名字可是響當當的,在機器學習或者模式識別領域可是無人不知,無人不曉啊。八九十年代的時候 ...
2017-03-26機器學習算法與Python實踐之(一)k近鄰(KNN) 一、kNN算法分析 K最近鄰(k-Nearest Neighbor,KNN)分類算法可以說是最簡單的機器學習算法了。它采用測量不同特征值之間的距離方法進行分類。它的思想很簡 ...
2017-03-26簡單易學的機器學習算法—馬爾可夫鏈蒙特卡羅方法MCMC 對于一般的分布的采樣,在很多的編程語言中都有實現,如最基本的滿足均勻分布的隨機數,但是對于復雜的分布,要想對其采樣,卻沒有實現好的函數,在這里, ...
2017-03-26Python基礎—網絡編程 在網絡編程中主要是使用Socket(套接字)進行編程,套接字相當于應用程序訪問下層網絡的服務的接口,使用Socket可以是得不同主機之間進行通信,從而實現數據交換。 1、Socket工作方式 套 ...
2017-03-26python—時間與時間戳之間的轉換 對于時間數據,如2016-05-05 20:28:54,有時需要與時間戳進行相互的運算,此時就需要對兩種形式進行轉換,在Python中,轉換時需要用到time模塊,具體的操作有如下的幾種: 將 ...
2017-03-25簡單易學的機器學習算法—Mean Shift聚類算法 一、Mean Shift算法概述 Mean Shift算法,又稱為均值漂移算法,Mean Shift的概念最早是由Fukunage在1975年提出的,在后來由Yizong Cheng對其進行擴充,主要提出 ...
2017-03-25《數學之美》拾遺—潛在語義索引(LSI) 一、潛在語義索引的提出 潛在語義索引(LSI),又稱為潛在語義分析(LSA),是在信息檢索領域提出來的一個概念。主要是在解決兩類問題,一類是一詞多義,如“bank”一詞 ...
2017-03-25《數學之美》拾遺—TF-IDF 在學習機器學習的過程中,我寫了簡單易學的機器學習算法的專題,依然還有很多的算法會陸續(xù)寫出來。網上已經有很多人分享過類似的材料,我只是通過自己的理解,想盡可能用一種通俗易懂 ...
2017-03-25簡單易學的機器學習算法——協同過濾推薦算法(2) 一、基于協同過濾的推薦系統 協同過濾(Collaborative Filtering)的推薦系統的原理是通過將用戶和其他用戶的數據進行比對來實現推薦的。比對的具體方法就是通過 ...
2017-03-25簡單易學的機器學習算法—協同過濾推薦算法(1) 一、推薦系統的概念 推薦系統(Recommendation System, RS),簡單來說就是根據用戶的日常行為,自動預測用戶的喜好,為用戶提供更多完善的服務。舉個簡單的例子, ...
2017-03-25簡單易學的機器學習算法—主成分分析(PCA) 一、數據降維 對于現在維數比較多的數據,我們首先需要做的就是對其進行降維操作。降維,簡單來說就是說在盡量保證數據本質的前提下將數據中的維數降低。降維的操作 ...
2017-03-24簡單易學的機器學習算法—嶺回歸(Ridge Regression) 一、一般線性回歸遇到的問題 在處理復雜的數據的回歸問題時,普通的線性回歸會遇到一些問題,主要表現在: 預測精度:這里要處理好這樣一對為題,即樣本的 ...
2017-03-24訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數據生態(tài)中兩類核心工具的差異與協同 在數字化轉型加速的今天,企業(yè)對數據的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數據分析師:讓統計基本概念成為業(yè)務決策的底層邏輯 統計基本概念是商業(yè)數據分析的 “基礎語言”—— 從描述數據分布的 “均 ...
2025-09-19CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-19SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11