R語言多元分析系列 R語言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。它把原始數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一 ...
2017-07-21R語言的常用函數(shù)速查 基本 一、數(shù)據(jù)管理 vector:向量 numeric:數(shù)值型向量 logical:邏輯型向量character;字符型向量 list:列表 data.frame:數(shù)據(jù)框c:連接為向量或列表 length:求長度 subset:求子集 ...
2017-07-21R語言與抽樣技術(shù)學習筆記(Jackknife) R語言與抽樣技術(shù)學習筆記(Randomize,Jackknife,bootstrap) Jackknife算法 Jackknife的想法在我很早的一篇博客《R語言與點估計學習筆記(刀切法與最小二乘估計 ...
2017-07-20R語言與抽樣技術(shù)學習筆記(bootstrap) Bootstrap方法 Bootstrap一詞來源于西方神話故事“The adventures of Baron Munchausen”歸結(jié)出的短語“to pull oneself up by one\'s bootstrap\",意味著不靠外界力 ...
2017-07-20R語言與函數(shù)估計學習筆記(函數(shù)展開) 函數(shù)估計 說到函數(shù)的估計我們可以肯定的一點是我們很難得到原模型的函數(shù),不過我們可以找到一個不壞的函數(shù)去逼近它,所以我們的函數(shù)估計從函數(shù)展開開始說起。 函數(shù) ...
2017-07-20R語言與函數(shù)估計學習筆記(核方法與局部多項式) 非參數(shù)方法 用于函數(shù)估計的非參數(shù)方法大致上有三種:核方法、局部多項式方法、樣條方法。 非參的函數(shù)估計的優(yōu)點在于穩(wěn)健,對模型沒有什么特定的假設(shè),只是認 ...
2017-07-20R語言與函數(shù)估計學習筆記(樣條方法) 樣條估計 如果函數(shù)在不同地方有不同的非線性度,或者有多個極值點,那么用多項式特別是低階多項式來完成擬合是非常不合適的。一種解決辦法是我們之前提到的近鄰多項式 ...
2017-07-20R語言與點估計學習筆記(刀切法與最小二乘估計) 一、刀切法(jackknife) 刀切法的提出,是基于點估計準則無偏性。刀切法的作用就是不斷地壓縮偏差。但需要指出的是縮小偏差并不是一個好的辦 ...
2017-07-20R語言與簡單的回歸分析 回歸模型是計量里最基礎(chǔ)也最常見的模型之一。究其原因,我想是因為在實際問題中我們并不知道總體分布如何,而且只有一組數(shù)據(jù),那么試著對數(shù)據(jù)作回歸分析將會是一個不錯的選擇。 一、 ...
2017-07-19R語言與顯著性檢驗學習筆記 一、何為顯著性檢驗 顯著性檢驗的思想十分的簡單,就是認為小概率事件不可能發(fā)生。雖然概率論中我們一直強調(diào)小概率事件必然發(fā)生,但顯著性檢驗還是相信了小概率事件在我做的這一 ...
2017-07-19R語言之各種檢驗 1、W檢驗(Shapiro–Wilk (夏皮羅–威克爾 ) W統(tǒng)計量檢驗) 檢驗數(shù)據(jù)是否符合正態(tài)分布,R函數(shù):shapiro.test(). 結(jié)果含義:當p值小于某個顯著性水平α(比如0.05)時,則認為 ...
2017-07-19R語言t檢驗 I.單樣本t檢驗 例1. 有原始數(shù)據(jù)的t檢驗 已知某水樣中含碳酸鈣的真值為20.7mg/L,現(xiàn)用某法重復測定該水樣12次,碳酸鈣的含量分別為..問該法測定碳酸鈣含量所得的均值與診治有無顯著差異? x ...
2017-07-19R語言邏輯回歸、ROC曲線和十折交叉驗證 自己整理編寫的邏輯回歸模板,作為學習筆記記錄分享。數(shù)據(jù)集用的是14個自變量Xi,一個因變量Y的australian數(shù)據(jù)集。 1. 測試集和訓練集3、7分組 [html] view plain copy ...
2017-07-19R語言判別分析 本文中分三個方法介紹判別分析,Bayes判別,距離判別,F(xiàn)isher判別。前兩種判別方法都要考慮兩個、或多個總體協(xié)方差(這里是算方差,方差是協(xié)方差的一種)相等或不等的情況,由var.equal=的邏輯參 ...
2017-07-19SAS邏輯回歸之二分類 數(shù)據(jù)集這里用的是australian,有14個自變量Xi,一個因變量Y,Y值只取0或1。 代碼如下: /*邏輯回歸數(shù)據(jù)集australian(690個觀測值,每個含14個屬性,目標變量y(0、1))*/ /*導入 ...
2017-07-18R語言關(guān)聯(lián)規(guī)則 # Apriori算法實現(xiàn)關(guān)聯(lián)規(guī)則挖掘 #======================= MODEL1. 輸入數(shù)據(jù)集為transaction類型 ====================== #install.packages(\"arules\") #Apriori算法程序包 lib ...
2017-07-18R語言主成分分析 解決自變量之間的多重共線性和減少變量個數(shù) 根據(jù)主成分分析的原理,它一方面可以將k個不獨立的指標變量通過線性變換變成k個相互獨立的新變量,這是解決多重共線性問題的一個重要方法;另一 ...
2017-07-18R語言典型相關(guān)分析 1 關(guān)鍵點:典型相關(guān)分析 典型相關(guān)分析是用于分析兩組隨機變量之間的相關(guān)程度的一種統(tǒng)計方法,它能夠有效地揭示兩組隨機變量之間的相互(線性依賴)關(guān)系 例如 研究生入學考試成績與本科 ...
2017-07-18R語言因子分析 因子模型: X=μ + A*F* + ε 其中F=[(f1,f2,…,fm)]^T為公共因子向量,[ε=(ε1,ε2,…,εp)]^T為特殊因子向量,A=[(aij)]^(p×m)為因子載荷矩陣。 I.參數(shù)估計 為了建立因子模型,需要要 ...
2017-07-18R語言方差分析ANOVA 自己整理編寫的R語言常用數(shù)據(jù)分析模型的模板,原文件為Rmd格式,直接復制粘貼過來,作為個人學習筆記保存和分享。 I. 單因素方差分析 #用data frame的格式輸入數(shù)據(jù) medicine <- data.frame( ...
2017-07-18訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11