Hadoop、Hive、Spark之間是什么關(guān)系 大數(shù)據(jù)本身是個很寬泛的概念,Hadoop生態(tài)圈(或者泛生態(tài)圈)基本上都是為了處理超過單機(jī)尺度的數(shù)據(jù)處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有 ...
2017-06-12R語言利器之ddply和aggregate ddply和aggregate是兩個用來整合數(shù)據(jù)的功能強(qiáng)大的函數(shù)。 aggregate(x, ...) 關(guān)于aggregate()函數(shù)的使用在《R語言實戰(zhàn)》中P105有簡單描述,這里重新說一下。此函數(shù)主要有一 ...
2017-06-11R內(nèi)存管理與垃圾清理 1.內(nèi)存查看 memory.limit():查看內(nèi)存大小 memory.limit(n):申請內(nèi)存大小 memory.size(NA):查看內(nèi)存大小 memory.size(T):查看已分配的內(nèi)存 memory.size(F):查看已使用的內(nèi)存 2.內(nèi)存申 ...
2017-06-11logistic回歸和probit回歸預(yù)測公司被ST的概率 1.適合閱讀人群: 知道以下知識點:盒狀圖、假設(shè)檢驗、邏輯回歸的理論、probit的理論、看過回歸分析,了解AIC和BIC判別準(zhǔn)則、能自己跑R語言程序 2.本文目的:用R語 ...
2017-06-11R語言從SNPedia批量提取搜索數(shù)據(jù) SNP是單核苷酸多態(tài)性,人的基因是相似的,有些位點上存在差異,這種某個位點的核苷酸差異就做單核苷酸多態(tài)性,它影響著生物的性狀,影響著對某些疾病的易感性。SNPedia是一個SN ...
2017-06-11R語言數(shù)據(jù)可視化2—ggplot2各種維度的業(yè)務(wù)量統(tǒng)計根據(jù)類型統(tǒng)計不同月份的業(yè)務(wù) 準(zhǔn)備工作: 1.案例所用的表“test1.csv” 2.所用到的R包\"ggplot2\"、\"lubridate\" ggplot2介紹:用來作圖 lubrid ...
2017-06-11R語言數(shù)據(jù)可視化1—ggplot2畫柱狀圖 目的:將已有的業(yè)務(wù)表(csv格式),導(dǎo)入到Rstudio中。根據(jù)“開始時間”,按月份統(tǒng)計出業(yè)務(wù)量。畫出下圖。(注:我選擇的業(yè)務(wù)表中只有1、2、3月的數(shù)據(jù)) 開始吧! ...
2017-06-11R語言面向?qū)ο缶幊?S3和R6 一、基于S3的面向?qū)ο缶幊? 基于S3的面向?qū)ο缶幊淌且环N基于泛型函數(shù)(generic function)的實現(xiàn)方式。 1.S3函數(shù)的創(chuàng)建 S3對象組成:generic(generic FUN)+method(generic.class FUN) ...
2017-06-10R語言數(shù)據(jù)分析利器data.table包—數(shù)據(jù)框結(jié)構(gòu)處理精講 R語言data.table包是自帶包data.frame的升級版,用于數(shù)據(jù)框格式數(shù)據(jù)的處理,最大的特點快。包括兩個方面,一方面是寫的快,代碼簡潔,只要一行命令就可以完 ...
2017-06-10R語言通過parallel包實現(xiàn)多線程運(yùn)行 總的來說,R的運(yùn)算速度不算快,不過類似并行運(yùn)算之類的改進(jìn)可以提高運(yùn)算的性能。下面非常簡要地介紹如何利用R語言進(jìn)行并行運(yùn)算 library(parallel) cl.cores <- detectCor ...
2017-06-10R語言通過loess去除某個變量對數(shù)據(jù)的影響 當(dāng)我們想研究不同sample的某個變量A之間的差異時,往往會因為其它一些變量B對該變量的固有影響,而影響不同sample變量A的比較,這個時候需要對sample變量A進(jìn)行標(biāo)準(zhǔn)化之 ...
2017-06-10R語言—連接Oracle數(shù)據(jù)庫 本教程會講解兩種方法,第一種方法較為簡單,且中文不容易出現(xiàn)亂碼。第二種方法,較為復(fù)雜,和java的jdbc連接數(shù)據(jù)庫操作類似。 操作環(huán)境: 系統(tǒng):windows10 64位 數(shù)據(jù)庫:Oracle11 ...
2017-06-10時間序列分析算法【R詳解】 在商業(yè)應(yīng)用中,時間是最重要的因素,能夠提升成功率。然而絕大多數(shù)公司很難跟上時間的腳步。但是隨著技術(shù)的發(fā)展,出現(xiàn)了很多有效的方法,能夠讓我們預(yù)測未來。不要擔(dān)心,本文并不會 ...
2017-06-10R語言實現(xiàn)質(zhì)量控制圖 上次費(fèi)了半天勁寫出了Xbar-R代碼之后第二天就發(fā)現(xiàn)了R語言中的SixSigma和qcc程序包。各種質(zhì)量控制圖應(yīng)有盡有,畫的還比我好看#手動微笑。 > library(qcc) #加載qcc程序包 > qcc(a ...
2017-06-09使用R語言預(yù)測泰坦尼克號乘客生存率 1912年4月10日,號稱 “世界工業(yè)史上的奇跡”的豪華客輪泰坦尼克號開始了自己的處女航,從英國的南安普頓出發(fā)駛往美國紐約,4月14日晚,泰坦尼克號在北大西洋撞上冰山而傾覆 ...
2017-06-09利用R語言的Boruta包進(jìn)行特征選擇 變量選擇是模型構(gòu)建的一個重要方面,每個分析人員都必須學(xué)習(xí)。畢竟,它有助于排除相關(guān)變量、偏見和不必要噪音的限制來建立預(yù)測模型。 許多分析新手認(rèn)為,保持所有(或更多 ...
2017-06-09R語言中的回歸診斷-car包 如何判斷我們的線性回歸模型是正確的? 1、回歸診斷的基本方法 opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women) par(mfrow = c(2, 2)) plot(fit) par(op ...
2017-06-09R語言在生態(tài)學(xué)研究中的應(yīng)用分析 隨著觀測手段的不斷進(jìn)步和長期觀測數(shù)據(jù)的不斷積累,加上數(shù)據(jù)共享機(jī)制不斷完善,生態(tài)學(xué)研究已經(jīng)跨入的大數(shù)據(jù)的時代。面對巨量的原始數(shù)據(jù),一個生態(tài)學(xué)者需要運(yùn)用相當(dāng)可觀的數(shù)學(xué)知 ...
2017-06-09R語言做數(shù)據(jù)探索 1 數(shù)據(jù)導(dǎo)入 數(shù)據(jù)常用格式.csv/.txt/.xls/.json/.xml。 R語言提供相應(yīng)的函數(shù)和庫實現(xiàn)對這些數(shù)據(jù)格式的導(dǎo)入。 現(xiàn)已導(dǎo)入.csv格式和以tab分隔的.txt格式為例 # 讀.csv格式 data1<-read.c ...
2017-06-09SPSS統(tǒng)計基礎(chǔ)-均值功能的使用 均值過程計算一個或多個自變量類別中因變量的子組均值和相關(guān)的單變量統(tǒng)計。您也可以獲得單因素方差分析、eta 和線性相關(guān)檢驗。 統(tǒng)計量。合計、個案數(shù)、均值、中位數(shù)、組內(nèi)中位 ...
2017-06-08訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11