本文講述了數(shù)據(jù)分析師應當了解的五個統(tǒng)計基本概念:統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計方法。 利用統(tǒng)計學,我們可以更深入、更細致地觀察數(shù)據(jù)是如何進行精確組織的,并且基于這種組織結構, ...
2020-05-18在過去的幾十年中,機器學習領域發(fā)生了巨大的變化。誠然,有些方法已經(jīng)存在很長時間了,但仍然是該領域的主要內(nèi)容。例如,Legendre和Gauss已經(jīng)在19世紀初提出了最小二乘的概念。在最近的幾十年中,諸如神經(jīng)網(wǎng)絡等 ...
2020-05-14xpath,英文全稱XML Path Language,即XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,可以在 XML文檔中查找相關的信息,相對而言功能還是比較強大的。 xpath最初是一個通用的、介于XPointer與XSL間的語 ...
2020-05-14是一種可以從html和xml中快速提取內(nèi)容的python庫,共有四種類型,對于爬蟲解析來說,主要用其中的遍歷文檔樹和搜索文檔樹 BeautifulSoup The Dormouse\'s story Once upon a time there were thr ...
2020-05-14在JavaScript教程有同步加載與異步加載,大家知道它們指什么嗎? 什么是同步加載? 在加載數(shù)據(jù)時仍然執(zhí)行其他程序,通常加載時是不執(zhí)行程序的,我們不得不等進度條,因為很多程序在沒有加載數(shù)據(jù)時, ...
2020-05-14隨著機器學習的興起,Python 逐步成為了「最受歡迎」的語言。它簡單易用、邏輯明確并擁有海量的擴展包,因此其不僅成為機器學習與數(shù)據(jù)科學的首選語言,同時在網(wǎng)頁、數(shù)據(jù)爬取scrapy可科學研究等方面成為不二選擇。 ...
2020-05-14大數(shù)據(jù)時代下,憑借數(shù)據(jù)管理框架中的重要管理職能,元數(shù)據(jù)管理也越來越頻繁的出現(xiàn)在大家的視野中。 元數(shù)據(jù)及應用也是數(shù)據(jù)倉庫的重要組成部分,它是描述數(shù)據(jù)的數(shù)據(jù)(data about data),描述數(shù)據(jù)的屬性信息,可以幫助 ...
2020-05-14R語言中的dplyr包非常神奇,里面包含很多的函數(shù),今天我們就來介紹下窗口函數(shù)的應用。 窗口函數(shù)應用 mtcars %>% group_by(cyl) %>% mutate(rank = min_rank(desc(mpg))) mtcars %>% group_by(cyl) ...
2020-05-14postgreSQL是一款先進的開源數(shù)據(jù)庫,擁有非常齊全的自由軟件的對象-關系型數(shù)據(jù)庫管理系統(tǒng)(ORDBMS),可面向企業(yè)復雜SQL的OLTP業(yè)務場景,支持多項企業(yè)級功能,能解決使用數(shù)據(jù)庫的各種難題。 PostgreSQL的優(yōu)勢有很多 ...
2020-05-14Spark為結構化數(shù)據(jù)處理引入了一個稱為Spark SQL的編程模塊。簡而言之,sparkSQL是Spark的前身,是在Hadoop發(fā)展過程中,為了給熟悉RDBMS但又不理解MapReduce的技術人員提供快速上手的工具。 sparkSQL提供了一 ...
2020-05-14維度表和事實表,在構建企業(yè)級數(shù)據(jù)倉庫時經(jīng)常能見到。維度表被看成是用戶用來分析一個事實的窗口,它里面的數(shù)據(jù)應該是對事實的各個方面描述,簡而言之就是基礎表,如:時間維度表,它里面的數(shù)據(jù)就是一些日,周,月, ...
2020-05-14大數(shù)據(jù)作為繼云計算、物聯(lián)網(wǎng)之后IT行業(yè)又一顛覆性的技術,備受關注,要想知道大數(shù)據(jù)創(chuàng)業(yè)方向,一定要知道。Kettle作為ETL工具,在數(shù)據(jù)管理環(huán)節(jié)出現(xiàn),那么我們一起來看看,大數(shù)據(jù)產(chǎn)業(yè)鏈包括哪幾個環(huán)節(jié) IT基 ...
2020-05-14hive默認將元數(shù)據(jù)存儲到本地內(nèi)嵌的Derby數(shù)據(jù)庫中,但是Derby不支持多會話鏈接,因此我們使用mysql數(shù)據(jù)庫來存儲hive的元數(shù)據(jù)。配置完成hiveSQL的元數(shù)據(jù)庫之后再開始安裝、配置hive。 1、在線安裝mysql ...
2020-05-14最近項目需要一個數(shù)據(jù)收集分析的功能,做了一些調(diào)研。我們一起來看看flume是主流嗎? 目前做網(wǎng)絡統(tǒng)計的方式有兩大類: 1. Page Tagging, 即頁面埋點;web端用js,移動端使用共用api。 2. ...
2020-05-13rdd,英文全稱為:Resilient Distributed Dataset,中文簡稱“彈性分布式數(shù)據(jù)集”,spark中最基礎的抽象數(shù)據(jù)結構。 RDD具備分區(qū)、不可變、并行操作這三個基本特性,表現(xiàn)形式為不可變的分區(qū)元素的集合,并且可以在集 ...
2020-05-13Mapreduce是種編程模型,結合了概念\"Map(映射)\"和\"Reduce(歸約)\",用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng) ...
2020-05-13docker源自PaaS提供商dotCloud,是一個基于LXC的開源的高級應用容器引擎,源代碼托管在 Github 上, 基于go語言并遵從Apache2.0協(xié)議開源。 容器是完全使用沙箱機制,使用者可以將其應用打包后放入docker ...
2020-05-13Spark Streaming、Flink、Kafka三者都是真正的實時處理,它們分別是什么呢?我們今天來了解下。 什么是Spark Streaming? spark streaming是真正的實時處理,是微批處理。 什么是Flink? flin ...
2020-05-13一般來說,python中DataFrame是可以執(zhí)行的,可能是初學者在使用過程中,引入了兩個DataFrame,導致pandas的DataFrame被覆蓋,從而無法運行。 引用zdpandas的DataFrame 我們不會直接引入DataFrame,而是 ...
2020-05-13Flink其實就是ApacheFlink,是一款業(yè)內(nèi)非?;鸬拇髷?shù)據(jù)產(chǎn)品,由Apache軟件基金會開發(fā),核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Apache Flink是個旨在提供‘一站式’ 的分布式開源數(shù)據(jù)處理框架。 Flink ...
2020-05-13訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11