
盤點:精選大數(shù)據(jù)相關(guān)用語
這時身處于“大數(shù)據(jù)時代”的我們,自然得對大數(shù)據(jù)有所認識,在這里為大家列出了一些經(jīng)常跟大數(shù)據(jù)一起出現(xiàn)的陌生用語,認識了這些大數(shù)據(jù)相關(guān)字匯,下次看大數(shù)據(jù)的相關(guān)文章就不會一直“卡”了。
Algorithm演算法
出自于數(shù)學(xué)用語,在這里指的是在有限步驟內(nèi),分析數(shù)據(jù)的具體方法,而且通常由軟件來執(zhí)行。
AIDC自動識別技術(shù)
AIDC(Automatic Identification and Data Capture)是將訊息數(shù)據(jù)自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術(shù)和通信技術(shù)為基礎(chǔ)的綜合性科學(xué)技術(shù)。常見的AIDC例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID等技術(shù)。
AWS亞馬遜網(wǎng)路服務(wù)系統(tǒng)
2006年Amazon開始以Web服務(wù)的形式向企業(yè)提供各種云端運算服務(wù),包括運算、儲存、數(shù)據(jù)庫、分析、應(yīng)用程式和部署服務(wù)?,F(xiàn)在許多科學(xué)家、開發(fā)人員以及各企業(yè)的技術(shù)人員都在利用AWS (Amazon Web Services)進行大數(shù)據(jù)分析。
Avro序列化系統(tǒng)
Avro是Hadoop底下的子專案,是一個數(shù)據(jù)序列化系統(tǒng)(Data serialization system),被設(shè)計用來支援大量數(shù)據(jù)交換。
Behavioral analytics行為分析
行為分析是指用科學(xué)方法分析環(huán)境刺激與行為之間的因果關(guān)系,藉著系統(tǒng)性的觀察來了解行為的變化原則,進而有系統(tǒng)的操作刺激,以達到行為的學(xué)習(xí)、塑造或改變。簡單來說,就是用一個有系統(tǒng)的方法去觀察、測量、收集客觀數(shù)據(jù)來分析目標的表現(xiàn)行為。
Big Data大數(shù)據(jù)
大數(shù)據(jù)(or巨量數(shù)據(jù)),顧名思義是指大量的資訊,當(dāng)數(shù)據(jù)量龐大到數(shù)據(jù)庫系統(tǒng)無法在合理時間內(nèi)進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數(shù)據(jù)。
BI商業(yè)智慧
BI (Business Intelligence)指用現(xiàn)代數(shù)據(jù)倉儲技術(shù)、線上分析處理技術(shù)、數(shù)據(jù)挖掘進行數(shù)據(jù)分析,再以圖形化的界面或報表呈現(xiàn)以實現(xiàn)商業(yè)價值。
Cassandra數(shù)據(jù)庫系統(tǒng)
是Apache軟件基金會底下的開源分布式NoSQL數(shù)據(jù)庫系統(tǒng),適合用來管理巨量的結(jié)構(gòu)化數(shù)據(jù),由于其良好的可擴展性和性能,被Digg、Twitter、Hulu、Netflix等知名網(wǎng)站所采用。
CDR詳細通聯(lián)記錄
CDRs (Call Detail Record)是電信網(wǎng)路的使用紀錄,例如通話時間、通話長度等資訊。CDR是電信業(yè)者與企業(yè)分析網(wǎng)路營運和客戶行為的重要資源。
Clickstream Analytics點擊流分析
點擊流(Clickstream)就是使用者的在網(wǎng)頁間來來去去的點選記錄,也可以分成Upstream––進入這個網(wǎng)站的“來源”,以及Downstream——拜訪完這個網(wǎng)站之後的“去向”。對于網(wǎng)路行銷跟搜尋引擎來說,點擊流分析是十分重要的參考。
Cloud Computing云端運算
云端運算(Cloud Computing)是一種將數(shù)據(jù)、工具及程式放到網(wǎng)際網(wǎng)路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網(wǎng)路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。
也因為所有資訊都被放置到網(wǎng)路的虛擬空間里,工程師在繪制示意圖時常以一朵云來代表這個虛擬空間,因而有了“云端(Cloud)”一名。
Data Mining數(shù)據(jù)探勘
顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,數(shù)據(jù)探勘就是從巨量數(shù)據(jù)中提取出未知的、有價值的潛在資訊。
Data Modelling數(shù)據(jù)建模
數(shù)據(jù)模式(Data Model)在資訊系統(tǒng)中指的是數(shù)據(jù)如何被表達、儲存及取用的方式,包括數(shù)據(jù)的格式、定義和屬性,數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的限制,而數(shù)據(jù)模式的設(shè)計過程就稱為“數(shù)據(jù)建模”。
Data Visualization數(shù)據(jù)視覺化
是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究,數(shù)據(jù)視覺化的技術(shù)可以幫助不同背景的工程人員溝通、理解,以達良好的設(shè)計與分析結(jié)果。
Data Experts數(shù)據(jù)專家
數(shù)據(jù)專家就是能利用數(shù)據(jù)作出研究評估的專業(yè)人士,像是數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師等都可以被歸類為數(shù)據(jù)專家。
Exploratory Data Analysis探索式分析
探索式數(shù)據(jù)分析是指在沒有標準流程跟方法的情況下,在現(xiàn)有的數(shù)據(jù)中找尋數(shù)據(jù)的結(jié)構(gòu)和特點、探索潛藏于數(shù)據(jù)中的訊息,這種數(shù)據(jù)分析方法強調(diào)的是探索式的分析而非嚴謹?shù)哪J酱_認。
Hadoop技術(shù)
Hadoop是一個能夠儲存并管理大量數(shù)據(jù)的云端平臺,為Apache軟件基金會底下的一個開放原始碼、社群基礎(chǔ)、而且完全免費的軟件,Hadoop的兩大核心功能——儲存(Store)及處理(Process)數(shù)據(jù)所用到的分散式檔案系統(tǒng)HDFS跟MapReduce平行運算架構(gòu)。Hadoop被廣泛應(yīng)用于大數(shù)據(jù)儲存和大數(shù)據(jù)分析,成為大數(shù)據(jù)的主流技術(shù)。
Internet of Things物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(Iots)是一個全球化的網(wǎng)路基礎(chǔ)建設(shè),透過數(shù)據(jù)擷取以及通訊能力以連結(jié)實體與虛擬物件,透過網(wǎng)際網(wǎng)路的發(fā)展,物連網(wǎng)可透過特定的機制,將所有裝置連結(jié)在一起,以供控制、偵測、識別,并交換所有的資訊。
NoSQL數(shù)據(jù)庫系統(tǒng)
NoSQL最早是指“No SQL”,號稱不使用SQL作為查詢語言的數(shù)據(jù)庫系統(tǒng)。但近來則普遍將NoSQL視為“Not Only SQL”,也就是“不只是SQL”的意思,希望結(jié)合SQL優(yōu)點并混用關(guān)聯(lián)式數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫來達成最佳的儲存效果。
在巨量數(shù)據(jù)所帶動的潮流下,各種不同形態(tài)的NoSQL數(shù)據(jù)庫如雨後春筍般竄起,其中MongoDB是眾多NoSQL數(shù)據(jù)庫軟件中較為人熟知的一種。
Predictive Analytics預(yù)測分析
是指透過預(yù)測模型、機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)來分析現(xiàn)有和歷史的事實數(shù)據(jù)對未來作出預(yù)測的數(shù)據(jù)分析方法。
R是一個開放原始碼統(tǒng)計軟件,提供統(tǒng)計計算和繪圖功能,類似Matlab跟SAS,而R不但免費而且簡單易上手,近年來成為數(shù)據(jù)科學(xué)界里的重要工具。
SaaS軟件即服務(wù)
SaaS (Software-As-A-Service)是隨著網(wǎng)際網(wǎng)路技術(shù)和應(yīng)用軟件的成熟而興起的一種軟件應(yīng)用模式。SaaS提供商將軟件統(tǒng)一部署在自己的伺服器上,藉由網(wǎng)路提供軟件給客戶,所以客戶不用購買軟件,而是根據(jù)需求向提供商訂購所需的服務(wù),且客戶無需對軟件進行維護,服務(wù)提供商會全權(quán)管理和維護軟件;軟件廠商在向客戶提供網(wǎng)際網(wǎng)路應(yīng)用的同時,也提供軟件的離線操作和本地數(shù)據(jù)存儲,讓客戶隨時隨地都可以使用其定購的軟件和服務(wù)。
對于許多小型企業(yè)來說,SaaS是采用先進技術(shù)的最好途徑,它消除了企業(yè)購買、構(gòu)建和維護基礎(chǔ)設(shè)施和應(yīng)用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB為兆位元組,是數(shù)據(jù)量的分級,相當(dāng)于10^12 bytes。其他數(shù)據(jù)量分級如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10