
精選大數(shù)據(jù)相關(guān)用語
大數(shù)據(jù) (Big Data) 與數(shù)據(jù)科學(xué) (Data Science) 已成為大眾耳熟能詳?shù)脑~匯,各行各業(yè)正在積極運(yùn)用且開發(fā)大數(shù)據(jù)的價(jià)值,這些巨量數(shù)據(jù)也帶來了巨大的商機(jī)。
這時(shí)身處于大數(shù)據(jù)時(shí)代的我們,自然得對(duì)大數(shù)據(jù)有所認(rèn)識(shí),在這里為大家列出了一些經(jīng)常跟大數(shù)據(jù)一起出現(xiàn)的陌生用語,認(rèn)識(shí)了這些大數(shù)據(jù)相關(guān)字匯,下次看大數(shù)據(jù)的相關(guān)文章就不會(huì)一直卡了。
Algorithm 演算法
出自于數(shù)學(xué)用語,在這里指的是在有限步驟內(nèi),分析數(shù)據(jù)的具體方法,而且通常由軟件來執(zhí)行。
AIDC 自動(dòng)識(shí)別技術(shù)
AIDC(Automatic Identification and Data Capture)是將訊息數(shù)據(jù)自動(dòng)識(shí)讀、自動(dòng)輸入電腦的重要方法和手段,它是以電腦技術(shù)和通信技術(shù)為基礎(chǔ)的綜合性科學(xué)技術(shù)。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識(shí)別(Biometrics)、RFID 等技術(shù)。
AWS 亞馬遜網(wǎng)路服務(wù)系統(tǒng)
2006 年 Amazon 開始以 Web 服務(wù)的形式向企業(yè)提供各種云端運(yùn)算服務(wù),包括運(yùn)算、儲(chǔ)存、數(shù)據(jù)庫、分析、應(yīng)用程式和部署服務(wù)?,F(xiàn)在許多科學(xué)家、開發(fā)人員以及各企業(yè)的技術(shù)人員都在利用 AWS (Amazon Web Services)進(jìn)行大數(shù)據(jù)分析。
Avro 序列化系統(tǒng)
Avro 是 Hadoop 底下的子專案,是一個(gè)數(shù)據(jù)序列化系統(tǒng)(Data serialization system),被設(shè)計(jì)用來支援大量數(shù)據(jù)交換。
Behavioral analytics 行為分析
行為分析是指用科學(xué)方法分析環(huán)境刺激與行為之間的因果關(guān)系,藉著系統(tǒng)性的觀察來了解行為的變化原則,進(jìn)而有系統(tǒng)的操作刺激,以達(dá)到行為的學(xué)習(xí)、塑造或改變。簡(jiǎn)單來說,就是用一個(gè)有系統(tǒng)的方法去觀察、測(cè)量、收集客觀數(shù)據(jù)來分析目標(biāo)的表現(xiàn)行為。
Big Data 大數(shù)據(jù)
大數(shù)據(jù)(or 巨量數(shù)據(jù)),顧名思義是指大量的資訊,當(dāng)數(shù)據(jù)量龐大到數(shù)據(jù)庫系統(tǒng)無法在合理時(shí)間內(nèi)進(jìn)行儲(chǔ)存、運(yùn)算、處理,分析成能解讀的資訊時(shí),就稱為大數(shù)據(jù)。有興趣深入了解請(qǐng)參考《巨量數(shù)據(jù)的時(shí)代,用「大、快、雜、疑」四字箴言帶你認(rèn)識(shí)大數(shù)據(jù)》以及《7 個(gè)你不可不知的大數(shù)據(jù)定義》。
BI 商業(yè)智慧
BI (Business Intelligence) 指用現(xiàn)代數(shù)據(jù)倉儲(chǔ)技術(shù)、線上分析處理技術(shù)、數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析,再以圖形化的界面或報(bào)表呈現(xiàn)以實(shí)現(xiàn)商業(yè)價(jià)值。
Cassandra 數(shù)據(jù)庫系統(tǒng)
是 Apache 軟件基金會(huì)底下的開源分布式 NoSQL 數(shù)據(jù)庫系統(tǒng),適合用來管理巨量的結(jié)構(gòu)化數(shù)據(jù),由于其良好的可擴(kuò)展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名網(wǎng)站所采用。
CDR 詳細(xì)通聯(lián)記錄
CDRs (Call Detail Record)是電信網(wǎng)路的使用紀(jì)錄,例如通話時(shí)間、通話長(zhǎng)度等資訊。CDR 是電信業(yè)者與企業(yè)分析網(wǎng)路營(yíng)運(yùn)和客戶行為的重要資源。
Clickstream Analytics 點(diǎn)擊流分析
點(diǎn)擊流(Clickstream)就是使用者的在網(wǎng)頁間來來去去的點(diǎn)選記錄,也可以分成 Upstream –– 進(jìn)入這個(gè)網(wǎng)站的「來源」,以及 Downstream —— 拜訪完這個(gè)網(wǎng)站之後的「去向」。對(duì)于網(wǎng)路行銷跟搜尋引擎來說,點(diǎn)擊流分析是十分重要的參考。
Cloud Computing 云端運(yùn)算
云端運(yùn)算(Cloud Computing)是一種將數(shù)據(jù)、工具及程式放到網(wǎng)際網(wǎng)路上處理的資源利用方式,是一種分散式電腦運(yùn)算(Distrubted computing)的概念,也就是讓網(wǎng)路上不同的電腦同時(shí)幫你做一件事,可以大大的增加處理速度。
也因?yàn)樗匈Y訊都被放置到網(wǎng)路的虛擬空間里,工程師在繪制示意圖時(shí)常以一朵云來代表這個(gè)虛擬空間,因而有了「云端(Cloud)」一名。
Data Mining 數(shù)據(jù)探勘
顧名思義,就好比在地球上從一堆粗糙的石頭中進(jìn)行地物探勘、尋找有價(jià)值的礦脈,數(shù)據(jù)探勘就是從巨量數(shù)據(jù)中提取出未知的、有價(jià)值的潛在資訊。
Data Modelling 數(shù)據(jù)建模
數(shù)據(jù)模式(Data Model)在資訊系統(tǒng)中指的是數(shù)據(jù)如何被表達(dá)、儲(chǔ)存及取用的方式,包括數(shù)據(jù)的格式、定義和屬性,數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的限制,而數(shù)據(jù)模式的設(shè)計(jì)過程就稱為「數(shù)據(jù)建模」。
Data Visualization 數(shù)據(jù)視覺化
是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究,數(shù)據(jù)視覺化的技術(shù)可以幫助不同背景的工程人員溝通、理解,以達(dá)良好的設(shè)計(jì)與分析結(jié)果。
Data Experts 數(shù)據(jù)專家
數(shù)據(jù)專家就是能利用數(shù)據(jù)作出研究評(píng)估的專業(yè)人士,像是數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師等都可以被歸類為數(shù)據(jù)專家,其工作內(nèi)容細(xì)分請(qǐng)參考《數(shù)據(jù)分析師?科學(xué)家?架構(gòu)師?大數(shù)據(jù)人才的工作內(nèi)容及年薪比較》。
Exploratory Data Analysis 探索式分析
探索式數(shù)據(jù)分析是指在沒有標(biāo)準(zhǔn)流程跟方法的情況下,在現(xiàn)有的數(shù)據(jù)中找尋數(shù)據(jù)的結(jié)構(gòu)和特點(diǎn)、探索潛藏于數(shù)據(jù)中的訊息,這種數(shù)據(jù)分析方法強(qiáng)調(diào)的是探索式的分析而非嚴(yán)謹(jǐn)?shù)哪J酱_認(rèn)。
Hadoop 技術(shù)
Hadoop 是一個(gè)能夠儲(chǔ)存并管理大量數(shù)據(jù)的云端平臺(tái),為 Apache 軟件基金會(huì)底下的一個(gè)開放原始碼、社群基礎(chǔ)、而且完全免費(fèi)的軟件,Hadoop 的兩大核心功能 —— 儲(chǔ)存(Store)及處理(Process)數(shù)據(jù)所用到的分散式檔案系統(tǒng) HDFS 跟 MapReduce 平行運(yùn)算架構(gòu)。Hadoop 被廣泛應(yīng)用于大數(shù)據(jù)儲(chǔ)存和大數(shù)據(jù)分析,成為大數(shù)據(jù)的主流技術(shù)。有興趣深入了解請(qǐng)參考《認(rèn)識(shí)大數(shù)據(jù)的黃色小象幫手 –– Hadoop》。
Internet of Things 物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(Iots)是一個(gè)全球化的網(wǎng)路基礎(chǔ)建設(shè),透過數(shù)據(jù)擷取以及通訊能力以連結(jié)實(shí)體與虛擬物件,透過網(wǎng)際網(wǎng)路的發(fā)展,物連網(wǎng)可透過特定的機(jī)制,將所有裝置連結(jié)在一起,以供控制、偵測(cè)、識(shí)別,并交換所有的資訊。
NoSQL 數(shù)據(jù)庫系統(tǒng)
NoSQL 最早是指「No SQL」,號(hào)稱不使用 SQL 作為查詢語言的數(shù)據(jù)庫系統(tǒng)。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結(jié)合 SQL 優(yōu)點(diǎn)并混用關(guān)聯(lián)式數(shù)據(jù)庫和 NoSQL 數(shù)據(jù)庫來達(dá)成最佳的儲(chǔ)存效果。
在巨量數(shù)據(jù)所帶動(dòng)的潮流下,各種不同形態(tài)的NoSQL數(shù)據(jù)庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 數(shù)據(jù)庫軟件中較為人熟知的一種。
Predictive Analytics 預(yù)測(cè)分析
是指透過預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)來分析現(xiàn)有和歷史的事實(shí)數(shù)據(jù)對(duì)未來作出預(yù)測(cè)的數(shù)據(jù)分析方法。
R 語言
R 是一個(gè)開放原始碼統(tǒng)計(jì)軟件,提供統(tǒng)計(jì)計(jì)算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費(fèi) 而且簡(jiǎn)單易上手,近年來成為數(shù)據(jù)科學(xué)界里的重要工具。
SaaS 軟件即服務(wù)
SaaS (Software-As-A-Service)是隨著網(wǎng)際網(wǎng)路技術(shù)和應(yīng)用軟件的成熟而興起的一種軟件應(yīng)用模式。SaaS 提供商將軟件統(tǒng)一部署在自己的伺服器上,藉由網(wǎng)路提供軟件給客戶,所以客戶不用購(gòu)買軟件,而是根據(jù)需求向提供商訂購(gòu)所需的服務(wù),且客戶無需對(duì)軟件進(jìn)行維護(hù),服務(wù)提供商會(huì)全權(quán)管理和維護(hù)軟件;軟件廠商在向客戶提供網(wǎng)際網(wǎng)路應(yīng)用的同時(shí),也提供軟件的離線操作和本地?cái)?shù)據(jù)存儲(chǔ),讓客戶隨時(shí)隨地都可以使用其定購(gòu)的軟件和服務(wù)。
對(duì)于許多小型企業(yè)來說,SaaS 是采用先進(jìn)技術(shù)的最好途徑,它消除了企業(yè)購(gòu)買、構(gòu)建和維護(hù)基礎(chǔ)設(shè)施和應(yīng)用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB 為兆位元組,是數(shù)據(jù)量的分級(jí),相當(dāng)于 10^12 bytes。其他數(shù)據(jù)量分級(jí)如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03