
大數據精準營銷必讀的“三步曲”及“兩誤區(qū)“
隨著云時代的來臨,大數據也吸引了越來越多的關注,大多行業(yè)都因沾染這兩個詞匯為榮。馬云也表示,在接下來的社會經濟發(fā)展中,數據將如過去的“石油”成為一種核心資源。
其實,上面這些搜集的數據多數是無效的。在我的文章《展會大數據精準營銷,你應該知道這些事》中,明確提要一個詞匯“大數據畫像”,考慮到未來的營銷會是精準化營銷,搜集數據時一定要按數據的組合進行整理,而大數據畫像很直接地告訴我們該搜集怎樣的數據,由于篇幅有限,此處不過多講解,更多請自行百度一下進行閱讀。
大數據浪潮,洶涌來襲,與互聯網的誕生一樣,這絕不僅僅是信息技術領域的升級,更是在全球范圍企業(yè)加速創(chuàng)新、社會加速變革的利器?,F代關系學之父德魯克說過,預測未來最好的方法,就是去創(chuàng)造未來。而“大數據戰(zhàn)略”,在當下及未來某節(jié)點上能起到“給我一個杠桿,我能翹起整個地球”的效用。
大數據的應用離不開數據,從搜集、存儲、分析到預測。而關于數據的收集,許多人都會覺得無從下手,那么大數據的應用真的那么難嗎?
今年早些時候,一項出自Gartner的統計結果引起了我的關注。該結果稱,到2018年,由于面對關于技能和整合的挑戰(zhàn),70%的Hadoop應用都將陷入困境。
誠然,技能與整合是會為我們帶來挑戰(zhàn),但現如今,各個服務提供商都聲稱能使大數據應用變得更容易、更平滑,那么挑戰(zhàn)與困難會出現在什么環(huán)節(jié)呢?我們從大數據項目的上游部分入手,開始分析。
1、數據收集
對于數據收集,乍一看是一項艱巨的任務。因為對于數據,不僅僅要做到全面,還要做到精準。再加上大數據收集并納入數據湖泊(hub)的一系列工作,使人對大數據項目望洋興嘆。但是如果將數據收集問題肢解開來的話,你會發(fā)現實際操作難度系數降低了不少。
來自傳統來源的數據:我們有各種傳統的體系為我們作分析提供數據來源,例如會計系統、HR系統、CRM系統及專業(yè)的數據采集技術等等。通過現有的ETL技術,我們可以匯聚這些系統中的數據。大體上我們有兩種選擇:一種是將實體數據從數據倉庫復制、替換到數據湖泊(hub),另一種是在結構上搭建數據湖泊(hub)(虛擬數據倉庫的一種變體)。
來自物聯網的結構化的數據:物聯網中的傳感器以及其他設備產生的數據會使應用變得復雜,主要原因是數據產生量與攝入量的及時匹配問題。不過這其中涉及的數據通常高度標準化,而且對上游數據轉換的需求量不大。
非結構化的數據:諸如Hadoop之類的大數據平臺可以簡化媒體文件以及文字數據的收集工作。這些數據可以被簡單地“傾倒”入數據湖泊(hub)而后加以利用,因為這些數據的存儲是無結構的。
2、數據存儲
數據不斷增長造成單機系統性能不斷下降,即使不斷提升硬件配置也難以跟上數據的增長速度。因此,關于數據的存儲就發(fā)展出來數據庫進行存儲,具體有如下幾種:
并行數據庫
并行數據庫是指那些在無共享的體系結構中進行數據操作的數據庫系統。這些系統大部分采用了關系數據模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統中采用了兩個關鍵技術:關系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。
NoSQL數據管理系統
傳統關系型數據庫在處理數據密集型應用方面顯得力不從心,主要表現在靈活性差、擴展性差、性能差等方面。最近出現的一些存儲系統摒棄了傳統關系型數據庫管理系統的設計思想,轉而采用不同的解決方案來滿足擴展性方面的需求。這些沒有固定數據模式并且可以水平擴展的系統現在統稱為NoSQL(有些人認為稱為NoREL更為合理),這里的NoSQL指的是“Not Only SQL”,即對關系型SQL數據系統的補充。
NewSQL數據管理系統
傳統數據庫支持ACID和SQL等特性限制了數據庫的擴展和處理海量數據的性能,因此嘗試通過犧牲這些特性來提升對海量數據的存儲管理能力。這種方式取消了耗費資源的緩沖池,在內存中運行整個數據庫;它還擯棄了單線程服務的鎖機制,也通過使用冗余機器來實現復制和故障恢復,取代原有的昂貴的恢復操作。這種可擴展、高性能的SQL數據庫被稱為NewSQL。
得益于自身基礎設計理念,大數據平臺可以無限擴展。如果大數據平臺在云端運行維護,那么它的靈活性將更強,但是網絡也存在較大安全問題。但是我們從整個數據的應用過程來看,至少從概念上講,存儲數據是大數據應用中最易于實現的部分。
3、數據使用(非應用)
在數據湖泊中存儲了理想的數據后,我們該怎么將其加以利用呢?數據的轉換、協調、確保不同數據源之間的一致性、檢查數據的質量,這些是大數據應用中最難實施的部分,而且在這些方面我們可用的自動化工具少之又少。
如果我們的需求只是基于某個單一數據源開發(fā)項目,或者基于一致的數據集得出報告的話,那么我們有許多集成度高的無縫化解決方案可以使用。然而想要結合多種數據源、探索利用不同屬性的數據的話,我們就不得不自行開發(fā)。
4、大數據的兩個誤區(qū)
大數據“萬能”
個人認為,目前大多企業(yè)不具備數據應用的能力,因為大數據之間存在相關性?!耙痪湓?,即便在大數據時代,種種‘黑天鵝’事件也仍然是沒有辦法被準確預測到的。因為所有根據過去的理論數據模型進行的假設都無法準確推演未來,它們不過是為了未來某個黑天鵝做著準備?!?/span>
大數據涉及海量非相關數據的相關性的統計,其相關性的存在基礎又是什么呢?非相關數據,很多時候兩者的相關性是真相關,也可能是偽相關。需要注意,這種相關性要成為可推演的行為邏輯,首要前提就是確保這種相關性的基礎是恒定不變的。
因此,我們要注意和警惕的是,大數據并非是一個萬能的事物,它的缺陷在于立足于統計學基礎之上,必然是會因為統計樣本的變化而發(fā)生變化的。過去決定未來,是無法反映出時代進步和調整的可能性的。過去所做的推斷,永遠只代表了過去那個階段為止的最高極限,本身是不會自我演化和發(fā)展的。
大數據之“大”
人們往往犯這樣的錯誤,認為大數據越大越好。事實是數據并非越大越好,有價值的分析工具是幫助客戶從海量的大數據找出真正可用于決策的數據,這些有價值的數據就是‘小數據’。”換言之,“小數據”是針對客戶的特定需求概括、提煉出的數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10