
機(jī)器學(xué)習(xí)和大數(shù)據(jù):是先有雞還是先有蛋?
“對于機(jī)器學(xué)習(xí),需要大量容易獲得的歷史數(shù)據(jù)。但是,如果你沒有這個(gè)數(shù)據(jù)會怎樣?”
現(xiàn)在,機(jī)器學(xué)習(xí)幾乎無處不在,它經(jīng)常出現(xiàn)在大數(shù)據(jù)應(yīng)用之中。機(jī)器學(xué)習(xí)已經(jīng)被贊譽(yù)為大數(shù)據(jù)分析和商務(wù)智能發(fā)展的未來。但是從機(jī)器學(xué)習(xí)中提取價(jià)值并不僅僅是在一個(gè)新的工具中添加一個(gè)插件,或查看一下工作效率和銷量的提高。
成功的機(jī)器學(xué)習(xí)項(xiàng)目依賴于很多因素,包括選擇正確的主題,對于運(yùn)行的環(huán)境,合理的機(jī)器學(xué)習(xí)模型,當(dāng)然最重要的是現(xiàn)有的數(shù)據(jù)。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是財(cái)富。我們不得不承認(rèn),關(guān)于客戶交易、銷售或設(shè)備運(yùn)行日志的數(shù)據(jù)是企業(yè)所擁有的最寶貴的資產(chǎn)之一。特別是機(jī)器學(xué)習(xí)現(xiàn)在為企業(yè)提供的機(jī)會遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的商業(yè)智能,比如可以幫助預(yù)測未來的銷售或潛在的設(shè)備故障,從而提高利潤和減少臨時(shí)的維修。
數(shù)據(jù),大還是小
在談?wù)摗按髷?shù)據(jù)”時(shí),我們習(xí)慣于假設(shè)越多越好。雖然現(xiàn)實(shí)中常常的確也是這樣,數(shù)據(jù)對于實(shí)時(shí)在線個(gè)性化應(yīng)用是很關(guān)鍵的,但不同的任務(wù)對于數(shù)據(jù)大小的需求卻不盡相同。
對于機(jī)器學(xué)習(xí)任務(wù)來說,為了帶來價(jià)值,雖然10Gb的日志似乎有些少,但有時(shí)其實(shí)也可以剛好夠用,具體要看面對什么樣的任務(wù)。10Gb的數(shù)據(jù)對于Google來說也許微不足道,但實(shí)際上足以給一個(gè)傳統(tǒng)的線下企業(yè)帶來一個(gè)巨大的變化。
一個(gè)擁有75000人的大公司的人力資源管理部門。如果公司試圖預(yù)測流動風(fēng)險(xiǎn),以便更好地規(guī)劃未來的人力資源戰(zhàn)略,并及時(shí)采取預(yù)防措施,那么他們就可以使用機(jī)器學(xué)習(xí),而機(jī)器學(xué)習(xí)就可以從分析員工記錄開始。這些記錄每天都有巨大的不同,反映在工作的時(shí)間,角色的轉(zhuǎn)變,通過的培訓(xùn)課程,休病假的天數(shù),等等。雖然這種數(shù)據(jù)量可能被認(rèn)為是過少,則深度地挖掘各種要素需要它超越簡單的統(tǒng)計(jì),走向機(jī)器學(xué)習(xí)。
在另一個(gè)極端,有些公司可能認(rèn)為他們擁大量的珍貴數(shù)據(jù),如很多年的銷售報(bào)告,可以后來才發(fā)現(xiàn),它們只可作為集成數(shù)據(jù),而沒有存儲原始輸入。機(jī)器學(xué)習(xí)需要從細(xì)節(jié)中學(xué)習(xí),僅僅擁有每季度或每年的集成數(shù)據(jù)對任務(wù)來說根本不夠。
因此需要數(shù)據(jù)的多少關(guān)鍵在于用戶所面對的具體任務(wù)。
歷史的經(jīng)驗(yàn)教訓(xùn)
通常數(shù)據(jù)集擁有一個(gè)時(shí)間跨度,而這個(gè)時(shí)間跨度是非常重要的,它應(yīng)該足夠的長,以反映所有相關(guān)的事件以及周期性的變化。例如,如果一個(gè)組織要建立一個(gè)工作模型來預(yù)測一個(gè)零售公司的產(chǎn)品需求,這將至少需要兩到三年的歷史數(shù)據(jù),這樣才能容納季節(jié)性的趨勢。但是,如果要預(yù)測昂貴的制造設(shè)備幾年才可能出現(xiàn)一次的故障,就需要有一個(gè)遠(yuǎn)遠(yuǎn)長的多的歷史數(shù)據(jù),以便在故障出現(xiàn)之前檢測異常情況并預(yù)測故障的發(fā)生。
同時(shí),如果你帶著巨大的客戶基礎(chǔ)和認(rèn)購商業(yè)模型進(jìn)入一個(gè)領(lǐng)域,例如移動電話網(wǎng)絡(luò)、流媒體業(yè)務(wù)或在線游戲,利用短短六個(gè)月的數(shù)據(jù)開始一個(gè)有意義的機(jī)器學(xué)習(xí)項(xiàng)目(例如,預(yù)測客戶的流失)是完全可行的。
通常情況下,數(shù)據(jù)的組織和存儲是一個(gè)公司基礎(chǔ)架構(gòu)部門的關(guān)鍵任務(wù),關(guān)系到公司的核心利益,如何選擇合適的存儲方案呢?是充斥著差異和錯(cuò)誤的非結(jié)構(gòu)化存儲,還是未集成的十幾個(gè)獨(dú)立系統(tǒng)。雖然引進(jìn)數(shù)個(gè)單獨(dú)的存儲庫是擺脫數(shù)據(jù)孤島、提高數(shù)據(jù)質(zhì)量的一種有效方式,但這個(gè)過程是漫長的,非常昂貴,而且不會帶來直接的價(jià)值。但是,如果引入機(jī)器學(xué)習(xí),利用非結(jié)構(gòu)化存儲依然可以幫助調(diào)整進(jìn)一步的基礎(chǔ)設(shè)施投資以及引導(dǎo)數(shù)據(jù)收集策略,非結(jié)構(gòu)化存儲目前是一種非常有效的數(shù)據(jù)組織和存儲方式。
數(shù)據(jù)還可以來自于其他什么地方?
很多企業(yè)忽略了一件很重要的事情,就是企業(yè)可以從外部環(huán)境中購買數(shù)據(jù)。
一方面,最強(qiáng)大和最重要的信號通常隱藏在該公司所擁有的數(shù)據(jù)中。因此,相比于銀行客戶的社交媒體行為,他們的交易中所蘊(yùn)含的知識可以更好地預(yù)測客戶是否將償還貸款。
另一方面,許多公司低估了外部因素的價(jià)值,如氣候數(shù)據(jù)。它會對很多情況產(chǎn)生影響,如冰淇淋的需求,在需求不太明確的情況下,可以通過個(gè)性化推薦,將冰淇淋推薦給那些在天氣差時(shí)更可能留在家里玩游戲的網(wǎng)絡(luò)游戲玩家。
因此企業(yè)除了利用自己的數(shù)據(jù)之外,還可以有很多的選擇,例如社交網(wǎng)絡(luò)平臺,可以利用用戶的在社交網(wǎng)絡(luò)的足跡預(yù)測用戶的偏好,又或者季節(jié)性數(shù)據(jù),利用季節(jié)性變化預(yù)測用戶的未來行為,等等。
機(jī)器學(xué)習(xí)正在很快地從一個(gè)很少人關(guān)注的技術(shù)主題轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ摺榱吮苊忮e(cuò)失良機(jī),企業(yè)現(xiàn)在需要開始設(shè)計(jì)自己的機(jī)器學(xué)習(xí)項(xiàng)目,以幫助他們?yōu)槲磥淼?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)做好準(zhǔn)備。同時(shí),企業(yè)需要理解哪些數(shù)據(jù)是可獲得的,缺少的和需要的,現(xiàn)在就可以開始收集它們,以幫助他們更快地獲得投資回報(bào)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03