
大數(shù)據(jù)服務(wù)還是那個大數(shù)據(jù)服務(wù)嗎
2012年大數(shù)據(jù)是個流行詞,沒想到4年過后,在一些大數(shù)據(jù)論壇上還有人會說“如果我有大數(shù)據(jù),我會怎樣怎樣……?!焙冒?,如果還停留在如果上,就不該隨便上論壇演講,講不好說不準工作都沒了。現(xiàn)在大數(shù)據(jù)挖掘的技術(shù)都很成熟,更完善更系統(tǒng)的解決方案早已有人做得非常好。如果連數(shù)據(jù)都還沒有,那就什么都不用提了。畢竟,人工智能+大數(shù)據(jù)的生態(tài)模式已經(jīng)開啟。
7月初,據(jù)外媒福布斯報道百度將人工智能+大數(shù)據(jù)為中國政府采集數(shù)據(jù)提供支持。7月13日,李彥宏在百度的開放云戰(zhàn)略發(fā)布會上首度公開百度開放云“人工智能、大數(shù)據(jù)和云計算”三位一體的發(fā)展戰(zhàn)略。為什么谷歌和百度都在人工智能領(lǐng)域重金發(fā)力?2015年百度投入研發(fā)創(chuàng)新的資金占公司總營收的16%。谷歌就不用說了,在量子計算這樣離實現(xiàn)還遙不可及的技術(shù)上都已經(jīng)投入很多研發(fā)資金。因為互聯(lián)網(wǎng)未來向智能+發(fā)展的基礎(chǔ)是數(shù)據(jù)。有數(shù),有趨向完整的海量數(shù)據(jù)是現(xiàn)在所有巨頭在布局人工智能+大數(shù)據(jù)生態(tài)模式的重點。
數(shù)據(jù)獲取的最新模式:眾包
眾包是一種整合資源提升效率的方式,通過眾包可以在集合海量數(shù)據(jù)中,篩選符合一定標準的有效數(shù)據(jù),能夠降低數(shù)據(jù)收集的成本,提高機器學(xué)習訓(xùn)練的效率。有個生物學(xué)家叫戴維?休斯(David Hughes),他和作物流行病學(xué)家馬塞爾?薩拉斯(Marcel Salathé)將機器視覺技術(shù)和深度學(xué)習算法應(yīng)用于農(nóng)業(yè)病蟲害智能防治上。他們將關(guān)于植物葉子的5萬多張照片導(dǎo)入計算機,并運行相應(yīng)的深度學(xué)習算法,針對在明亮的光線條件及合乎標準的背景下拍攝出植物的照片,最終程序正確識別率高達99.35%。如果在互聯(lián)網(wǎng)上隨機選取的植物葉子照片,其識別準確率將降至30%-40%,這也是目前視覺識別技術(shù)在復(fù)雜環(huán)境下尚未突破的地方。為了突破算法的限制,提高準確率,休斯和薩拉斯開發(fā)手機應(yīng)用Plant VillaGE,讓世界各地的農(nóng)民通過Plant Village上傳患病作物照片,其中包含照片如何拍攝、拍攝地點、年份等大量數(shù)據(jù),并包含農(nóng)業(yè)專家對此做出相應(yīng)診斷的信息。這種方式出現(xiàn)之后,數(shù)據(jù)獲取的難度依舊聚焦在多維度數(shù)據(jù)資源的聚合,眾包可以解決從分散的個體獲取目標數(shù)據(jù)的問題,但對于基礎(chǔ)數(shù)據(jù)資源層的擴張和占領(lǐng)依然是一場沒有硝煙的砸錢戰(zhàn)斗。
數(shù)多了怎么辦:智能計算
有些人在努力獲取數(shù)據(jù),有些人在為數(shù)據(jù)多而未能充分利用而焦慮。
數(shù)據(jù)量級達到一定程度,再利用數(shù)據(jù)優(yōu)化服務(wù)需要人工智能算法。隨著企業(yè)數(shù)據(jù)量的積累,挖掘數(shù)據(jù)提高效率變成了必需。比如商業(yè)應(yīng)用中打車平臺的應(yīng)用,國內(nèi)平臺滴滴與快滴合并之后,業(yè)務(wù)線從出租車擴張到專車、順風車、公交等領(lǐng)域,數(shù)據(jù)范圍猛增,數(shù)據(jù)量包含司機行為數(shù)據(jù)、顧客行為數(shù)據(jù)及各種路線數(shù)據(jù)、實時交通情況數(shù)據(jù),定位數(shù)據(jù)等,據(jù)滴滴官方公布,滴滴出行每天處理的數(shù)據(jù)量達到70TB,由于訂單處理響應(yīng)時間的要求,單純處理數(shù)據(jù)的效率已無法滿足實時服務(wù)的需求,必須借助人工智能算法才能夠進一步提升服務(wù)效果。從用戶體驗角度,也需要實現(xiàn)提升定位精準度,提高接單率,縮短應(yīng)答時間。目前滴滴內(nèi)部基于海量數(shù)據(jù)+機器學(xué)習算法的推薦匹配系統(tǒng),針對海量司機的交班時間、地點、接單/拒單情況等海量數(shù)據(jù)進行司機畫像,以此為基礎(chǔ),針對實時的訂單數(shù)據(jù),分配訂單時實時按需分配,滿足服務(wù)需求。從數(shù)據(jù)應(yīng)用展現(xiàn)更宏觀價值的角度來看,基于滴滴已有數(shù)據(jù),可整合實時交通情況數(shù)據(jù),包括擁堵路段、集中路線、集中商圈等多維度動態(tài)數(shù)據(jù),進行結(jié)構(gòu)化處理,達到整合一個城市的車輛分布,實現(xiàn)統(tǒng)籌平衡調(diào)度的目的。
大數(shù)據(jù)服務(wù)的現(xiàn)在及未來:智能+生態(tài)模式
未來人工智能+大數(shù)據(jù)生態(tài)模式將更多的應(yīng)用于在商業(yè)場景下。HCR慧辰TMT研究部認為,大數(shù)據(jù)服務(wù)未來將有以下四種模式:
一是形成數(shù)據(jù)資源和計算資源提供平臺。當前企業(yè)數(shù)據(jù)大多僅留存于企業(yè)內(nèi)部,在開發(fā)應(yīng)用上一般也只有內(nèi)部應(yīng)用,企業(yè)之間數(shù)據(jù)各自孤立,獨立計算,行業(yè)內(nèi)尚未形成整合大數(shù)據(jù),目前第三方數(shù)據(jù)采集、監(jiān)測機構(gòu)已經(jīng)開始致力于多維數(shù)據(jù)的采集服務(wù),包括外部數(shù)據(jù)的直接采集和企業(yè)內(nèi)部數(shù)據(jù)的間接采集,已有第三方在提供基礎(chǔ)數(shù)據(jù)庫資源。未來伴隨數(shù)據(jù)維度的豐富和數(shù)據(jù)量的擴大,第三方機構(gòu)將采集并使用智能算法結(jié)構(gòu)化處理形成相對完整的數(shù)據(jù)資源提供平臺,并針對些海量數(shù)據(jù)的存儲、整合及計算提供基于云端的平臺式服務(wù)。
二是出現(xiàn)技術(shù)服務(wù)平臺,包含提供Paas服務(wù)的開源平臺及計算能力、大數(shù)據(jù)解決方案及技術(shù)服務(wù)支持。從目前人工智能和大數(shù)據(jù)企業(yè)發(fā)展來看,只有巨頭和少數(shù)創(chuàng)業(yè)企業(yè)掌握核心算法及存儲真正大數(shù)據(jù),更多企業(yè)通過合作或建立產(chǎn)業(yè)聯(lián)盟的方式獲取行業(yè)或其他領(lǐng)域的數(shù)據(jù)。但對于數(shù)據(jù)的存儲、處理和應(yīng)用需要技術(shù)支撐且突破這些技術(shù)需要消耗大量人力物力財力,沒必要所有企業(yè)都去做這件事。PaaS服務(wù)將數(shù)據(jù)處理能力作為模塊開放出來,使得數(shù)據(jù)挖掘技術(shù)的使用門檻和成本大幅降低,更多企業(yè)有能力利用云端數(shù)據(jù)服務(wù)創(chuàng)造附加價值。因此形成Paas服務(wù)平臺或解決方案技術(shù)服務(wù)平臺,據(jù)此可以聚合數(shù)據(jù)資源,優(yōu)化算法,提高準確率。另外也會形成基于數(shù)據(jù)存儲、處理及挖掘技術(shù)的整體服務(wù)解決方案提供商,企業(yè)可以將數(shù)據(jù)服務(wù)完全外包給第三方機構(gòu),第三方機構(gòu)也可以通過這種方式在云端整合資源并優(yōu)化技術(shù),提高準確率,同時產(chǎn)生推動行業(yè)發(fā)展的效果。
三是出現(xiàn)資訊服務(wù)平臺。大數(shù)據(jù)產(chǎn)業(yè)相對仍是新興產(chǎn)業(yè),發(fā)展日新月異。一方面企業(yè)需要尋找大數(shù)據(jù)資源或技術(shù)服務(wù)平臺,另外一方面第三方服務(wù)機構(gòu)需要推廣宣傳自身及行業(yè)發(fā)展、技術(shù)發(fā)展現(xiàn)狀。在這種背景下將出現(xiàn)起到橋梁作用的專業(yè)資訊服務(wù)平臺,連接企業(yè)和第三方服務(wù)機構(gòu),同時起到發(fā)布整個行業(yè)前沿信息的作用。
四是出現(xiàn)交叉/垂直化服務(wù)應(yīng)用?,F(xiàn)階段在教育、金融領(lǐng)域的垂直應(yīng)用以及在未來智能營銷、智能制造等交叉行業(yè)的應(yīng)用。如在教育行業(yè)已出現(xiàn)利用積累的教、考、學(xué)環(huán)節(jié)的大數(shù)據(jù)結(jié)合深度學(xué)習算法推出個性化學(xué)習平臺,如國外的Knewton、國內(nèi)的智學(xué)網(wǎng)都是這種模式。未來將延伸至農(nóng)業(yè)、制造業(yè)、交通、醫(yī)療等各行各業(yè),出現(xiàn)如智能農(nóng)業(yè)生產(chǎn)管理、智能交通、個性化精準醫(yī)療等創(chuàng)新服務(wù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11