數(shù)據(jù)開發(fā)可以理解為數(shù)據(jù)匯聚和數(shù)據(jù)資產(chǎn)的一個橋梁。何為數(shù)據(jù)資產(chǎn)?數(shù)據(jù)資產(chǎn)是有價值的數(shù)據(jù)。而數(shù)據(jù)匯聚是原始數(shù)據(jù),業(yè)務(wù)人員一般是難以使用的。原始數(shù)據(jù)-->有價值的數(shù)據(jù),是需要一個過程的。那么就是讓數(shù)據(jù)開發(fā)模塊來完成這個過程。
數(shù)據(jù)開發(fā)是一整套數(shù)據(jù)加工及管控的工具,包括離線開發(fā),智能調(diào)度,實(shí)時開發(fā),人工智能等。
舉個例子,某公司想知道廣告投放的效益,而原始數(shù)據(jù)包括埋點(diǎn)數(shù)據(jù),用戶注冊數(shù)據(jù),用戶消費(fèi)數(shù)據(jù)等,是不是需要整理一個sql,跑一個廣告效益報表呢?毫無疑問需要。那么我們就可以通過智能調(diào)度平臺,定時跑出業(yè)務(wù)需要的數(shù)據(jù);也可以通過實(shí)時流計算,實(shí)時展示業(yè)務(wù)需要的數(shù)據(jù)。這都是屬于數(shù)據(jù)開發(fā)模塊的功能。
離線計算:計算推薦使用Spark\Hive。調(diào)度平臺可以使用Azkaban、Oozie、EasySchedule。
實(shí)時計算:推薦使用Flink、SparkStructStreaming、SparkStreaming、Storm
人工智能:推薦使用TensorFlow、Spark ML
數(shù)據(jù)開發(fā)模塊適合對象是數(shù)據(jù)開發(fā)、算法建模人員,提供離線、實(shí)時、算法開發(fā)工具以及任務(wù)的管理、代碼發(fā)布、運(yùn)維、監(jiān)控、告警等一些列集成工具,方便使用,提升效率。他們可以依賴于數(shù)據(jù)開發(fā)模塊提供的基礎(chǔ)功能,快速把數(shù)據(jù)加工成對業(yè)務(wù)有價值的形式,提供給業(yè)務(wù)使用。








暫無數(shù)據(jù)