
作者 | Gregory Piatetsky
編譯 | 木槿、張大筆茹、楚陽(yáng)
科幻元年2020年馬上就要來(lái)了。對(duì)于技術(shù)行業(yè)來(lái)說(shuō),這一年會(huì)有哪些值得期待的變化?
KDnuggets采訪(fǎng)了14位科技前沿的技術(shù)公司創(chuàng)始人,并匯總了他們眼中的2020年:關(guān)于人工智能、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)行業(yè)中的一些最具創(chuàng)新性的公司的預(yù)測(cè)。
帶有模型的機(jī)器學(xué)習(xí)已經(jīng)到了一個(gè)轉(zhuǎn)折點(diǎn),各種規(guī)模和各個(gè)階段的公司都在努力訓(xùn)練他們的模型。朝著實(shí)施其模型培訓(xùn)工作的方向發(fā)展。盡管有幾種流行的模型訓(xùn)練框架,但領(lǐng)先的技術(shù)尚未出現(xiàn)。
就像Apache Spark(專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎)被認(rèn)為是數(shù)據(jù)轉(zhuǎn)換工作的領(lǐng)導(dǎo)者和Presto(Facebook開(kāi)發(fā)的數(shù)據(jù)查詢(xún)引擎)逐漸成為交互式查詢(xún)的領(lǐng)先技術(shù)一樣,PyTroch和Tensorflow同樣會(huì)作為2020年的競(jìng)爭(zhēng)者來(lái)主導(dǎo)機(jī)器學(xué)習(xí)廣泛的模型訓(xùn)練領(lǐng)域。2020年可能是我們看到領(lǐng)先者的一年,它打敗PyTorch和Tensorflow作為,并將在更廣泛的模型培訓(xùn)空間中占據(jù)主導(dǎo)地位。
K8s法分析堆棧
盡管容器和K8s在無(wú)狀態(tài)應(yīng)用程序(例如Web服務(wù)器和自包含數(shù)據(jù)庫(kù))上表現(xiàn)出色,但在高級(jí)分析和AI方面,我們還沒(méi)有看到大量的容器使用。
在2020年,我們將看到在Kubernetes(簡(jiǎn)稱(chēng)K8s,提供了應(yīng)用部署,規(guī)劃,更新,維護(hù)的一種機(jī)制)領(lǐng)域承擔(dān)AI和分析工作負(fù)載將變得更加主流。K8s法分析堆棧將意味著通過(guò)將數(shù)據(jù)從遠(yuǎn)程數(shù)據(jù)孤島移到K8s集群中來(lái)解決數(shù)據(jù)共享和彈性問(wèn)題,以實(shí)現(xiàn)更嚴(yán)格的數(shù)據(jù)局部性。
AI和分析團(tuán)隊(duì)將合并作為一個(gè)新數(shù)據(jù)組織的基礎(chǔ)
昨天的Hadoop平臺(tái)團(tuán)隊(duì)是今天的AI和分析團(tuán)隊(duì)。隨著時(shí)間的流逝,出現(xiàn)了許多獲取數(shù)據(jù)見(jiàn)解的方法。人工智能是結(jié)構(gòu)化數(shù)據(jù)分析的第一步。過(guò)去的統(tǒng)計(jì)模型已經(jīng)與計(jì)算機(jī)科學(xué)融合為人工智能和機(jī)器學(xué)習(xí)。
因此數(shù)據(jù)、分析和AI團(tuán)隊(duì)需要合作,從他們共有的數(shù)據(jù)中獲取價(jià)值。這將通過(guò)構(gòu)建正確的數(shù)據(jù)堆棧來(lái)完成,在本地或云端或同時(shí)部署存儲(chǔ)孤島和計(jì)算將成為規(guī)范。2020年我們將看到更多組織圍繞此數(shù)據(jù)堆棧建立專(zhuān)門(mén)的團(tuán)隊(duì)。
2020年將是數(shù)據(jù)最終實(shí)現(xiàn)民主化的一年。在經(jīng)歷了過(guò)去幾年的醞釀之后,數(shù)據(jù)分析從數(shù)據(jù)科學(xué)團(tuán)隊(duì)轉(zhuǎn)向各行各業(yè)并趨于飽和整個(gè)業(yè)務(wù)的全面飽和,這一趨勢(shì)最終將會(huì)陷入僵局。這種自適應(yīng)的數(shù)據(jù)項(xiàng)自助服務(wù)革命將改變各個(gè)行業(yè)組織與數(shù)據(jù)交互的方式,彌合具有業(yè)務(wù)知識(shí)的人與具有數(shù)據(jù)知識(shí)的人之間的鴻溝。
借助易于使用的API和大量數(shù)據(jù)源的結(jié)合,自主助服務(wù)分析將應(yīng)用于成為數(shù)字轉(zhuǎn)換最重要的階段之一,數(shù)據(jù)集成。典型的數(shù)據(jù)工作者開(kāi)始從IT領(lǐng)域轉(zhuǎn)移到業(yè)務(wù)領(lǐng)域,從而導(dǎo)致大量的工作者執(zhí)行數(shù)據(jù)任務(wù)。結(jié)果將是處理更多的數(shù)據(jù),進(jìn)行更多的分析,最終對(duì)業(yè)務(wù)產(chǎn)生更大、更積極的影響。
NLP的進(jìn)步使聊天機(jī)器人得以廣泛采用,并為用戶(hù)提供在線(xiàn)問(wèn)答等服務(wù)
今年和去年,我們已經(jīng)看到了NLP(自然語(yǔ)言處理)的一些突破。例如,BERT擴(kuò)展了NLP模型現(xiàn)在可以實(shí)現(xiàn)的功能。我們將在2020年看到越來(lái)越多的AI應(yīng)用程序,如服務(wù)聊天機(jī)器人、在線(xiàn)問(wèn)答、情感分析等。
機(jī)器學(xué)習(xí)工具和AIOps在企業(yè)中獲得了更大的吸引力
在過(guò)去的幾年中,我們目睹了整個(gè)機(jī)器學(xué)習(xí)和AI工具生態(tài)系統(tǒng)的成熟。圍繞整個(gè)技術(shù)堆棧的工具,比如數(shù)據(jù)注釋、模型訓(xùn)練、調(diào)試、模型服務(wù)、部署和生產(chǎn)監(jiān)控。這些工具明年將會(huì)大量增加。
為了幫助管理所有這些工具,更多的公司將在2020年轉(zhuǎn)向AIOps(基于人工智能的智能運(yùn)維)的實(shí)踐。大型公司的平臺(tái)(例如AWS,GCP和Microsoft Azure)已經(jīng)具有支持AIOps的良好工具,但是許多財(cái)富500強(qiáng)公司仍對(duì)部署到這些平臺(tái)所在的云中持謹(jǐn)慎態(tài)度。
安全和道德最佳實(shí)踐推動(dòng)了更多本地AI部署
隨著越來(lái)越多的組織針對(duì)其AI計(jì)劃試驗(yàn)更多數(shù)據(jù),對(duì)AI的安全性和符合道德規(guī)范地使用將變得越來(lái)越重要。在這個(gè)領(lǐng)域中,最主要的擔(dān)憂(yōu)是數(shù)據(jù)泄漏,尤其是個(gè)人身份信息(PII),新產(chǎn)品構(gòu)想和專(zhuān)有信息。這些擔(dān)憂(yōu)將導(dǎo)致出現(xiàn)更多用于保護(hù)AI創(chuàng)造建的本地解決方案,包括數(shù)據(jù)注釋和實(shí)現(xiàn)利用多元化人群的數(shù)據(jù)保護(hù)安全措施的解決方案。
確保安全的數(shù)據(jù)實(shí)踐只是越來(lái)越符合道德規(guī)范的AI使用方法的一部分。這種方法還將包括關(guān)心人群的健康,并更仔細(xì)地考慮AI應(yīng)用程序?qū)⑷绾斡绊懯褂盟鼈兊娜?,或者說(shuō),AI將如何讓提升人們的生活質(zhì)量旨在改善人們生活的方式。
2019年企業(yè)領(lǐng)導(dǎo)者認(rèn)識(shí)到僅使用最強(qiáng)大的分析平臺(tái)來(lái)創(chuàng)建報(bào)告是不夠的。2020年將從人員,流程和技術(shù)的角度來(lái)實(shí)現(xiàn)更深入的成熟度分析。企業(yè)將開(kāi)始發(fā)掘創(chuàng)新如何進(jìn)行數(shù)據(jù)發(fā)現(xiàn)和實(shí)現(xiàn)商業(yè)智能(BI),并開(kāi)始使用數(shù)據(jù)蜘蛛,機(jī)器人,人工智能和NLP來(lái)查詢(xún)數(shù)據(jù)并更快地獲得見(jiàn)解。我們即將迎來(lái)一場(chǎng)數(shù)據(jù)革命,它將徹底改變當(dāng)前的格局,并把推動(dòng)現(xiàn)代數(shù)據(jù)工程的發(fā)展推向其高潮。
物聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值的實(shí)現(xiàn)-大規(guī)模分析物聯(lián)網(wǎng)數(shù)據(jù)所產(chǎn)生的決策將帶來(lái)巨大的商機(jī),有助于降低成本,減少停機(jī)時(shí)間,并在問(wèn)題發(fā)生之前采取措施預(yù)防問(wèn)題。
容器可觀察性-在過(guò)去的幾年中,許多人深入研究Kubernetes,學(xué)習(xí)并進(jìn)行概念驗(yàn)證。到2020年,我們將看到大量此類(lèi)部署上線(xiàn),并與企業(yè)內(nèi)部的DevOps(數(shù)據(jù)化運(yùn)維)功能緊密結(jié)合,需要注意的是容器環(huán)境會(huì)發(fā)出大量指標(biāo),許多傳統(tǒng)監(jiān)控產(chǎn)品將因無(wú)法滿(mǎn)足處理高基數(shù)的要求而無(wú)法使用。
物聯(lián)網(wǎng)的增長(zhǎng)需要一種創(chuàng)新性的存儲(chǔ)解決方案,Gartner預(yù)測(cè)到2020年將有大約200億個(gè)物聯(lián)網(wǎng)設(shè)備。隨著物聯(lián)網(wǎng)網(wǎng)絡(luò)的膨脹和技術(shù)上的突飛猛進(jìn)變得越來(lái)越先進(jìn),管理它們的資源和工具也必須做到這一點(diǎn)。公司將需要采用可擴(kuò)展的存儲(chǔ)解決方案來(lái)適應(yīng)數(shù)據(jù)的爆炸式增長(zhǎng),這個(gè)解決方案的存儲(chǔ)容納、處理數(shù)據(jù)以及提供洞見(jiàn)的能力都要遠(yuǎn)超現(xiàn)在的技術(shù)。
監(jiān)視基礎(chǔ)結(jié)構(gòu)的復(fù)雜性增加-在諸如藍(lán)綠色部署(是一種可以保證系統(tǒng)在不間斷提供服務(wù)的情況下上線(xiàn)的部署方式)之類(lèi)的DevOps技術(shù)實(shí)踐的推動(dòng)下,我們將看指標(biāo)量將大幅度增加。
當(dāng)你想利用這些技術(shù)并將其與快速CI(Continuous Integration,持續(xù)集成)/ CD(Continuous Deployment持續(xù)部署)結(jié)合使用您采用這些實(shí)踐并將其與快速CI/CD結(jié)合使用時(shí),你會(huì)發(fā)現(xiàn)已經(jīng)有好幾種組合版本供你挑選了。您會(huì)看到一些敏捷組織今天發(fā)布了十幾種版本。然而,我們?nèi)孕枰獙?duì)這些技術(shù)工具進(jìn)行重大改進(jìn)以適應(yīng)現(xiàn)代化進(jìn)程更改以幫助支持這些用例。
在2019年,AutoML受到了越來(lái)越多的關(guān)注,因?yàn)楦鱾€(gè)機(jī)構(gòu)組織已經(jīng)意識(shí)到自動(dòng)化機(jī)器自動(dòng)學(xué)習(xí)(AutoML)盡可能多的數(shù)據(jù)科學(xué)的潛力能力和需求。但是傳統(tǒng)的AutoML還受到高度人工化手動(dòng)和巨大時(shí)間消耗的成功設(shè)計(jì)AutoML所需功能的過(guò)程所花費(fèi)的大量時(shí)間的限制和阻礙。
2019年也是AutoML 2.0興起的一年,也它是AutoML的新起點(diǎn):體驗(yàn)的新迭代,它使用AI來(lái)利用關(guān)系數(shù)據(jù)集中的原始業(yè)務(wù)數(shù)據(jù)來(lái)自動(dòng)創(chuàng)建特征并進(jìn)行測(cè)試,評(píng)估和評(píng)分功能,然后自動(dòng)和傳統(tǒng)的機(jī)器學(xué)習(xí)算法做一比較。然后根據(jù)機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行評(píng)估。
隨著越來(lái)越多的組織機(jī)構(gòu)供應(yīng)商加入AutoML 2.0培訓(xùn),我們預(yù)計(jì)到2020年數(shù)據(jù)科學(xué)全周期自動(dòng)化的趨勢(shì)將加速。2020年的另一個(gè)大趨勢(shì)將是ML管道的運(yùn)營(yíng)和產(chǎn)品化,在已經(jīng)進(jìn)行的早期MLOps試驗(yàn)中,盡可能多地實(shí)現(xiàn)自動(dòng)化變得越來(lái)越重要。
使用數(shù)據(jù)的能力將加速整個(gè)經(jīng)濟(jì)領(lǐng)域的洗牌,比過(guò)去更快地分出勝負(fù)
新挑戰(zhàn)者的崛起速度將比未來(lái)十年更快,而現(xiàn)任領(lǐng)導(dǎo)人的崛起速度也將與之前一樣。BCG(波士頓咨詢(xún)公司,是世界領(lǐng)先的商業(yè)戰(zhàn)略咨詢(xún)機(jī)構(gòu))的研究表明,如今,對(duì)于大型公司而言,過(guò)去、未來(lái)的財(cái)務(wù)狀況和多年的競(jìng)爭(zhēng)績(jī)效之間的關(guān)聯(lián)現(xiàn)在越來(lái)越少。
目前,所有行業(yè)的數(shù)據(jù)科學(xué)家都將80%的時(shí)間花費(fèi)在低價(jià)值活動(dòng)上,例如提取數(shù)據(jù),增量更新數(shù)據(jù),組織和管理數(shù)據(jù),優(yōu)化管道以及將數(shù)據(jù)交付給應(yīng)用程序。數(shù)據(jù)科學(xué)家僅將20%的時(shí)間用于開(kāi)發(fā)應(yīng)用程序,以實(shí)現(xiàn)業(yè)務(wù)的進(jìn)一步增長(zhǎng)和增加競(jìng)爭(zhēng)優(yōu)勢(shì)。那些通過(guò)新的,自動(dòng)化的數(shù)據(jù)操作和方法來(lái)使用數(shù)據(jù)功能的人將會(huì)蓬勃發(fā)展,因?yàn)樗麄儗⑵鋽?shù)據(jù)科學(xué)的天才人才應(yīng)用在創(chuàng)造業(yè)務(wù)價(jià)值上。
數(shù)字化轉(zhuǎn)型的影響將在整個(gè)經(jīng)濟(jì)領(lǐng)域體現(xiàn):預(yù)期的(技術(shù),金融服務(wù),零售/電子零售等)和意想不到的(農(nóng)業(yè),家居裝修,公共部門(mén)等)方面。
隨著下個(gè)十年隱私法的發(fā)展,消費(fèi)者對(duì)“個(gè)人”數(shù)據(jù)的更具控制力
GDPR和CCPA(加利福尼亞消費(fèi)者隱私法案)只是保護(hù)消費(fèi)者和消費(fèi)者的數(shù)據(jù)的冰山一角。在接下來(lái)的十年中,隨著政府和監(jiān)管機(jī)構(gòu)制定新的隱私法規(guī),消費(fèi)者對(duì)個(gè)人數(shù)據(jù)的控制有望大大提高。
隨著時(shí)間的流逝,這些監(jiān)管措施可能會(huì)使消費(fèi)者對(duì)個(gè)人數(shù)據(jù)有完全控制權(quán),并為消費(fèi)者提供直接將其數(shù)據(jù)貨幣化或交換商品和服務(wù)的機(jī)會(huì)。
清潔能源運(yùn)動(dòng)將在下一個(gè)十年創(chuàng)造大量的數(shù)據(jù)和新的分析方法
現(xiàn)在,美國(guó)增長(zhǎng)最快的行業(yè)是太陽(yáng)能和風(fēng)能,未來(lái)十年中,這些行業(yè)的就業(yè)增長(zhǎng)預(yù)計(jì)將是其他行業(yè)的兩倍。(來(lái)源:加州第十七國(guó)會(huì)區(qū)的美國(guó)代表Ro Khanna)這些行業(yè)的技術(shù)進(jìn)步使成本下降,并引發(fā)了清潔能源運(yùn)動(dòng),在過(guò)去九年中使全球可再生能源產(chǎn)能翻了兩番(來(lái)源:環(huán)境署)。
這比美國(guó)每個(gè)發(fā)電廠的總和還要多,它將創(chuàng)造大量的數(shù)據(jù)和新的分析方法,以期在未來(lái)十年最大化收益并優(yōu)化利用這些技術(shù)發(fā)展。管理和利用這海量的數(shù)據(jù)將需要用于操作和編排的復(fù)雜系統(tǒng),這些系統(tǒng)將超越過(guò)去的人工密集型方法,數(shù)據(jù)驅(qū)動(dòng)的流程和見(jiàn)解使數(shù)據(jù)科學(xué)家能夠?qū)W⒂谧罴押妥罡咚降闹腔鄣娜瞬攀褂?,推?dòng)行業(yè)的持續(xù)增長(zhǎng)。
如果2019年重點(diǎn)在機(jī)器,那么2020年將更關(guān)注于用戶(hù)。今年,數(shù)據(jù)分析中的AI和機(jī)器學(xué)習(xí)產(chǎn)生了比以往更快(更有價(jià)值)的結(jié)果。下一步是使該過(guò)程民主化:降低高技能工人的數(shù)據(jù)項(xiàng)目負(fù)擔(dān),賦予非技術(shù)用戶(hù)同樣的數(shù)據(jù)處理分析能力。
未來(lái),無(wú)需雇用其他分析師,無(wú)需培訓(xùn)查詢(xún)語(yǔ)言,用戶(hù)將能夠像使用Google一樣輕松地瀏覽數(shù)據(jù)。
數(shù)據(jù)科學(xué)的民主化
通過(guò)文本或語(yǔ)音進(jìn)行自然語(yǔ)言處理將有助于促進(jìn)“公民數(shù)據(jù)科學(xué)家”的發(fā)展。盡管一些BI工具已經(jīng)在其平臺(tái)中添加了NLP功能,但仍有一件事不確定:定價(jià)。
2020年,將開(kāi)始出現(xiàn)人們負(fù)擔(dān)得起的SaaS(Software as a Service,意思為軟件即服務(wù)),即通過(guò)網(wǎng)絡(luò)提供軟件服務(wù)BI工具,擁有售價(jià)價(jià)值數(shù)萬(wàn)美元的工具的功能。機(jī)器學(xué)習(xí)和自助服務(wù)的完美結(jié)合,將為各種規(guī)模的企業(yè)提供在數(shù)據(jù)中發(fā)現(xiàn)可行計(jì)劃的能力。
作為以經(jīng)營(yíng)文本為中心的AI/ML業(yè)務(wù)的人,2019年出現(xiàn)了兩種趨勢(shì):BERT和XLNet等模型逐漸的滲透到該領(lǐng)域,同時(shí),數(shù)據(jù)科學(xué)家的重心從自己動(dòng)手轉(zhuǎn)向更多地利用AI工具或平臺(tái)解決問(wèn)題。以及數(shù)據(jù)科學(xué)家從自己所編寫(xiě)的內(nèi)容開(kāi)始的樞紐—使用AI工具和平臺(tái)解決問(wèn)題。
這兩種趨勢(shì)兩者是相關(guān)連的:雖然BERT可以通過(guò)改變一小部分訓(xùn)練數(shù)據(jù)來(lái)提供出色的結(jié)果,但它卻改變了游戲規(guī)則,要精通它是很難的技術(shù)提升,因此,它成為包含所有內(nèi)置管道的平臺(tái)的關(guān)鍵。雖然BERT模型作為游戲規(guī)則的改變者可以?xún)H使用小部分訓(xùn)練數(shù)據(jù)就得到出色的結(jié)果,但是,它是如此的復(fù)雜以至于技術(shù)人員很難掌握,于是,對(duì)各種AI工具和平臺(tái)的熟悉就顯得很有先見(jiàn)之明。
2020年,人工智能將鞏固其作為下一個(gè)十年的決定性技術(shù)的地位。玩家將找到到“神奇”的角度,傳達(dá)正確的信息,即AI可以幫助人類(lèi)更快,更好地完成工作。此外,NLP也將成為RPA(Robotic Process Automation,機(jī)器人流程自動(dòng)化)的重要組成較大部分,因?yàn)楣?yīng)商在NLP中非常落后。隨著企業(yè)自動(dòng)化程度的提高公司自動(dòng)執(zhí)行更大的流程,NLP供應(yīng)商將提供本地+混合云服務(wù)來(lái)滿(mǎn)足用戶(hù)需求:易于集成的API,可定制性的,快速的ROI。
AI輕松貫穿整個(gè)工作場(chǎng)所
隨著與AI相關(guān)產(chǎn)業(yè)行業(yè)的進(jìn)一步發(fā)展,AI不僅將會(huì)在該技術(shù)將超越數(shù)據(jù)科學(xué)領(lǐng)域,而且會(huì)在并對(duì)醫(yī)療設(shè)備、汽車(chē)設(shè)計(jì)和工業(yè)場(chǎng)所安全等領(lǐng)域方面產(chǎn)生深遠(yuǎn)影響。
AI將涉足低功耗,低成本嵌入式設(shè)備
明年,我們將見(jiàn)證AI涉足在低功耗,低成本設(shè)備。人工智能通常使用浮點(diǎn)運(yùn)算數(shù)學(xué)來(lái)簡(jiǎn)化模型訓(xùn)練并提高結(jié)果的準(zhǔn)確性和簡(jiǎn)化模型訓(xùn)練,因此它和但它不能使用定點(diǎn)數(shù)學(xué)的低成本,低功耗的定點(diǎn)運(yùn)算設(shè)備不兼容。軟件工具的最新進(jìn)展現(xiàn)在支持具有不同級(jí)別的定點(diǎn)數(shù)學(xué)的AI推理模型。不過(guò),如今的軟件已經(jīng)支持AI模型進(jìn)行好幾種級(jí)別上的定點(diǎn)運(yùn)算了。
強(qiáng)化學(xué)習(xí)從游戲領(lǐng)域轉(zhuǎn)向現(xiàn)實(shí)工業(yè)應(yīng)用領(lǐng)域
2020年,強(qiáng)化學(xué)習(xí)(RL)將從游戲領(lǐng)域轉(zhuǎn)向支持現(xiàn)實(shí)世界的工業(yè)應(yīng)用,尤其是自動(dòng)駕駛技術(shù),控制設(shè)計(jì)和機(jī)器人技術(shù)??梢灶A(yù)見(jiàn)的是,強(qiáng)化學(xué)習(xí)將會(huì)在改善自動(dòng)駕駛系統(tǒng)領(lǐng)域取得巨大成功。將RL用作改進(jìn)大型系統(tǒng)的組件時(shí),例如在自動(dòng)駕駛系統(tǒng)中提高駕駛員性能將會(huì)成功。
仿真數(shù)據(jù)提升降低成功采用AI的難度-數(shù)據(jù)質(zhì)量
根據(jù)分析師的調(diào)查,數(shù)據(jù)質(zhì)量差是成功使用AI的最大障礙。正常的日常系統(tǒng)的一般運(yùn)行操作會(huì)生成大量可用數(shù)據(jù)。但是,從異常值或關(guān)鍵或故障臨界值條件中查找數(shù)據(jù)往往更有價(jià)值。訓(xùn)練準(zhǔn)確的AI模型需要大量此類(lèi)數(shù)據(jù),而仿真數(shù)據(jù)降低成功采用AI的難度此時(shí),仿真模型生成的數(shù)據(jù)不僅降低了數(shù)據(jù)收集的成本還在很大程度上提高了數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)庫(kù)領(lǐng)域,尤其是在云領(lǐng)域存在技能短缺問(wèn)題。越來(lái)越多的公司希望利用他們的數(shù)據(jù),但發(fā)現(xiàn)很難以他們想要的速度成功地運(yùn)營(yíng)。選擇數(shù)據(jù)庫(kù)與應(yīng)用程序一起運(yùn)行的開(kāi)發(fā)人員只希望它們能夠工作而無(wú)需承擔(dān)管理職責(zé)。因此,必須成為DBA才能實(shí)現(xiàn)這一目標(biāo)。
在管理和維護(hù)數(shù)據(jù)庫(kù)系統(tǒng)尤其是云端數(shù)據(jù)庫(kù)系統(tǒng)的過(guò)程中存在技術(shù)短板。更多的企業(yè)想從數(shù)據(jù)中發(fā)掘有用信息,然而往往并不如愿。這些企業(yè)把數(shù)據(jù)迫切地收集來(lái)想要得以致用而缺少專(zhuān)業(yè)的數(shù)據(jù)庫(kù)管理員來(lái)合理地管理這些數(shù)據(jù)。
過(guò)去,數(shù)據(jù)庫(kù)供應(yīng)商已通過(guò)啟動(dòng)更多托管服務(wù)來(lái)解決問(wèn)題,但是,這會(huì)將問(wèn)題轉(zhuǎn)移到其他地方。盡管企業(yè)已經(jīng)通過(guò)委托一些管理機(jī)構(gòu)來(lái)解決此問(wèn)題,但是,這本身也會(huì)產(chǎn)生一些問(wèn)題。
今年,公司開(kāi)始討論如何自動(dòng)化數(shù)據(jù)庫(kù)管理并使其具有自主性和自我修復(fù)能力。這是今年甲骨文大會(huì)Oracle客戶(hù)會(huì)議上的一個(gè)重要議主題,而我們已經(jīng)在Percona數(shù)據(jù)庫(kù)上做了一些嘗試已經(jīng)啟動(dòng)了自己的計(jì)劃,以使云中的數(shù)據(jù)庫(kù)更加“自治”。企圖使云端數(shù)據(jù)庫(kù)的管理更加自動(dòng)化。
明年,更加智能的數(shù)據(jù)庫(kù)管理服務(wù)將變得可行并更上發(fā)展速度。然而,我們更應(yīng)該關(guān)注這種自動(dòng)化服務(wù)程序的設(shè)計(jì)和普適性能,因?yàn)榧词乖賰?yōu)秀的程序也無(wú)法面面俱到。
眼下是數(shù)據(jù)科學(xué)的黃金時(shí)代,通過(guò)與客戶(hù)的交流,我們預(yù)見(jiàn)了2020年的四大轉(zhuǎn)變趨勢(shì):新的數(shù)據(jù)堆棧分析將崛起、對(duì)數(shù)據(jù)的深入診斷將代替淺顯的數(shù)據(jù)挖掘、會(huì)出現(xiàn)更實(shí)用層面的數(shù)據(jù)需求以及新的崗位角色——運(yùn)營(yíng)分析師。
更新更靈活的分析堆棧的興起
從對(duì)Redshift,Snowflake和BigQuery之類(lèi)的云數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行投資開(kāi)始,公司還將采用現(xiàn)代化的數(shù)據(jù)管道和ETL工具(如Fivetran和Stitch)將更多數(shù)據(jù)集中到這些結(jié)構(gòu)化存儲(chǔ)解決方案中。下一步呢?重建其診斷工具,以應(yīng)對(duì)大量數(shù)據(jù)的涌入。Redshift, Snowflake, and BigQuery等平臺(tái)的出現(xiàn)表明企業(yè)已經(jīng)開(kāi)始向云數(shù)據(jù)庫(kù)投資了,接下來(lái)企業(yè)將接納更多的現(xiàn)代化數(shù)據(jù)管道以及類(lèi)似于Fivetran和Stitch的ETL(Extract-Transform-Load,即將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換、加載至目的端的過(guò)程)工具將更多的數(shù)據(jù)匯集到這些結(jié)構(gòu)化的存儲(chǔ)方案中。因此,下一步,企業(yè)將要重建診斷軟件來(lái)處理大量涌入的數(shù)據(jù)。
企業(yè)一般需要實(shí)時(shí)的處理同時(shí)來(lái)自數(shù)個(gè)數(shù)據(jù)源的數(shù)據(jù),數(shù)量之大可想而知,IT和數(shù)據(jù)團(tuán)隊(duì)可以從以下幾個(gè)層面來(lái)優(yōu)化分析構(gòu)架:
2020年以后,數(shù)據(jù)治理將重歸前沿回到最前沿。隨著分析和診斷平臺(tái)的擴(kuò)展,從數(shù)據(jù)中獲取的信息將在企業(yè)中更廣泛無(wú)縫地共享,數(shù)據(jù)管治理工具會(huì)將有助于確保數(shù)據(jù)的機(jī)密性,使用合理性正確使用和完整性。2020年,公司使用和感知分析方式將會(huì)轉(zhuǎn)變。
診斷工具
隨著結(jié)合這種基礎(chǔ)結(jié)構(gòu)的變化,董事會(huì)會(huì)開(kāi)始關(guān)注指標(biāo)為何更改以及這些更改對(duì)于日常業(yè)務(wù)運(yùn)營(yíng)意味著什么。有效使用數(shù)據(jù)來(lái)構(gòu)建(和交叉)壁壘將是成功的公司的競(jìng)爭(zhēng)性資產(chǎn)。在有效利用數(shù)據(jù)方面,企業(yè)之間已形成競(jìng)爭(zhēng)局面,數(shù)據(jù)已經(jīng)成為企業(yè)的競(jìng)爭(zhēng)性資產(chǎn)而非被動(dòng)資產(chǎn)。
運(yùn)營(yíng)分析師的崛起
數(shù)據(jù)分析的未來(lái)是運(yùn)營(yíng)分析師的崛起。數(shù)據(jù)不再只屬于數(shù)據(jù)科學(xué)家。企業(yè)員工開(kāi)始像數(shù)據(jù)分析師一樣工作,針對(duì)特定業(yè)務(wù)的新技術(shù)能和工具即將出現(xiàn)。分析趨勢(shì),變化并使用數(shù)據(jù)做出有影響力的決策將成為對(duì)新的員工要求和期望,而不再局限于業(yè)務(wù)分析師或市場(chǎng)營(yíng)銷(xiāo)分析團(tuán)隊(duì)。
隨著企業(yè)2020年以后開(kāi)始大規(guī)模擴(kuò)張以及野心的增長(zhǎng),DataOps將被視為克服與分析現(xiàn)代數(shù)據(jù)變化的速度,分散性和趨勢(shì)軌跡的有力工具。在Gartner上,“DataOps”的搜索量在2019年翻了三倍。此外,已經(jīng)可以通過(guò)StreamSets(強(qiáng)大的數(shù)據(jù)清洗平臺(tái)),我們發(fā)現(xiàn)了有大量用戶(hù)已經(jīng)接受了DataOps。
一些企業(yè)公司正在通過(guò)DataOps進(jìn)入這一領(lǐng)域,還有一部分企業(yè)他們通過(guò)收購(gòu)小規(guī)模公司來(lái),建立以數(shù)據(jù)管理為核心的業(yè)務(wù)。許多DataOps職位開(kāi)始出現(xiàn),人們?cè)趯?shí)踐中加深了對(duì)“DataOps”這個(gè)專(zhuān)業(yè)術(shù)語(yǔ)的理解,并使之成為了數(shù)據(jù)驅(qū)動(dòng)組織的代名詞。所有這些依靠對(duì)“DataOps”的新理解和對(duì)術(shù)語(yǔ)的認(rèn)識(shí),以此來(lái)成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)。
2020年,越來(lái)越多的可以解決公司核心業(yè)務(wù)問(wèn)題并從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的技術(shù)將會(huì)應(yīng)運(yùn)而生,且無(wú)需對(duì)Apache Spark做技術(shù)深入了解。企業(yè)將無(wú)需具備專(zhuān)業(yè)技能便能利用Apache Spark之類(lèi)的工具。這將使其實(shí)現(xiàn)對(duì)數(shù)據(jù)的連續(xù)讀取和監(jiān)測(cè),并分析每個(gè)商業(yè)決定和應(yīng)用對(duì)業(yè)務(wù)帶來(lái)的影響。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03