
大數(shù)據(jù)分析并不雞肋
在計(jì)算機(jī)誕生的70年后,單臺(tái)計(jì)算機(jī)的計(jì)算性能逼近物理極限,伴隨計(jì)算機(jī)發(fā)展的摩爾定律逐漸失效。在這70年的發(fā)展過(guò)程中,剛開(kāi)始是可以用摩爾定律進(jìn)行準(zhǔn)確的描述的,1965年,英特爾創(chuàng)始人之一戈登摩爾在考察計(jì)算機(jī)硬件的發(fā)展規(guī)律后,提出了著名的摩爾定律:
該定律認(rèn)為,同一面積芯片上可容納晶體管的數(shù)量,每隔16-24個(gè)月將翻一倍,計(jì)算性能也將翻一倍。換而言之,也就是每隔16-24個(gè)月,單位價(jià)格可購(gòu)買(mǎi)到的計(jì)算能力將翻一倍。在隨后的幾十年內(nèi),摩爾定律被無(wú)數(shù)次的被印證。而直到現(xiàn)在,計(jì)算機(jī)性能已經(jīng)逼近極限的情況下,摩爾定律似乎已經(jīng)失效了。
發(fā)展的期間伴隨著摩爾定律不斷的生效,在計(jì)算機(jī)方面同步發(fā)展的還有網(wǎng)絡(luò)寬帶和物理的存儲(chǔ)容量,半個(gè)多世紀(jì)以來(lái),存儲(chǔ)器的價(jià)格幾乎下降到原來(lái)價(jià)格的億分之一。
而網(wǎng)絡(luò)寬帶的的速度也在不斷的突破極限。
隨著這些物理硬件的升級(jí),計(jì)算機(jī)領(lǐng)域內(nèi)便產(chǎn)生了OTT式的技術(shù)革新,誕生了分布式計(jì)算和量子計(jì)算機(jī)技術(shù),而這兩者的出現(xiàn),也必將決定性的改變計(jì)算機(jī)資源供給端的情況。
分布式計(jì)算機(jī)技術(shù),已經(jīng)逐漸成為大數(shù)據(jù)領(lǐng)域底層IT架構(gòu)的行業(yè)標(biāo)準(zhǔn),分布式計(jì)算可以實(shí)現(xiàn)一個(gè)計(jì)算目標(biāo)可以調(diào)配無(wú)限計(jì)算資源并予以支持,解決了大數(shù)據(jù)情境中運(yùn)算量過(guò)大、超出單臺(tái)物理機(jī)運(yùn)算承受能力極限的問(wèn)題,并且同物理計(jì)算資源協(xié)同調(diào)配,為后續(xù)的云計(jì)算奠定了基礎(chǔ)??陀^ 的講,分布式計(jì)算機(jī)技術(shù)使計(jì)算資源趨于無(wú)限。
而量子計(jì)算機(jī)技術(shù)將使單體計(jì)算能力擁有質(zhì)的飛躍。但是在量子計(jì)算機(jī)核心技術(shù)尚未突破之時(shí),人類面對(duì)呈現(xiàn)爆發(fā)式增長(zhǎng)的數(shù)據(jù)束手無(wú)策….
在經(jīng)過(guò)這漫長(zhǎng)的探索后,人類現(xiàn)在決定先借助分布式計(jì)算技術(shù)實(shí)現(xiàn)新的一輪OTT式技術(shù)革新,而此舉將不僅解決了海量數(shù)據(jù)存儲(chǔ)與計(jì)算問(wèn)題,還有希望幫助人類徹底擺脫計(jì)算資源瓶頸的束縛。計(jì)算資源無(wú)限,世界將會(huì)怎樣….
但是從大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀來(lái)看,真正的難點(diǎn)還是在于底層工具的掌握,由于發(fā)展尚處于初級(jí)階段,還需要人們掌握大量的底層工具,這條道路因?yàn)樽叩萌松偎圆艜?huì)顯得泥濘不堪,只有將基礎(chǔ)工具發(fā)展和掌握成熟之后,才可以降低使用者的門(mén)檻。
對(duì)于我們而言,這條路難么?真的很難!但是是值得我們客服這條路上的困難的,因?yàn)槭找鏁?huì)非常的劃算,這條路的難處在于要掌握很多底層工具,為什么?因?yàn)樽哌@條路的人少,現(xiàn)在還是一條泥巴路,很難走,但是為什么是值得我們克服困難也要走下去呢,是因?yàn)橹灰孔佑?jì)算機(jī)不出現(xiàn)、隨著摩爾定律的失效、數(shù)據(jù)量還在增加,大量過(guò)路的需求會(huì)催生一條又一條高速公路,然后鋪路的大公司設(shè)卡收稅,泥巴路遲早會(huì)變成高速公路,但只要你先過(guò)去,就能看到別人看不到的風(fēng)景。
從計(jì)算機(jī)由DOS系統(tǒng)到桌面系統(tǒng),Python機(jī)器學(xué)習(xí)由源碼到算法庫(kù),不一直都是這樣么。
數(shù)據(jù)革命的本質(zhì)
大數(shù)據(jù)分析技術(shù)有價(jià)值、數(shù)據(jù)分析技術(shù)更有價(jià)值,那整個(gè)數(shù)據(jù)科學(xué)知識(shí)內(nèi)容體系中,最有價(jià)值的到底是什么?
如果從發(fā)現(xiàn)技術(shù)的角度看待問(wèn)題確實(shí)很有意思,那我們不妨再來(lái)探討一個(gè)問(wèn)題,那就是從技術(shù)層面而言(非工作是否好找的角度),數(shù)據(jù)科學(xué)中最有價(jià)值的技術(shù)模塊是哪個(gè)?
人工智能是數(shù)據(jù)養(yǎng)育的智能,其決策的核心是算法,人工智能的發(fā)展與十八世紀(jì)工業(yè)革命通過(guò)機(jī)器生產(chǎn)代替手工勞動(dòng)從而釋放人類的勞動(dòng)力類似,數(shù)據(jù)智能將通過(guò)參與、代替人類決策的方式,釋放人類腦力。而機(jī)器學(xué)習(xí)就是提供人工智能決策的算法核心。
機(jī)器學(xué)習(xí)算法的核心用途是挖掘事物運(yùn)行內(nèi)在邏輯和規(guī)律,就是把數(shù)據(jù)作為接受外部信息形式,用數(shù)據(jù)還原外部事物的基本屬性和運(yùn)行狀態(tài),用機(jī)器學(xué)習(xí)算法對(duì)其規(guī)律進(jìn)行挖掘,還原客觀規(guī)律。再應(yīng)用規(guī)律輔助決策。
機(jī)器學(xué)習(xí)可以使得人工智能在人類基礎(chǔ)重復(fù)決策領(lǐng)域代替人類參與決策。
算法的核心方法論,是取法其上,僅得為中,數(shù)據(jù)分析核心價(jià)值要有技術(shù)核心價(jià)值這桿大旗;不管小數(shù)據(jù)還是大數(shù)據(jù),都是重分析。而伴隨著Python的星期,催生出了進(jìn)一步完善的基礎(chǔ)設(shè)施,Python依然成為了標(biāo)準(zhǔn)的工具。
而Python最核心的技能就可以說(shuō)是利用眾多強(qiáng)大的算法庫(kù)進(jìn)行算法建模分析
數(shù)據(jù)、算法、計(jì)算能力這三架馬車(chē)所推動(dòng)的人工智能技術(shù)發(fā)展,是否已經(jīng)遇到了瓶頸
2018年1月我國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)頒布的《人工智能標(biāo)準(zhǔn)化白皮書(shū)》對(duì)人工智能學(xué)科的基本思想和內(nèi)容作出了解釋。認(rèn)為人工智能應(yīng)該是圍繞智能活動(dòng)而構(gòu)造的人工系統(tǒng),是一項(xiàng)知識(shí)的工程,是機(jī)器模仿人類利用知識(shí)完成一定行為的過(guò)程。
相對(duì)來(lái)說(shuō)我國(guó)的人工智能的起步還是較晚,人工智能的發(fā)展階段可以分為三個(gè)階段,第一階段是從20世紀(jì)50年代—80年代,在這一階段人工智能剛誕生,但由于很多事物不能形式化表達(dá),建立的模型存在一定的局限性。第二階段是從20世紀(jì)80年代—90年代,專家系統(tǒng)得到快速發(fā)展,數(shù)學(xué)模型有重大突破,但由于專家系統(tǒng)在知識(shí)獲取等方面的不足,人工智能的發(fā)展又一次進(jìn)入低谷期。第三階段是從21世紀(jì)初—至今,隨著大數(shù)據(jù)的積聚、理論算法的革新、計(jì)算能力的提升,人工智能在很多應(yīng)用領(lǐng)域取得了突破性進(jìn)展, 迎來(lái)了又一個(gè)繁榮時(shí)期。
根據(jù)人工智能的發(fā)展定義,以及國(guó)家頒布的《人工智能白皮書(shū)》,人工智能可以分為兩種,強(qiáng)人工智能和弱人工智能。
弱人工智能是并不能真正實(shí)現(xiàn)推理和解決問(wèn)題的智能機(jī)器,這些機(jī)器表面看像是智能的,但是并不真正擁有智能,也不會(huì)有自主意識(shí)。但是這仍是目前的主流研究仍然集中于弱人工智能,并取得了顯著進(jìn)步,如語(yǔ)音識(shí)別、圖像處理和物體分割、機(jī)器翻譯等方面取得了重大突破,甚至可以接近或超越人類水平。
強(qiáng)人工智能是真正能思維的智能機(jī)器,并且認(rèn)為這樣的機(jī)器是有知覺(jué)的和 自我意識(shí)的,這類機(jī)器可分為類人與非類人兩大類。從一般意義來(lái)說(shuō),達(dá)到人類水平的、能夠自適應(yīng)地應(yīng)對(duì)外界環(huán)境挑戰(zhàn)的、 具有自我意識(shí)的人工智能稱為“通用人工智能”、“強(qiáng)人工智能”或“類人智能”
一般來(lái)說(shuō),在我們認(rèn)為強(qiáng)人工智能的時(shí)代已經(jīng)來(lái)臨,只是尚未流行起來(lái),但這時(shí)候,卻還有一些有意思的觀點(diǎn),他們持反對(duì)的聲音,認(rèn)為人工不智能或者說(shuō)是人工智障。
他們認(rèn)為當(dāng)我們?cè)陂_(kāi)車(chē)的時(shí)候,大腦在飛速的處理各種信息:交通信號(hào)、標(biāo)志物、路面的井蓋、積水;看到馬路中央有一只狗在過(guò)馬路時(shí),我們會(huì)踩剎車(chē);看到中央有一只鳥(niǎo),我們會(huì)判斷鳥(niǎo)會(huì)快速飛走,不用減速;如果是塑料袋,我們可以直接壓過(guò)去;如果是大石頭,我們就需要避讓。這些都是我們通過(guò)經(jīng)驗(yàn)的累積以及生活常識(shí)構(gòu)成的。但是,人工智能卻做不到這些。
目前人們所研究的人工智能是“狹義”人工智能?!罢嬲摹比斯ぶ悄苄枰軌蚶斫馐澄镏g的因果關(guān)系,比如警方在路上設(shè)置的錐標(biāo),哪怕是倒了,或是被壓扁了,也要能夠被識(shí)別出來(lái)。但目前的圖形識(shí)別能力,哪怕是把障礙物換個(gè)角度,計(jì)算機(jī)識(shí)別起來(lái)都會(huì)很困難。而“狹義”人工智能走的是機(jī)器學(xué)習(xí)路線,換句話說(shuō),計(jì)算機(jī)會(huì)把路上所有物體(包括夠、其他車(chē)輛、標(biāo)志物、行人、塑料袋、石頭等)都簡(jiǎn)單的看做是障礙物,同時(shí)計(jì)算和預(yù)測(cè)這些障礙物的移動(dòng)路線,判斷是否會(huì)和汽車(chē)的路線發(fā)生沖突,然后執(zhí)行相應(yīng)的動(dòng)作。
那么問(wèn)題來(lái)了……
當(dāng)計(jì)算機(jī)無(wú)法理解物體的時(shí)候,也就意味著不可能100%準(zhǔn)確預(yù)測(cè)物體的移動(dòng)軌跡。比如,馬路中央的狗。你很難預(yù)測(cè)它下一秒的位置,即使它目前正在向前狂奔。如果馬路中央是一個(gè)孩子呢?同時(shí),讓計(jì)算機(jī)識(shí)別路邊的交通指示牌也是一件十分困難的事情。當(dāng)指示牌有破損、遮擋物等等,都會(huì)影響計(jì)算機(jī)的識(shí)別。
所以,目前的人工智能都屬于“狹義”的人工智能,它的核心是基于大數(shù)據(jù)進(jìn)行的學(xué)習(xí)。但在瞬息萬(wàn)變的現(xiàn)實(shí)世界里,由于計(jì)算機(jī)無(wú)法真正理解事物的相互關(guān)系,因此并不能處理出現(xiàn)的意外情況。
我們可以將無(wú)人駕駛分為五個(gè)級(jí)別:
就目前來(lái)看,我們距離第五個(gè)級(jí)別的無(wú)人駕駛的距離還有非常遙遠(yuǎn)的一條道路要走,當(dāng)然這條道路的未來(lái),并沒(méi)有人會(huì)知道是什么樣子的。
在我看來(lái),隨著技術(shù)的發(fā)展,人工智能這條道路并非是走不下去的,只是這條道路比較困難,而且并不是說(shuō)在人工智能完全達(dá)到強(qiáng)人工智能的時(shí)候才能造福人類,目前人工智能已經(jīng)用于我們身邊的多個(gè)領(lǐng)域,并且在不斷的幫助我們,我們可以通過(guò)人工智能不斷的幫助我們完善人工智能,達(dá)成一個(gè)不斷的循環(huán),只是需要很多對(duì)數(shù)據(jù)科學(xué)領(lǐng)域感興趣的人,來(lái)不斷的完善它們。
希望你看完這篇文章能夠有所收獲,如果有一些想法,希望可以一起討論一下,謝謝。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10