
清華基于微博分析獲得的大數(shù)據(jù)幸福指數(shù)發(fā)現(xiàn)人們周六最幸福,相信大家心情不錯,因此今天不談枯燥的技術(shù)。關(guān)于大數(shù)據(jù)的思維、理念、方法論已經(jīng)被反復(fù)消費了,本來我想直接進入交互環(huán)節(jié),繼挺兄還是要求先有一部分規(guī)定動作,我就先自彈自唱幾十分鐘,既然是漫談,也不見得扣題,說到哪里是哪里。各位有問題,我可以擇時擇機插入討論。
先說大數(shù)據(jù)思想的形成吧。自從人類開始文字和數(shù)字,數(shù)據(jù)就開始產(chǎn)生。就數(shù)據(jù)增長曲線而言,極小的初值確實要經(jīng)歷漫長的過程達到人類能感知的曲線拐點。谷歌前CEO埃里克·施密特曾給出了一個有趣的數(shù)據(jù):從人類文明曙光初現(xiàn)到2003年一共產(chǎn)生的數(shù)據(jù),只相當于2010年兩天產(chǎn)生的數(shù)據(jù)量。而一旦越過拐點,“大數(shù)據(jù)摩爾定律”的滾滾鐵輪下,指數(shù)效應(yīng)爆發(fā):最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。
在漫長的數(shù)據(jù)蓄水過程中,數(shù)學(xué)和統(tǒng)計學(xué)逐漸發(fā)展,人們開始注意對數(shù)據(jù)的量化分析,在人類進入信息時代以前這樣的例子就不勝枚舉。比如經(jīng)濟上,黃仁宇先生對宋朝經(jīng)濟的分析中發(fā)現(xiàn)了“數(shù)目字管理”(即定量分析)的廣泛應(yīng)用(可惜王安石變法有始無終)。又如軍事,“向林彪學(xué)習(xí)數(shù)據(jù)挖掘”的橋段不論真假,其背后量化分析的思想無疑有其現(xiàn)實基礎(chǔ),而這一基礎(chǔ)甚至可以回推到2000多年前,孫臏正是通過編造“十萬灶減到五萬灶再減到三萬灶”的數(shù)據(jù)、利用龐涓的量化分析習(xí)慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了數(shù)據(jù)存儲的革命。磁盤驅(qū)動器隨即發(fā)明,它帶來的最大想象空間并不是容量,而是隨機讀寫的能力,這一下子解放了數(shù)據(jù)工作者的思維模式,開始數(shù)據(jù)的非線性表達和管理。數(shù)據(jù)庫應(yīng)運而生,從層次型數(shù)據(jù)庫(IBM為阿波羅登月設(shè)計的層次型數(shù)據(jù)庫迄今仍在建行使用),到網(wǎng)狀數(shù)據(jù)庫,再到現(xiàn)在通用的關(guān)系數(shù)據(jù)庫。與數(shù)據(jù)管理同時發(fā)源的是決策支持系統(tǒng)(DSS),80年代演變到商業(yè)智能(BI)和數(shù)據(jù)倉庫,開辟了數(shù)據(jù)分析——也就是為數(shù)據(jù)賦予意義——的道路。
那個時代運用數(shù)據(jù)管理和分析最厲害的是商業(yè)。第一個數(shù)據(jù)倉庫是為寶潔做的,第一個太字節(jié)的數(shù)據(jù)倉庫是在沃爾瑪。沃爾瑪?shù)牡湫蛻?yīng)用是兩個:一是基于retail link的供應(yīng)鏈優(yōu)化,把數(shù)據(jù)與供應(yīng)商共享,指導(dǎo)它們的產(chǎn)品設(shè)計、生產(chǎn)、定價、配送、營銷等整個流程,同時供應(yīng)商可以優(yōu)化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關(guān)于啤酒加尿布 ,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經(jīng)理編的,人類歷史上從沒有發(fā)生過,但是,先教育市場,再收獲市場,它是有功的。
僅次于沃爾瑪?shù)臉焚彛═esco),強在客戶關(guān)系管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發(fā)生在90年代。00年代時,科研產(chǎn)生了大量的數(shù)據(jù),如天文觀測、粒子碰撞,數(shù)據(jù)庫大拿吉姆·格雷等提出了第四范式,是數(shù)據(jù)方法論的一次提升。前三個范式是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經(jīng)典物理學(xué)定律),模擬(粒子加速太貴,核試驗太臟,于是乎用計算代替)。第四范式是數(shù)據(jù)探索。這其實也不是新鮮的,開普勒根據(jù)前人對行星位置的觀測數(shù)據(jù)擬合出橢圓軌道,就是數(shù)據(jù)方法。但是到90年代的時候,科研數(shù)據(jù)實在太多了,數(shù)據(jù)探索成為顯學(xué)。在現(xiàn)今的學(xué)科里,有一對孿生兄弟,計算XX學(xué)和XX信息學(xué),前者是模擬/計算范式,后者是數(shù)據(jù)范式,如計算生物學(xué)和生物信息學(xué)。有時候計算XX學(xué)包含了數(shù)據(jù)范式,如計算社會學(xué)、計算廣告學(xué)。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結(jié)》,引起軒然大波。他主要的觀點是有了數(shù)據(jù),就不要模型了,或者很難獲得具有可解釋性的模型,那么模型所代表的理論也沒有意義了。跟大家說一下數(shù)據(jù)、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中采集了三個點的數(shù)據(jù),根據(jù)這些數(shù)據(jù),可以對客觀世界有個理論假設(shè),用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又采集了兩個點,這時發(fā)現(xiàn)三角形、四邊形的模型都是錯的,于是確定模型為五邊形,這個模型反映的世界就在那個五邊形里,殊不知真正的時間是圓形。
大數(shù)據(jù)時代的問題是數(shù)據(jù)是如此的多、雜,已經(jīng)無法用簡單、可解釋的模型來表達,這樣,數(shù)據(jù)本身成了模型,嚴格地說,數(shù)據(jù)及應(yīng)用數(shù)學(xué)(尤其是統(tǒng)計學(xué))取代了理論。安德森用谷歌翻譯的例子,統(tǒng)一的統(tǒng)計學(xué)模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料數(shù)據(jù)。谷歌甚至能翻譯克萊貢語(Star Trek里編出來的語言)。安德森提出了要相關(guān)性不要因果性的問題,以后舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學(xué)界不認同《理論的終結(jié)》,認為科學(xué)家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數(shù)據(jù),機器可以發(fā)現(xiàn)當前知識疆域里面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴展到新的空間。在人類歷史上,每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。
2010年左右,大數(shù)據(jù)的浪潮卷起,這些爭論迅速被淹沒了??垂雀柃厔荩?big data"這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digital universe的報告,上升到澤字節(jié)范疇(給大家個概念,現(xiàn)在硬盤是太字節(jié),1000太=1拍,阿里、Facebook的數(shù)據(jù)是幾百拍字節(jié),1000拍=1艾,百度是個位數(shù)艾字節(jié),谷歌是兩位數(shù)艾字節(jié),1000艾=1澤);一家是麥肯錫,發(fā)布《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》;一家是《經(jīng)濟學(xué)人》,其中的重要寫手是跟老舍同著《大數(shù)據(jù)時代》的肯尼思庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經(jīng)被編出來了,只不過在大數(shù)據(jù)語境里有了全新的詮釋。
咱們國內(nèi),歡總、國棟總也是在2011年左右開始呼吁對大數(shù)據(jù)的重視。
2012年子沛的書《大數(shù)據(jù)》教育政府官員有功。老舍和庫克耶的《大數(shù)據(jù)時代》提出了三大思維,現(xiàn)在已經(jīng)被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要數(shù)據(jù)全集不要采樣?,F(xiàn)實地講,1. 沒有全集數(shù)據(jù),數(shù)據(jù)都在孤島里;2.全集太貴,鑒于大數(shù)據(jù)信息密度低,是貧礦,投入產(chǎn)出比不見得好;3.宏觀分析中采樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調(diào)查的做法還是有實踐意義;4.采樣要有隨機性、代表性,采訪火車上的民工得出都買到票的結(jié)論不是好采樣,現(xiàn)在只做固定電話采樣調(diào)查也不行了(移動電話是大頭),在國外基于Twitter采樣也發(fā)現(xiàn)不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的信號,因此在全集數(shù)據(jù)存在且可分析的前提下,全量是首選。全量>好的采樣>不均勻的大量。
再說混雜性由于精確性。擁抱混雜性(這樣一種客觀現(xiàn)象)的態(tài)度是不錯的,但不等于喜歡混雜性。數(shù)據(jù)清洗比以前更重要,數(shù)據(jù)失去辨識度、失去有效性,就該扔了。老舍引用谷歌Peter Novig的結(jié)論,少數(shù)高質(zhì)量數(shù)據(jù) 復(fù)雜算法被大量低質(zhì)量數(shù)據(jù) 簡單算法打敗,來證明這一思維。Peter的研究是Web文本分析,確實成立。但谷歌的深度學(xué)習(xí)已經(jīng)證明這個不完全對,對于信息維度豐富的語音、圖片數(shù)據(jù),需要大量數(shù)據(jù) 復(fù)雜模型。
最后是要相關(guān)性不要因果性。對于大批量的小決策,相關(guān)性是有用的,如亞馬遜的個性化推薦;而對于小批量的大決策,因果性依然重要。就如中藥,只到達了相關(guān)性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因?qū)е轮斡墓?。西藥在發(fā)現(xiàn)相關(guān)性后,要做隨機對照試驗,把所有可能導(dǎo)致“治愈的果”的干擾因素排除,獲得因果性和可解釋性。在商業(yè)決策上也是一樣,相關(guān)性只是開始,它取代了拍腦袋、直覺獲得的假設(shè),而后面驗證因果性的過程仍然重要。
把大數(shù)據(jù)的一些分析結(jié)果落實在相關(guān)性上也是倫理的需要,動機不代表行為。預(yù)測性分析也一樣,不然警察會預(yù)測人犯罪,保險公司會預(yù)測人生病,社會很麻煩。大數(shù)據(jù)算法極大影響了我們的生活,有時候會覺得挺悲哀的,是算法覺得了你貸不貸得到款,谷歌每調(diào)整一次算法,很多在線商業(yè)就會受到影響,因為被排到后面去了。
下面時間不多了,關(guān)于價值維度,我貼一些以前講過的東西。大數(shù)據(jù)思想中很重要的一點是決策智能化之外,還有數(shù)據(jù)本身的價值化。這一點不贅述了,引用馬云的話吧,“信息的出發(fā)點是我認為我比別人聰明,數(shù)據(jù)的出發(fā)點是認為別人比我聰明;信息是你拿到數(shù)據(jù)編輯以后給別人,而數(shù)據(jù)是你搜集數(shù)據(jù)以后交給比你更聰明的人去處理。”大數(shù)據(jù)能做什么?價值這個V怎么映射到其他3V和時空象限中?我畫了個圖:
再貼上解釋。“見微”與“知著”在Volume的空間維度。小數(shù)據(jù)見微,作個人刻畫,我曾用《一代宗師》中“見自己”形容之;大數(shù)據(jù)知著,反映自然和群體的特征和趨勢,我以“見天地、見眾生”比喻之?!爸蓖苿印拔ⅰ保ㄈ绨讶巳杭毞譃閎uckets),又拉動“微”(如推薦相似人群的偏好給個人)?!拔ⅰ迸c“著”又反映了時間維度,數(shù)據(jù)剛產(chǎn)生時個人價值最大,隨著時間decay最后退化為以集合價值為主。
“當下”和“皆明”在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結(jié)合過往(負軸)、預(yù)測未來(正軸),可以皆明,即獲得perpetual智慧。《西游記》里形容真假孫悟空,一個是“知天時、通變化”,一個是“知前后、萬物皆明”,正好對應(yīng)。為達到皆明,需要全量分析、預(yù)測分析和處方式分析(prescriptive analytics,為讓設(shè)定的未來發(fā)生,需要采取什么樣的行動)。
“辨訛”和“曉意”在Variety的空間維度?;诖篌w量、多源異質(zhì)的數(shù)據(jù),辨訛過濾噪聲、查漏補缺、去偽存真。曉意達到更高境界,從非結(jié)構(gòu)數(shù)據(jù)中提取語義、使機器能夠窺探人的思想境界、達到過去結(jié)構(gòu)化數(shù)據(jù)分析不能達到之高度。
先看知著,對宏觀現(xiàn)象規(guī)律的研究早已有之,大數(shù)據(jù)的知著有兩個新特點,一是從采樣到全量,比如央視去年“你幸福嗎”的調(diào)查,是街頭的采樣,前不久《中國經(jīng)濟生活大調(diào)查》關(guān)于幸福城市排名的結(jié)論,是基于10萬份問卷(17個問題)的采樣,而清華行為與大數(shù)據(jù)實驗室做的幸福指數(shù)(繼挺兄、我、還有多位本群群友參與),是基于新浪微博數(shù)據(jù)的全集(托老王的福),這些數(shù)據(jù)是人們的自然表達(而不是面對問卷時的被動應(yīng)對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,數(shù)據(jù)告訴你答案?!吨袊?jīng)濟生活大調(diào)查》說“再小的聲音我們都聽得見”,是過頭話,采樣和傳統(tǒng)的統(tǒng)計分析方法對數(shù)據(jù)分布采用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學(xué)就是把定量分析應(yīng)用到社會學(xué),已經(jīng)有一批數(shù)學(xué)家、物理學(xué)家成了經(jīng)濟學(xué)家、寬客,現(xiàn)在他們也可以選擇成為社會學(xué)家。國泰君安3I指數(shù)也是一個例子,它通過幾十萬用戶的數(shù)據(jù),主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大數(shù)據(jù)的真正差異化優(yōu)勢在微觀。自然科學(xué)是先宏觀、具體,進入到微觀和抽象,這時大數(shù)據(jù)就很重要了。我們更關(guān)注社會科學(xué),那是先微觀、具體,再宏觀、抽象,許小年索性認為宏觀經(jīng)濟學(xué)是偽科學(xué)。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現(xiàn)實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現(xiàn)在都生活在零售商的bucket中(前面說的樂購創(chuàng)造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如“精打細算”、“右鍵點擊一族”(使用右鍵的比較tech savvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobody wants to be nobody today。
了解并掌握客戶比以往任何時候都更重要。奧巴馬贏在大數(shù)據(jù)上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·杰西卡·帕克(《欲望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什么電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對于企業(yè)來說,要從以產(chǎn)品為中心,轉(zhuǎn)到以客戶(買單者)甚至用戶(使用者)為中心,從關(guān)注用戶背景到關(guān)注其行為、意圖和意向,從關(guān)注交易形成轉(zhuǎn)到關(guān)注每一個交互點/觸點,用戶是從什么路徑發(fā)現(xiàn)我的產(chǎn)品的,決定之前又做了什么,買了以后又有什么反饋,是通過網(wǎng)頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟件有幾秒的延遲,而占美國交易量60-70%的高頻程序化交易則要發(fā)現(xiàn)毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震后9分鐘發(fā)出海嘯預(yù)警,已經(jīng)太晚。時間還是機會?,F(xiàn)在所謂的購物籃分析用的其實并不是真正的購物籃,而是結(jié)帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。數(shù)據(jù)價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現(xiàn)在東莞一出事百度遷徙圖就反映出來了。當然,當下并不一定是完全準確的,其實如果沒有更多、更久的數(shù)據(jù),匆忙對百度遷徙圖解讀是可能陷入誤區(qū)的。
第四個,皆明。時間有限,就簡單說了。就是從放馬后炮到料事如神(predictive analytics),從料事如神到運籌帷幄(prescriptive analytics),只知道有東風(fēng)是預(yù)測分析,確定要借箭的目標、并給出處方利用草船來借,就是處方性分析。我們現(xiàn)在要提高響應(yīng)度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源數(shù)據(jù)過濾噪聲、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖數(shù)據(jù)結(jié)合就能做到精確,GPS在城市的高樓中沒有信號,可以與慣性導(dǎo)航結(jié)合。
曉意涉及到大數(shù)據(jù)下的機器智能,是個大問題,也不展開了。貼一段我的文章:有人說在涉及“曉意”的領(lǐng)域人是無法替代的。這在前大數(shù)據(jù)時代是事實?!饵c球成金(Moneyball)》講的是數(shù)量化分析和預(yù)測對棒球運動的貢獻,它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū):一、它其實不是大數(shù)據(jù),而是早已存在的數(shù)據(jù)思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經(jīng)理比利·比恩用數(shù)量化分析取代了球探。而事實是,在運用數(shù)量化工具的同時,比恩也增加了球探的費用,軍功章里有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數(shù)結(jié)構(gòu)化量化指標無法刻畫的。大數(shù)據(jù)改變了這一切。人的數(shù)字足跡的無意識記錄,以及機器學(xué)習(xí)(尤其是深度學(xué)習(xí))曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基于大數(shù)據(jù)的情感分析、價值觀分析和個人刻畫,當這些應(yīng)用于人力資源,已經(jīng)或多或少體現(xiàn)了球探承擔的作用。
現(xiàn)在的深度學(xué)習(xí)在圖像搜索、語音識別和自然語言理解上在向人類的智能靠近。今天數(shù)據(jù)價值化,數(shù)據(jù)開放和共享,估值和定價,來不及講了,以后有機會再交流。
精彩問答環(huán)節(jié):
@Caesar China:澤字節(jié)后是東字節(jié),我們的DCI平臺已經(jīng)是兩位數(shù)東字節(jié)了,不知道吧
答:很感興趣你們的DCI平臺。澤字節(jié)后面是堯字節(jié)(yottabyte),美國國安局的猶他數(shù)據(jù)中心據(jù)說是按照堯字節(jié)的級別設(shè)計的
@zhant:全量采樣的成本和代價是需要重點評估的。
答:是的,我上傳一張示意圖。
吳彬能:因特爾在大數(shù)據(jù)方面的主要工作是哪塊?大家印象因特爾還是以硬件為主
甘沙:我們公司一方面是提供大數(shù)據(jù)的硬件,即計算、存儲和互聯(lián),服務(wù)器和機架設(shè)計,另一方面也提供Hadoop發(fā)行版和上面的分析、管理工具
賈鵬:金融方面的應(yīng)用好像比較少
甘沙:現(xiàn)在不是說要通過大數(shù)據(jù)重建信用體系嗎,這是金融啊
雷濤:我來演繹一下Victor的全量數(shù)據(jù)的思維,不是強調(diào)全部數(shù)據(jù)量,而是從全局視角重新看個體的思維。例如自然語言處理里常用的LDA,SVD分解,都是把每一個個體語義投影到一個公共參照體系中找到絕對坐標。視覺計算里人臉識別的PCA,也是在全局數(shù)據(jù)(公共臉)中定位每一張清晰臉。 全量的思維可以更清晰的描述個體。對全量數(shù)據(jù)不再追求統(tǒng)計意義的總攬概要和趨勢,而是更清晰地揭示個體。
甘沙:這是很好的解讀。老舍那一章的標題是More,但中譯本加入了“樣本=全體”的副標題,因此成為國內(nèi)的主要理解方式。另外,最近機器學(xué)習(xí)界開始認為LDA和SVD這類的方法已經(jīng)不太適合大數(shù)據(jù)對個體刻畫的需求,因為他們的指數(shù)分布假設(shè)忽略了長尾。
張云松:拋開傳統(tǒng)信用風(fēng)控模型,基于自然人的應(yīng)用性格數(shù)據(jù)如何采集和量化分析應(yīng)用于信用風(fēng)險的估計?
甘沙:現(xiàn)在方法很多,所謂一切數(shù)據(jù)皆為信用數(shù)據(jù)。一是通過數(shù)據(jù)共享,利用個人在淘寶、京東、支付寶、電信方面的數(shù)據(jù),另一個是自己采集信號。ZestFinance有7萬多個信號,國內(nèi)類似拍拍貸也有很多信號。比如星座,某些星座的容易逾期;用的瀏覽器,IE6是網(wǎng)吧標配;上網(wǎng)時間,半夜兩三點說明沒有正當職業(yè);填寫個人信息的時候耗時太多,說明可能有假;以前上班時間是用一個IP地址登錄的,突然換了個地址,是不是失業(yè)了等等,很多信號疊加起來形成個人信用的圖景。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10