
教你如何看懂旅游大數(shù)據(jù)_數(shù)據(jù)分析師考試
有時(shí)候,一句話、一張圖片都會(huì)蘊(yùn)含巨大的數(shù)字商機(jī),但這是一門需要高度精準(zhǔn)性的技術(shù)活兒,并非人人都看得懂大數(shù)據(jù)。
看懂游客行為
大家都在說(shuō)大數(shù)據(jù),攜程近期投資專攻大數(shù)據(jù)研究的眾薈信息技術(shù)有限公司(下稱“眾薈”)、阿里系的去啊旅行則與石基信息合作,而東呈酒店、如家酒店等也紛紛推出智能化管理。
每個(gè)旅游業(yè)者都會(huì)有自己的會(huì)員和消費(fèi)數(shù)據(jù)記錄,這些記錄就是大數(shù)據(jù)的基礎(chǔ)信息,然而在一堆數(shù)字和消費(fèi)者行為面前究竟該如何分析處理并得出結(jié)論呢?
“首先要知道什么是大數(shù)據(jù),大數(shù)據(jù)分為兩大類,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),前者就是大家看到的一系列數(shù)字,后者則可能是一張圖、一句話等并非直接體現(xiàn)為數(shù)字的信息。因此真正意義上的大數(shù)據(jù)分析不僅要做直接的數(shù)字分析,還要懂得建立數(shù)學(xué)模型,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)并得出結(jié)論,這些并不簡(jiǎn)單?!北娝C數(shù)據(jù)智能事業(yè)部總經(jīng)理焦宇告訴記者。
焦宇給記者舉了一個(gè)例子,現(xiàn)在很多游客會(huì)在OTA(在線旅游代理商)上比價(jià)和預(yù)訂酒店,那么其搜索的關(guān)鍵詞和瀏覽痕跡就會(huì)體現(xiàn)在OTA的記錄里,如果客人瀏覽過(guò)這家酒店的頁(yè)面卻跳轉(zhuǎn)了,并未下訂單,則可以通過(guò)這個(gè)記錄分析該客人不下單的原因,當(dāng)這個(gè)客人通過(guò)價(jià)格、品牌、區(qū)域等關(guān)鍵詞排序查找酒店信息后,其留下的瀏覽記錄則可以統(tǒng)計(jì)出人們是對(duì)于價(jià)格敏感還是品牌敏感。
“經(jīng)過(guò)研究,大部分人還是看重價(jià)格因素,由于價(jià)格的選擇是有區(qū)間的,這就可以用瀏覽痕跡得出一個(gè)最讓游客接受的價(jià)格區(qū)間數(shù)字。只有11%的人在意品牌,說(shuō)明同類酒店可替代性很強(qiáng)。如果以區(qū)域關(guān)鍵詞搜索,則代表地理位置數(shù)據(jù),若可以精準(zhǔn)到具體方位,并將這一信息傳達(dá)給該區(qū)域的酒店,則無(wú)疑提高了酒店的入住率還能根據(jù)消費(fèi)者行為適當(dāng)調(diào)整房?jī)r(jià),當(dāng)供大于求時(shí)下調(diào)房?jī)r(jià),反之則提升房?jī)r(jià)。還有一個(gè)頗有意思的研究,即游客瀏覽記錄中若有A酒店的競(jìng)爭(zhēng)對(duì)手酒店,則可以推理這個(gè)客人對(duì)于A這一類酒店有需求,該客人就是A酒店應(yīng)該關(guān)注的潛在客人?!苯褂钪赋?,要將海量的瀏覽記錄變成有效數(shù)據(jù),還得依靠數(shù)學(xué)模型,模型分為收斂型和發(fā)散型,大數(shù)據(jù)通常要經(jīng)過(guò)收斂型模型將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)并得出結(jié)論。
一位連鎖酒店經(jīng)營(yíng)者告訴記者,這些涵蓋了消費(fèi)者較能接受的價(jià)格區(qū)間、品牌等信息的大數(shù)據(jù)可以讓酒店對(duì)價(jià)格、定位和營(yíng)銷等做出策略性調(diào)整,以提升入住率,提高酒店整體收益管理。
神奇的語(yǔ)言分析
除了價(jià)格、品牌,語(yǔ)言文字也是一種非結(jié)構(gòu)化數(shù)據(jù),尤其是如今當(dāng)客人預(yù)訂酒店旅游產(chǎn)品時(shí)一定會(huì)先看一下點(diǎn)評(píng),或者自己體驗(yàn)后也會(huì)留言評(píng)價(jià),這些語(yǔ)言背后也大有大數(shù)據(jù)學(xué)問(wèn)。
記者多方采訪和觀察后了解到,不少客人會(huì)對(duì)已經(jīng)入住的酒店進(jìn)行評(píng)估,這些點(diǎn)評(píng)中經(jīng)常會(huì)出現(xiàn)對(duì)酒店環(huán)境、客房設(shè)施、餐飲和服務(wù)的評(píng)價(jià),比如“房間很干凈,但是送餐服務(wù)比較慢”、“前臺(tái)的服務(wù)差評(píng)”、“洗浴感受不錯(cuò)”等。這需要用專業(yè)的語(yǔ)義分析進(jìn)行精準(zhǔn)細(xì)分化分析并轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)反饋給酒店經(jīng)營(yíng)者。
在人工智能和計(jì)算語(yǔ)言學(xué)中,語(yǔ)義分析為知識(shí)推理和語(yǔ)言提供了方法,也是未來(lái)搜索引擎發(fā)展的方向。比如,輸入“蘋果”通過(guò)語(yǔ)義分析,能夠知道用戶想找的是手機(jī)而不是水果。
“首先我們會(huì)通過(guò)專業(yè)的語(yǔ)義分析去除一批虛假點(diǎn)評(píng)或無(wú)實(shí)質(zhì)內(nèi)容的點(diǎn)評(píng),而將真正對(duì)酒店有實(shí)質(zhì)內(nèi)容的點(diǎn)評(píng)留下,并對(duì)于每一句話進(jìn)行斷句和多維度切割。舉個(gè)簡(jiǎn)單的例子,比如‘這個(gè)酒店很干凈,但是送餐服務(wù)比較慢’,經(jīng)過(guò)我們的斷句和多維度切割分析后可以知道客房清潔度不錯(cuò),但送餐有問(wèn)題,那么我們接下來(lái)就要把結(jié)論進(jìn)行細(xì)化分類并反饋給各部門。這里的問(wèn)題就是速度,有時(shí)還涉及口味或者服務(wù)態(tài)度等。有時(shí)一段話的分析是非常復(fù)雜的,其中還有糾錯(cuò)比例。”眾薈市場(chǎng)部高級(jí)副總裁胡凡表示。
從事酒店業(yè)超過(guò)15年的李先生告訴記者,比起簡(jiǎn)單的“好”或“不好”,經(jīng)過(guò)多維度語(yǔ)義分析后得出的結(jié)論可以反饋到酒店各個(gè)相關(guān)部門,并且細(xì)化到是哪個(gè)細(xì)節(jié)好,或哪個(gè)細(xì)節(jié)有問(wèn)題需要改進(jìn),那么管理層開例會(huì)時(shí)就能明確知道接下來(lái)的工作方向,而經(jīng)過(guò)改善服務(wù)態(tài)度、速度甚至裝飾風(fēng)格,其所在的酒店入住率提升了10%,且RevPAR(RevenuePerAvailableRoom,每間可供租出客房產(chǎn)生的平均實(shí)際營(yíng)業(yè)收入)有約15%的增加。
據(jù)悉,一些科技信息公司對(duì)于語(yǔ)義分析的維度已經(jīng)可以達(dá)到1000個(gè)。
跨界與圖片信息怎么玩
有時(shí)候,對(duì)于旅游大數(shù)據(jù)的分析還涉及跨界合作。
“國(guó)外是跨領(lǐng)域研究的,結(jié)合了多領(lǐng)域,比如地理信息、IT、商學(xué)院、社會(huì)學(xué)等。我舉個(gè)跟蹤游客的例子,現(xiàn)在我們采用跨界合作的多方位社交媒體來(lái)跟蹤游客行為。社交媒體上有很多游客留下的痕跡,比如flickr,flickr上的圖片留下了照片的地理坐標(biāo)、拍攝時(shí)間、評(píng)論信息等,這些都是非??少F的旅游大數(shù)據(jù)?!遍L(zhǎng)期在澳大利亞研究旅游大數(shù)據(jù)分析的學(xué)者程明明告訴記者,用地理坐標(biāo)來(lái)追蹤軌跡則需要懂地理學(xué)的專家來(lái)幫忙,而商業(yè)管理方面的專才則可以分析游客去哪兒、是什么時(shí)間去等具有商業(yè)價(jià)值的數(shù)據(jù)。
在多方跨界分析研究后,業(yè)者可以知道哪些景點(diǎn)受歡迎、哪些是新的景點(diǎn)、游客在幾點(diǎn)左右在景點(diǎn)甚至每次停留多久等。掌握這些大數(shù)據(jù)信息分析結(jié)果后,相關(guān)的旅游業(yè)者可以有效做到分流,不會(huì)造成景點(diǎn)承載力過(guò)于飽和。同時(shí),對(duì)比景點(diǎn)信息和游客屬性,可以知道不同國(guó)家游客對(duì)景點(diǎn)有什么不同需求,比如亞洲人是否更喜歡文化景點(diǎn),如果是,則當(dāng)?shù)芈糜瓮茝V營(yíng)銷時(shí)就要更多推出人文景點(diǎn)。
記者在采訪中獲悉,目前中國(guó)不少景區(qū)也正在與相關(guān)大數(shù)據(jù)分析公司合作,希望通過(guò)分析來(lái)預(yù)測(cè)未來(lái)一段時(shí)間的客流量,尤其是旺季黃金周的客流量預(yù)計(jì),能幫助景區(qū)控制進(jìn)入人數(shù),提高安全性和服務(wù)質(zhì)量。
頗有意思的是,圖片也屬于大數(shù)據(jù)。
“比如一些大型旅游預(yù)訂網(wǎng)站上有大量圖片,對(duì)于圖片,我們需要IT技術(shù)人員來(lái)幫忙進(jìn)行機(jī)器人訓(xùn)練(machinelearning)幫助我們識(shí)別不同的圖片。比如究竟是人物還是風(fēng)景效果好,然后我們?cè)偻ㄟ^(guò)數(shù)學(xué)模型和旅游局、旅行社宣傳的圖片進(jìn)行對(duì)比,得出游客感興趣的圖片和旅游局、旅行社所宣傳的是否一致。如果不一致,那么不一致在什么方面,并需要如何改進(jìn)?!背堂髅髡f(shuō)道。
據(jù)悉,另有一種腦電波測(cè)試方式,能測(cè)試出人們看到圖片時(shí)眼球第一秒會(huì)注視的地方即最吸引點(diǎn),以及人們對(duì)于被測(cè)試圖片的喜好或厭惡程度等。業(yè)者通過(guò)這些分析可以決定是否在銷售時(shí)更換樣圖,餐廳或景點(diǎn)的宣傳圖片究竟是有人好還是空景好,合適的樣圖能夠促進(jìn)銷量。
“當(dāng)然,要做好旅游大數(shù)據(jù)研究并不簡(jiǎn)單,其數(shù)學(xué)模型比較復(fù)雜,比如包含線性回歸之類的。其實(shí),大數(shù)據(jù)研究是一個(gè)數(shù)據(jù)不斷整合和多學(xué)科交叉的過(guò)程,未來(lái)還有很多商機(jī)可以依靠大數(shù)據(jù)被挖掘出來(lái)。”程明明如是說(shuō)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10