
信息化程度很低的旅游行業(yè)如何玩轉(zhuǎn)大數(shù)據(jù)?
一段時間之前,多如牛毛的游記,大部分時候只是滿足了分享者快感的文字,而沒有變成數(shù)據(jù)。后來沉淀了大量游記的平臺如窮游、螞蜂窩都開始想辦法把游記“結(jié)構(gòu)化”,變成能夠更廣泛應(yīng)用的數(shù)據(jù)。
在旅游行業(yè),可能最核心的數(shù)據(jù)就是POI(興趣點(diǎn)),具有極強(qiáng)規(guī)則的、完整的、標(biāo)簽極度碎片化的POI信息是這個行業(yè)里非常值錢的東西,也成為了諸如TripAdvisor(貓途鷹)的核心競爭力。貓途鷹的POI信息幾乎是不可能對外大規(guī)模釋放的,第三方無論是購買、還是數(shù)據(jù)交換,都很難拿到完整的TripAdvisor的POI數(shù)據(jù)。TripAdvisor開放的API接口,只能夠?yàn)榈谌教峁┧蠵OI的評論信息。
境內(nèi)在線旅游行業(yè),持有境外 POI 信息主要有三撥(如有遺漏歡迎補(bǔ)充,大眾點(diǎn)評之類暫不考慮):
擅長以抓取方式收集并整理信息的一些創(chuàng)業(yè)公司,如口碑旅行、夢想旅行,妙計旅行;
基于UGC內(nèi)容整理的POI信息:主要就是窮游;
自采POI信息的創(chuàng)業(yè)公司:游譜旅行、四萬公里。
之前我們和窮游負(fù)責(zé)大數(shù)據(jù)的VP張棋就這件事聊了聊,張棋坦言這是一個龐大的工程,迄今為止窮游覆蓋了300多個國家和地區(qū),7000多個城市和區(qū)域,包括了景點(diǎn)、美食等POI的數(shù)量已經(jīng)達(dá)到了百萬量級。而隨著目的地信息的變化,這些POI必須持續(xù)更新,除了基礎(chǔ)信息之外,評論也在隨之更新。
張棋介紹,最初做POI的方式是通過 “網(wǎng)友貢獻(xiàn)+編輯審核”的方式,以比較粗的維度劃分國家、地區(qū)、城市,然后盡量保證各個維度下面都有相應(yīng)的POI信息做到 “該有的地方都有”。而第二期的做法是“掘金”,一直持續(xù)到現(xiàn)在,通過“運(yùn)營編輯+ 算法支持”的方式:編輯給大致的框架,例如什么算是優(yōu)秀內(nèi)容,以人工做范例(在長游記中找到幾張圖和一段話),然后技術(shù)團(tuán)隊通過數(shù)據(jù)建模和算法,用文本挖掘的手段覆蓋所有內(nèi)容,把結(jié)果填充到POI和目的地的架構(gòu)中。
在整個窮游收集POI的過程中,除了根據(jù)論壇的內(nèi)容做篩選和挖掘以及用戶主動提交之外,也有一些外部數(shù)據(jù)源做實(shí)時不斷的更新,例如大巴車的時刻表。這一點(diǎn)上,妙計也用的相應(yīng)的方式,從而保證動態(tài)的行程規(guī)劃是可行的——如果行程助手讓你去搭乘巴士,而巴士停運(yùn)了會怎么樣?
在這里張棋分享了一些窮游的做法,工作節(jié)奏上他們會每一段時間重點(diǎn)攻克一個主題,先是酒店,然后是餐廳。在文本挖掘上,窮游除了抓取文字之外還會抓取相應(yīng)的圖片,張棋坦言這里沒有通用且完美的解決方案,只能不斷的通過運(yùn)營編輯反饋機(jī)器的抓取結(jié)果,不斷提高覆蓋度,爭取少漏掉一些重點(diǎn)信息。
通過不斷的外部數(shù)據(jù)源更新、用戶提交和內(nèi)部挖掘,窮游的POI信息維度已經(jīng)超過了100個,主要可以分為兩類,一類是屬性維度,以清邁女子監(jiān)獄按摩店為例,包括了中文名、當(dāng)?shù)卦Q、英文名、地址、經(jīng)緯度坐標(biāo)、平均價位等;另一類是標(biāo)簽屬性,也可以理解為“屬于哪一類”,休閑、刺激、適合什么人群、親子或單身等等。
在保證POI覆蓋度之后,POI的另外一個要點(diǎn)是標(biāo)簽體系:一個POI都需要標(biāo)簽?標(biāo)簽需要多細(xì)化的顆粒度?這都是需要考慮的問題。一套成熟的標(biāo)簽體系能夠極大的提高用戶篩選的效率,自然也會提高轉(zhuǎn)化率。
以酒店為例,窮游的運(yùn)營編輯會提供諸如“交通”、“設(shè)施”、“餐飲”、“服務(wù)”、“干凈衛(wèi)生”、“漢語”等維度,然后機(jī)器根據(jù)這些語義做抽象出相關(guān)內(nèi)容,做主題挖掘。當(dāng)用戶評論或游記中有描述命中了這個主題,機(jī)器就會放進(jìn)“池子”做第一輪的篩選。在這個“初選”的池子中,機(jī)器會為每個話術(shù)賦值,然后根據(jù)權(quán)重得出最終結(jié)果。當(dāng)然,餐廳就會有不同的維度,景點(diǎn)也有不同。
POI的價值毋庸置疑,如上面所說,妙計和窮游都在多個維度豐富自己的POI信息,尤其是動態(tài)更新的信息,以保證智能生成的行程規(guī)劃是切實(shí)可行的。張棋說,行程助手就是POI信息的串聯(lián),一天可能就涉及50-70個POI。如果不能夠保證豐富度和準(zhǔn)確度,整個行程助手是缺乏價值的。
而進(jìn)一步挖掘,在商業(yè)化的路上POI是重要的連接機(jī)制(我們之前在討論游譜旅行的時候也說過)。與游譜旅行的創(chuàng)始人李小堅相似,張棋也認(rèn)為,內(nèi)容向商品的轉(zhuǎn)化需要POI作為載體——當(dāng)用戶瀏覽景點(diǎn)信息的時候,如果有對應(yīng)商品,直接就可以完成預(yù)定。“這也是窮游預(yù)定轉(zhuǎn)化上很重要也很成功的嘗試?!睆埰逭f。
此外,在目的地的智能推薦上,如果沒有準(zhǔn)確實(shí)時的POI信息,推薦就可能是“不靠譜的”,例如清邁有“周六夜市”和“周日夜市”,僅在當(dāng)天開放,而如果推薦周一前往,就太不智能了。
在POI的基礎(chǔ)之上,很多玩家都在嘗試智能推薦,這也是旅游進(jìn)入移動端時代的一大想象空間——基于用戶所在的地理位置和用戶畫像,隨時做智能推薦,從而大幅提高轉(zhuǎn)化率。之前有一些創(chuàng)業(yè)公司講過相似的故事,但迄今還沒有人實(shí)現(xiàn)。
沒實(shí)現(xiàn)的原因也不難理解,沒有很大的用戶基數(shù),用戶畫像的準(zhǔn)確度就會打折扣,自然也會影響推薦的準(zhǔn)確性;另一端,如果沒有優(yōu)質(zhì)的POI數(shù)據(jù)庫,推薦的都是老套路,用戶也不會喜歡。大平臺如阿里旅行,可以基于用戶在阿里其他平臺(淘寶、天貓)的購買行為做智能推薦,也還沒有到達(dá)行中、實(shí)時的級別。
事實(shí)上,在一些數(shù)據(jù)交易平臺或數(shù)據(jù)抓取公司那里,用戶畫像是可以獲得的,但我個人了解到,用戶畫像的準(zhǔn)確程度,以及關(guān)于這個用戶的信息維度,其實(shí)并不完全適合旅游行業(yè)——大部分關(guān)于用戶的畫像集中在其日常購買、金融理財?shù)葘用?,通過這些層面的數(shù)據(jù)推導(dǎo)至旅游行業(yè),準(zhǔn)確性自然會降低。
作為擁有數(shù)千萬出境游注冊用戶的窮游,從2011年開始積累用戶的訪問和點(diǎn)擊行為,打算為日后的智能推薦和精準(zhǔn)營銷做準(zhǔn)備。張棋介紹,窮游會格外關(guān)注“平時生活在哪里、關(guān)注的旅行信息是什么、潛在目的地是什么、處于旅行周期的什么階段”等信息。之后窮游把用戶分為:行前觀望、行前準(zhǔn)備(多次看多次買,可能推翻之前的選擇)、即將出發(fā)(開始購買輕量級的商品例如WIFI 或目的地商品如CityWalk)、行中、回來等階段,匹配相應(yīng)的產(chǎn)品。張棋說,窮游目前格外關(guān)注出發(fā)前一兩天的用戶,通過其酒店預(yù)訂行為,重點(diǎn)推送相應(yīng)的輕量級商品。
張棋坦言,精準(zhǔn)的智能推薦可能會讓轉(zhuǎn)化率呈10倍的改善,而最大的挑戰(zhàn)在于,必須將用戶畫像和POI信息都實(shí)現(xiàn)高顆粒度,才能做準(zhǔn)確的匹配——這里的前提是有這些數(shù)據(jù)。
我們了解到,包括阿里旅行在內(nèi)的在線旅游玩家都在尋求高品質(zhì)的POI和用戶畫像數(shù)據(jù)。這可能不是一家企業(yè)的核心競爭力(在數(shù)據(jù)上的應(yīng)用層面才是),但應(yīng)該能構(gòu)筑起一些壁壘。當(dāng)各家都在構(gòu)建自己的POI數(shù)據(jù)庫的時候,重復(fù)勞動是不可避免的,這里也許有合作共贏的空間。
更值得關(guān)注的是,誰能依托自己的實(shí)力(這可能是用戶基數(shù)、可能是分銷實(shí)力、可能是對旅游行業(yè)的理解,行業(yè)里可能還沒有定論)為POI數(shù)據(jù)制定發(fā)布規(guī)則,反而可能去爭奪制高點(diǎn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10