
[數(shù)據(jù)科學系列]美國首席數(shù)據(jù)科學家:打造數(shù)據(jù)產(chǎn)品必知秘籍
“當你在深夜遇到系統(tǒng)掛了和數(shù)據(jù)損壞,有什么辦法可以避免那些痛苦和頭痛?”
這是DJ·Patil 在最近的CTO峰會提到的。他是RelateIQ前任產(chǎn)品副總裁,和美國現(xiàn)任首席數(shù)據(jù)科學家,Patil總結所有產(chǎn)生變革的經(jīng)驗教訓和失誤。他與Ruslan Belkin,目前Salesforce工程副總裁,分享有關打造數(shù)據(jù)產(chǎn)品中最重要,最突出的失誤和經(jīng)驗。
常見的錯誤是認為所謂“數(shù)據(jù)產(chǎn)品”僅指像Twitter或LinkedIn,社交圖譜是一切。其實越來越多的產(chǎn)品都歸入此類,包括硬件,可穿戴和其他任何收集和對用戶有意義的數(shù)據(jù)。Belkin和Patil的所提供的建議也適用于創(chuàng)業(yè)公司的生態(tài)系統(tǒng)。
“當你想到數(shù)據(jù)產(chǎn)品更廣泛,開始意識到即使公司的報表也算數(shù)據(jù)產(chǎn)品的話,你的視野就打開了。你可以開始創(chuàng)建流程,去了解,制造和規(guī)模化,“ 那么為什么這么少的公司談論或強調(diào)搭建有用的數(shù)據(jù)產(chǎn)品?回答這個,Patil引用杜克大學著名經(jīng)濟學教授丹·艾瑞里的話:
誠然,這歸結于搭建大規(guī)模的數(shù)據(jù)產(chǎn)品真的很難。在這Belkin和Patil提供了一些有見地的戰(zhàn)術,讓大家更容易并可以大膽創(chuàng)造新產(chǎn)品。這將改變我們所看到的連接世界的方式。
用原型來做數(shù)據(jù)產(chǎn)品跟其他一樣開始很容易。但上了規(guī)模,就會碰到一堆獨特的挑戰(zhàn)。你必須計劃每一個地方。他們從來沒有一次性或獨立的產(chǎn)品。所以你不能像以前一樣只是構建,測試,回滾和上線。
你必須一開始有非?;镜南敕ǎ簲?shù)據(jù)是超級亂的,數(shù)據(jù)清理將永遠是承擔80%的工作。換句話說,數(shù)據(jù)是問題所在。
“如果你像LinkedIn在創(chuàng)業(yè)初期,他們曾對IBM 有4000種說法 – IBM,IBM研究中心,軟件工程師,所有的縮寫等”
我保證如果你不思考如何讓數(shù)據(jù)從一開始清理,你就完蛋了。
“試圖及時清理,因為以后需要幾個月的時間去做它?!?
面對這種困境,你應該先建立簡單的產(chǎn)品 – 超級簡單的東西,計數(shù)練習,像協(xié)同過濾器,只是零和一。所有這些事情將在大規(guī)模下執(zhí)行更難。 “如果你試圖建立一個像機器學習那樣野心勃勃的東西,它會在你面前失敗。形成管道(pipe)和保證其他的東西正確,在此基礎之上一步步來?!?
其中的最好的例子也來自于LinkedIn。誰最近瀏覽你的個人資料。這是一種將流量導回到你網(wǎng)站的信息。
“這里的常見錯誤是,讓數(shù)據(jù)導回是不錯,你就想”讓我們給更多些吧!但是,將數(shù)據(jù)添加到頁面實際上跟得到的點擊數(shù)是成反比的,你必須要找到用戶的合適平衡點?!?
當你添加更多的數(shù)據(jù),你把用戶放入癱瘓境地。他們不知道該怎么做。
決定什么數(shù)據(jù)暴露給人們不只是多少 – 這是關于它說什么了。Patil想到把工作推薦給人 ,比如“嘿,你應該申請這份工作,因為它符合你的技能!”很快意識到這種做法是危險的。
“我們很有可能一不小心推薦一個高級職務的人去申請實習,或加州居民應該搬到愛達荷州工作機會。當這樣的東西發(fā)生了,人們就很生氣,它可以很快搞砸你的品牌,你得想想那種特定功能實際上是當用戶看到它的樣子。這就是你要聰明 – 當它涉及到的數(shù)據(jù)產(chǎn)品,聰明要比傻瓜智能強很多“。
在這種情況下,聰明的解決方案是換個角度去推薦工作。如果“Bill”是他們想推薦的用戶,不是直接發(fā)送推薦工作機會給Bill,而是通過他的社交關系發(fā)送短信:推薦Bill這項工作。它使用了完全相同的算法,有一點扭曲,但它處理了強硬相關性的問題。
“如果Bill從他的一個朋友聽到,認為他應該接受一份工作,他仍然可以說,’這是一個垃圾”但是這是罕見的,并且該網(wǎng)站永遠不會被指責,除此之外,我們?nèi)ナ占性试S使用的數(shù)據(jù),弄清楚這個功能怎么回事,使其變的更好?!?
這是Belkin的最喜歡的名言,強調(diào)把事情先做,再嘗試,當你有更多知識去迭代。
像LinkedIn有個人才匹配的產(chǎn)品。當時的想法是,一個公司發(fā)布一個職位空缺,最佳適合工作描述的人得到推薦。它已開始很棒直到他們試圖去規(guī)模化和各種復雜度的出現(xiàn)。
“最后我們不得不復查所有的系統(tǒng),直到我們能夠理解功能正確結合和合理評估框架。直到我們把所有東西做對,我們才知道如何大規(guī)模搭建它“
大量的數(shù)據(jù)產(chǎn)品需要時間去成熟,并產(chǎn)生你需要的信息讓他們變的更好。
“這可能很辛苦,即使蘋果這樣的公司有時不得不為顧客處理有爭議劣質(zhì)產(chǎn)品的數(shù)據(jù)而道歉和推薦競爭對手的應用程序”這個問題會影響公司規(guī)模和技術水平。
在LinkedIn中,“你可能認識的人”功能開始于一個工程師的電腦中python腳本。直到2008年該功能推出兩年后,它才開始在平臺上推動流量有效增長。
同樣的事情也發(fā)生在Twitter的搜索。這是首次推出為Twitter用戶的實用工具。但直到2013年中期,大家才發(fā)現(xiàn)這是流量增長的主驅(qū)動力。
千萬不要按固定的時間表去推出一個復雜的數(shù)據(jù)產(chǎn)品。
很多人選擇通過建模開始。有些從功能的發(fā)現(xiàn)或工程中開始。還有人通過搭建基礎設施去做規(guī)模化服務開始。但Belkin認為數(shù)據(jù)產(chǎn)品只有一個正確的答案和出發(fā)點:理解如何評估性能和搭建評估工具。
“迄今每一個公司聊到了最后都沒有一個例外, 數(shù)據(jù)質(zhì)量差,尤其是監(jiān)控數(shù)據(jù),”他說,“要不就是不完整的數(shù)據(jù),缺失監(jiān)控數(shù)據(jù),或者重復監(jiān)控數(shù)據(jù)”。
為了解決這個問題,必須投入大量的時間和精力監(jiān)測數(shù)據(jù)質(zhì)量。你需要監(jiān)控網(wǎng)站的響應時間。你需要把數(shù)據(jù)質(zhì)量的bug放在第一優(yōu)先級。不要害怕因為發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題失敗一個部署。但有一件事你不能做:
“如果你有數(shù)據(jù)質(zhì)量問題,不要提交到蘋果應用商店”他說。 “你必須確保你有完全正確的工具,你所有正在跟蹤的事件,以及通過模式注冊就可以集成到開發(fā)過程中。”
為了加強這些經(jīng)驗教訓,Belkin快速報表查看來開始他的工作會議。他親自一天看20多次,發(fā)現(xiàn)它用來討論表面問題和潛力問題要積極快速得多。在成為災難前得到更快的解決。
在你推出的數(shù)據(jù)產(chǎn)品給用戶前,你應該通過這個清單來檢驗:
1 .產(chǎn)品要能跑通
早年Belkin曾在網(wǎng)景,并記住CEO Jim Barksdale – “你看,如果你每天弄錯運送包裹的1%,在100天內(nèi),很大的客戶群就不爽了”的說法,你需要考慮的用戶看到壞的結果的可能性?
把它放到高科技消費產(chǎn)品方面:“如果把黃色信息顯示在他們的新聞源是否能接受,每三個月?半年?九個月?你必須搞清楚什么是可以接受的水平。”
如何應對尷尬的內(nèi)容和推薦?這是一個需要你注意的問題。不管他們做什么,總有弄砸的時刻。你會做什么?是回滾該版本?你會更改線上數(shù)據(jù)庫去嘗試正確的東西?唬弄東西修改索引?在系統(tǒng)運行時提升一個等級?所有這一切通常是一個壞主意。你應該提前預料到這種可能性,并制定解決方案就可以立即部署?!?
2. 它必須為用戶服務
你必須把用戶參考的東西顯示在他面前。他們需要理解所看到的東西是具體的信息 – 或者是因為他們關注一定的用戶,或采取了一定的行為,甚至可能是因為他們沒有采取行動。
重要的是,你不能把跟用戶之前無關經(jīng)驗的品牌和產(chǎn)品展現(xiàn)出來。沒有人愿意看到隨機出現(xiàn)的東西。亂入將失去用戶。
例如,一個Twitter的個人資料放在誰關注的人,在你已經(jīng)知道的情況下會更可能關注他們。這就說到下一個。
3.讓用戶感到安全
“這就是我所說的泰迪熊原則,問問自己,用戶會認為你的產(chǎn)品是很爛的或有害的嗎?它不是必須要那樣,但這些不好用戶體驗可引起長期損壞你的平臺“。
首先,你必須確保不會個人身份信息泄漏。這可不是鬧著玩的,總是有一定的風險,這可能因產(chǎn)品設計或?qū)崿F(xiàn)一個缺陷而發(fā)生。你可能被黑客攻擊,某些數(shù)據(jù)沒有被加密,這是非常嚴重的。你要力所能及不僅防止這種情況發(fā)生,而且傳達良好的設計,不讓這種事情發(fā)生的良好用戶體驗。用戶會用最小的蛛絲馬跡以確定他們是否應該信任一個產(chǎn)品。
4.用戶可以自己掌控
這就是你當前用戶設置 – 特別是當它們涉及到隱私 – 是非常重要的。你需要思考要做到不強勢的最好辦法,讓他們?nèi)デ宄x擇,使得用戶有權決定與誰以及何時分享。這通常決定用戶是否能回來訪問。
5.有在美國以外的用戶
很多人沒有意識到大部分用戶生活在美國外。 “根據(jù)經(jīng)驗,多達35種語言跟你公司相關。通常,數(shù)據(jù)在不同的語言中選擇更有限。許多用戶是多語種。如果你沒有額外努力和計劃,你可能無法提供同等質(zhì)量的服務“
即使你在一個小的創(chuàng)業(yè)公司目前缺少資源去思考國際化,你也需要打下基礎去解決這些問題。你不能想象有一個完全英語的龐大產(chǎn)品,然后突然決定推廣到在35+語言。如果你有全球抱負,你必須在成熟之前就要考慮開始分層。
經(jīng)常被問這個問題:當你想建立和迭代多個產(chǎn)品的時候,如何組織你的產(chǎn)品和工程團隊?什么是團隊的合理結構?
“這帶來一個很老的爭論:你應該去垂直或水平擴張?哪個是正確的?
“沒有一個通用的標準答案,但有對于你在公司階段的正確答案,它矩陣的形式下圖所示”。
“評估需要在一些指標中做什么 – 執(zhí)行,創(chuàng)新,代碼質(zhì)量,用戶體驗的重要性?跨團隊工作需要什么去平衡構建和擴展的速度?”
一般來說,垂直整合的團隊,當涉及到執(zhí)行或創(chuàng)新時以速度取勝。大家與外部關系更融洽因為團隊跟業(yè)務目標保持一致。
水平團隊隊通常有更高質(zhì)量的產(chǎn)出。他們更高效,在內(nèi)部動態(tài)控制上比較上更好。
真正核心是要保持實驗和迭代,不只是產(chǎn)品,而且是你如何打造他們。不會一下子解決所有的問題,而新的數(shù)據(jù)可以引導你后面的過程。不要指望指哪打哪 – 尤其是不要指望你的用戶和公司能在同樣輕松的水平上一起成長。
“有個搭建數(shù)據(jù)產(chǎn)品的比喻,這像爬山。許多人在你的前面,很多人在你后面。還有一些路徑?jīng)]有走過,但如果你保持你的眼睛看著頂峰并采取小的步調(diào),你一定能到達那里!“
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11