2021-03-30
閱讀量:
821
?在對模型進行過充分的離線評估之后,為什么還要進行在線 A/B 測試?
需要進行在線 A/B 測試的原因如下 。
( 1 )離線評估無法完全消除模型過擬臺的影響,因此 ,得出的離
線評估結果無法完全替代線上評估結果 。
( 2 )離線評估無法完全還原線上的工程環(huán)境。 一般來講,離結評
估往往不會考慮線上環(huán)境的延遲 、數(shù)據(jù)丟失、標簽數(shù)據(jù)缺失等情況 。 因
此,離線評估的結果是理想工程環(huán)境下的結果 。
( 3 )線上系統(tǒng)的某些商業(yè)指標在離線評估中無法計算。離線評估
般是針對模型本身進行評估,而與模型相關的其他指標,特別是商業(yè)
指標,往往無法直接獲得 。 比如,上線了新的推薦算法, 離線評估往往
關注的是 ROC 由線、 P -R 曲線等的改進 , 而線上評估可以全面了解該
推薦算法帶來的用戶點擊率、留存時長、 PV 訪問量等的變化 。 這些都
要由 A/B 測試來進行全面的評估。
( 1 )離線評估無法完全消除模型過擬臺的影響,因此 ,得出的離
線評估結果無法完全替代線上評估結果 。
( 2 )離線評估無法完全還原線上的工程環(huán)境。 一般來講,離結評
估往往不會考慮線上環(huán)境的延遲 、數(shù)據(jù)丟失、標簽數(shù)據(jù)缺失等情況 。 因
此,離線評估的結果是理想工程環(huán)境下的結果 。
( 3 )線上系統(tǒng)的某些商業(yè)指標在離線評估中無法計算。離線評估
般是針對模型本身進行評估,而與模型相關的其他指標,特別是商業(yè)
指標,往往無法直接獲得 。 比如,上線了新的推薦算法, 離線評估往往
關注的是 ROC 由線、 P -R 曲線等的改進 , 而線上評估可以全面了解該
推薦算法帶來的用戶點擊率、留存時長、 PV 訪問量等的變化 。 這些都
要由 A/B 測試來進行全面的評估。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論