
作者 | 劉燕
來源 | AI前線
導(dǎo)讀:這可能是大數(shù)據(jù)行業(yè)經(jīng)歷的最寒冷的一個冬天。年關(guān)將至,國人習(xí)慣于用各種圓滿的方式給即將過去的一年劃上句號,不過,這對于許多大數(shù)據(jù)行業(yè)從業(yè)者來說,似乎有些奢望。整頓、倒閉、離職... 最近數(shù)月以來,股股冷峻的氣息一直籠罩在行業(yè)上空。多次監(jiān)管動作不斷提醒和鞭策著大數(shù)據(jù)公司,是時候告別野蠻生長的時代了,合規(guī)才是正途。
監(jiān)管重錘落地,此前狂飆突進的大數(shù)據(jù)產(chǎn)業(yè)突然被按下“暫停鍵”。
自今年 9 月以來,多家大數(shù)據(jù)公司接連被查,巨變啟幕,行業(yè)“一夜入冬”。
9 月 6 日,大數(shù)據(jù)智能風(fēng)控服務(wù)供應(yīng)商魔蝎數(shù)據(jù)被警方調(diào)查,一位核心高管被帶走,官網(wǎng)至今無法正常訪問;另一家大數(shù)據(jù)公司新顏科技的 CEO 黃向前也在同一天被警方帶走調(diào)查;這天,聚信立發(fā)通知主動停止了爬蟲業(yè)務(wù),然未能幸免于“難“,僅過了幾天后,聚信立被爆有警方進駐公司調(diào)查;9 月 11 日,知名幣圈項目公信寶運營主體被杭州警方查封;次日,有媒體報道,集奧聚合深圳分公司十余人被帶走,北京辦公室也有多人被深圳警方帶走;另有爆料稱,天翼征信的總經(jīng)理、副總經(jīng)理及市場人員被警察帶走。
一周之內(nèi),5 家公司被查,如此陣勢引發(fā)業(yè)內(nèi)恐慌,但這可能只是剛剛開始。
緊接著,有傳言稱百融云創(chuàng)數(shù)據(jù)查詢受影響、個人征信數(shù)據(jù)業(yè)務(wù)被暫停,深圳分公司員工被帶走,后被官方否認。9 月 27 日,同盾科技子公司信川科技高管被帶走協(xié)助調(diào)查;10 月 21 日,51 信用卡委托外包催收公司因涉嫌尋釁滋事等罪被調(diào)查;10 月 25 日,新京報報道稱,央行發(fā)文緊急調(diào)研銀行與上述第三方數(shù)據(jù)公司合作情況,排查的合作內(nèi)容主要涉及數(shù)據(jù)采集、信用欺詐、信用評分、風(fēng)控建模....
有業(yè)內(nèi)人士分析稱,上述公司被查與其開展的“爬蟲”業(yè)務(wù)有關(guān),根源亦在于涉足現(xiàn)金貸、715 高炮、套路貸、暴力催收、“超利貸”等業(yè)務(wù)。
據(jù) AI 前線不完全統(tǒng)計,此次清查波及的大數(shù)據(jù)公司至少 15 家左右。(以下根據(jù)公開資料整理,力有不逮,難免遺漏或錯誤,請見諒)
那個“2019 年,捕獲獨角獸最多的機構(gòu):紅杉、阿里、騰訊和警方”的網(wǎng)紅段子在引人發(fā)笑的同時,也反映出了當(dāng)下大數(shù)據(jù)公司的尷尬處境。
今年 11 月以來,公安部加大了 APP 違法違規(guī)采集個人信息集中整治力度,共下架整改 100 架 APP,其中考拉海購、房天下、樊登讀書、天津銀行等知名 APP 也在列,這些 APP 多涉及無隱私協(xié)議、收集使用個人信息范圍描述不清、超范圍采集個人信息和非必要采集個人信息等情形。據(jù)悉,今年以來,公安部“凈網(wǎng) 2019”專項行動,已查處違法違規(guī)采集個人信息的 APP 共 683 款。
監(jiān)管風(fēng)暴席卷而來。大數(shù)據(jù)行業(yè)內(nèi)人心惶惶,經(jīng)此一擊,許多大數(shù)據(jù)公司遭受重創(chuàng),大量數(shù)據(jù)接口被切斷,數(shù)據(jù)產(chǎn)品停售,部分公司業(yè)務(wù)部門解散、裁員,還有一些公司瀕臨倒閉。據(jù)一本財經(jīng)統(tǒng)計,或有上萬人因此離開大數(shù)據(jù)行業(yè)。
市場已是風(fēng)聲鶴唳。
一時間,人人聞“爬蟲”色變。白騎士、葫蘆數(shù)據(jù)、天機數(shù)據(jù)、立木征信、聚信立等大數(shù)據(jù)公司紛紛宣布暫停爬蟲業(yè)務(wù),還有的公司在幾天之內(nèi)火速將爬蟲業(yè)務(wù)從經(jīng)營業(yè)務(wù)范圍中“抹掉”,招聘“爬蟲工程師”的公告信息也被緊急撤下,一些爬蟲程序員因為擔(dān)憂是否游走在違法邊緣,頭發(fā)又多掉了幾根....
業(yè)內(nèi)有這樣一種說法,爬蟲貢獻了互聯(lián)網(wǎng) 50% 的流量,它對于互聯(lián)網(wǎng)的繁榮功不可沒。但該技術(shù)同時也因“用途”而充滿爭議。爬蟲是一項見不得“陽光”的技術(shù),它廣泛運用,卻少有人愿意承認在使用它。因為它常常被用作非法收集信息的工具,站上數(shù)據(jù)隱私、數(shù)據(jù)安全的對立面。
“爬蟲技術(shù)本身并無對錯,但要看怎么用,用錯了肯定違法啊”,一位程序員向 AI 前線表示,“技術(shù)無罪,關(guān)鍵在于人”。
網(wǎng)絡(luò)爬蟲是非常普遍的一種數(shù)據(jù)挖掘技術(shù),它是一種按照一定的規(guī)則,自動地抓取網(wǎng)絡(luò)信息的程序或者腳本。爬蟲技術(shù)最早主要運用在搜索引擎中,它滿足了人們的數(shù)據(jù)獲取、分析需求。早在 1995 年,為了不越“邊界”,互聯(lián)網(wǎng)搜索引擎與網(wǎng)頁持有者之間達成了一項“君子協(xié)定”— robot 協(xié)議,該協(xié)議規(guī)定了哪些信息該爬,哪些信息不該爬,20 多年來,該協(xié)議一直沿用至今。
在遵循 robot 協(xié)議的前提下使用爬蟲技術(shù)是沒有任何風(fēng)險的。但往往有些“作惡者”試圖越過紅線,一些大數(shù)據(jù)公司打著“大數(shù)據(jù)分析”的名頭違規(guī)違法爬取任何網(wǎng)頁及訪問用戶的數(shù)據(jù),致使“蟲災(zāi)”泛濫。
現(xiàn)在的爬蟲似乎無所不能,只要有賬號密碼都可以爬,包括電商平臺、外賣平臺、地圖、旅行網(wǎng)站、共享單車、等平臺的個人信息,用戶的通訊錄、上網(wǎng)地址、收貨地址、聊天記錄、搜索記錄、支付記錄,甚至央行的征信報告... 總之,一切皆可爬,還可進行定制化爬取。
在互聯(lián)網(wǎng)金融領(lǐng)域,上述數(shù)據(jù)主要被濫用于借貸、風(fēng)控環(huán)節(jié),具體多用在導(dǎo)流獲客和暴力催收上。除了支付寶爬蟲、微信爬蟲,甚至還有同業(yè)爬蟲,同業(yè)爬蟲即爬取同行的信息。據(jù)了解,摩羯科技曾推出該款產(chǎn)品,其要求借貸者提供在其它平臺上的用戶名與密碼,并通過爬蟲爬來競品的貸款額度及還款記錄,這樣便相當(dāng)于剽竊了同行的風(fēng)控成果。
今年 3 月,號稱擁有中國最大的簡歷數(shù)據(jù)庫的巧達科技被警方一鍋端,該公司的簡歷數(shù)據(jù)庫全部是通過非法手段爬取而來,非法獲取的簡歷超過 2 億條,它將簡歷庫以 13800 元每年的價格出售
非法獲利,光是 2017 年,巧達科技憑此業(yè)務(wù)營收高達 4.11 億元。泄露、買賣、濫用,這些違規(guī)收集來的數(shù)據(jù)被肆無忌憚的曝光、出售,令用戶信息猶如在裸奔,嚴重侵犯了用戶個人隱私。
爬蟲也是一項“矛盾”的技術(shù)。爬與反爬的“斗爭”每天都在上演,力量此消彼長。
據(jù)一位資深程序員介紹,現(xiàn)在比較常見的反爬蟲技術(shù)手段主要有,檢測 Header 信息;設(shè)置 IP 訪問頻率,分析同一 IP 或同一設(shè)備在短時間內(nèi)多次訪問同一頁面或進行相同操作;識別 UA、通過動態(tài)頁面增加爬取難度等方式。
這幾年,隨著隨著 AI 的發(fā)展,一些機器學(xué)習(xí)、canvas 指紋等智能反爬蟲技術(shù)也被運用起來。例如,騰訊云網(wǎng)站管家 WAF 就將 AI 檢測引擎能力,運用到了爬蟲 Bot 程序檢測的環(huán)節(jié)上,AI 引擎能夠?qū)φ军c訪問流量的會話進行追蹤,通過流量畫像,匹配行為模型及行為標(biāo)簽進行識別,進而識別出爬蟲 Bot 程序流量行為。
今年 5 月,被稱為“中國版 GDPR”的《數(shù)據(jù)安全管理辦法》征求意見稿發(fā)布,第 16 條規(guī)定,網(wǎng)絡(luò)運營者采取自動化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運行;如自動化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動化訪問收集時,應(yīng)當(dāng)停止。
一位業(yè)內(nèi)人士認為,技術(shù)只是工具,在獲取數(shù)據(jù)時需要考慮數(shù)據(jù)到底有沒有獲得授權(quán),需要幾方授權(quán),在拿到用戶授權(quán)的情況下,有沒有拿到網(wǎng)站等數(shù)據(jù)來源方的授權(quán),這其中涉及到的權(quán)責(zé)邊界應(yīng)該更明確。
隨著監(jiān)管越來越嚴格,爬蟲技術(shù)的使用邊界也將更加明晰?;ヂ?lián)網(wǎng)從業(yè)者應(yīng)當(dāng)懷有敬畏之心,要時時注意不要觸碰邊界,畢竟,爬蟲只是技術(shù),灰色的是“助惡者”。
整頓風(fēng)波揭開了大數(shù)據(jù)灰色產(chǎn)業(yè)鏈的冰山一角,也將大數(shù)據(jù)行業(yè)高光背后的暗影一并曝在了陽光下。
伴隨著互聯(lián)網(wǎng) + 迅速成為潮流,以及深度學(xué)習(xí)推動下的第三次人工智能熱潮,大數(shù)據(jù)技術(shù)備受追捧,”得數(shù)據(jù)者得天下“是一度被風(fēng)口裹挾著的大數(shù)據(jù)產(chǎn)業(yè)的繁榮寫照。
金融大數(shù)據(jù)是大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用最廣的領(lǐng)域之一。2013 年前后,互聯(lián)網(wǎng)金融開啟了發(fā)展元年,一大批 P2P、第三方支付等互金平臺涌現(xiàn)。P2P 平臺一騎絕塵,但缺乏數(shù)據(jù)能力、風(fēng)控能力差是其發(fā)展掣肘之一,如此一來,就為第三方數(shù)據(jù)公司提供了誕生的契機。
同盾科技便是彼時的入局者之一。2013 年,時任阿里巴巴集團安全部技術(shù)總監(jiān)的蔣韜還曾因離職創(chuàng)辦同盾科技在業(yè)內(nèi)引起一番不小的轟動。成立當(dāng)年,同盾科技便拿到了來自 IDG 資本和華創(chuàng)資本的 A 輪融資。AI 前線查詢天眼查顯示,同盾科技自成立以來已獲 6 輪融資,除 2018 年外,幾乎每年都有融資,最近的一次是在今年 4 月完成的超 1 億美元 D 輪融資,估值近 20 億美元。
有數(shù)據(jù)統(tǒng)計,2013 年到 2015 年,中國市場上 P2P 網(wǎng)貸平臺數(shù)量從 800 家增長至 2595 家,累計交易規(guī)模超過 11.4 萬億。另據(jù)億歐智庫《2018 中國智能風(fēng)控研究報告》顯示,截至去年年底,573 家金融風(fēng)控企業(yè)共獲得投資金額超過 1000 億元,其中三成企業(yè)獲得三次及以上的投資。這些企業(yè)中,有 69.8% 成立于 2013 年 -2017 年。
最近兩年,金融科技成為 P2P 熱潮落幕后新的創(chuàng)投風(fēng)口,再次助推大數(shù)據(jù)產(chǎn)業(yè)發(fā)展走向新的高潮,同盾科技、51 信用卡等大數(shù)據(jù)公司也躍升為明星獨角獸。
在草莽生長的早期階段,不少大數(shù)據(jù)公司趁機鉆了法律不完善的空子,其數(shù)據(jù)業(yè)務(wù)游走在道德和法律邊緣。自 2015 年以來的多次監(jiān)管動作也無不為從業(yè)機構(gòu)敲響警鐘 — 要合規(guī)化使用數(shù)據(jù)。
在很大程度上,這些 P2P 網(wǎng)貸平臺與第三方數(shù)據(jù)公司是“相互成就”的關(guān)系。而一榮俱榮,一損俱損,當(dāng)監(jiān)管“緊箍咒”收緊之后,大數(shù)據(jù)產(chǎn)業(yè)也迎來了洗牌階段。“那些能夠滿足政策及市場客戶需求的團隊,肯定會越做越好,而那些無法真正滿足需求的,將面臨淘汰”,一位大數(shù)據(jù)行業(yè)從業(yè)者向 AI 前線表示。
某頭部互聯(lián)網(wǎng)消費金融平臺的大數(shù)據(jù)負責(zé)人表示,這次的監(jiān)管行動從產(chǎn)品— 爬蟲技術(shù)—相關(guān)的數(shù)據(jù)方— 網(wǎng)貸平臺,可以說是一條鏈?zhǔn)降牟樘?。盡管有些嚴格,但如果不經(jīng)過整治, 行業(yè)內(nèi)存在的“缺乏明確規(guī)則”的問題就很難作出改變。一些大數(shù)據(jù)公司“單純”的認為自己只是給甲方做數(shù)據(jù)服務(wù),即便出了問題,也事不關(guān)己。但現(xiàn)在來看,這些權(quán)責(zé)是需要進一步明確的。
漸入寒冬深處,結(jié)局也格外凄冷。
一些重度依賴爬蟲業(yè)務(wù)的大數(shù)據(jù)公司輕則業(yè)務(wù)停滯,重則或?qū)⒁虼说瓜?,即便能勉強活下來的恐怕也要被迫轉(zhuǎn)型。另一方面,一些 AI 公司、金融科技公司也會受到不同程度的影響,沒有了大量數(shù)據(jù)持續(xù)“投喂”,模型該如何迭代優(yōu)化?
“有時候市場表面上的虛假繁榮是難以持續(xù)的,泡沫總有一天要被戳破。這次監(jiān)管風(fēng)暴對小機構(gòu)來說,以后可能更難做了,對一些大機構(gòu)會有一定影響,但可能影響沒那么大,優(yōu)勝劣汰會加劇。大浪淘沙后留下來的是那些對用戶來說定價更低、體驗更好的產(chǎn)品,而淘汰掉的絕大部分是那些不合規(guī)的企業(yè)。因此,從長期來看,通過強監(jiān)管之后,大數(shù)據(jù)行業(yè)會更合規(guī),總體來說對用戶會更友好”,上述大數(shù)據(jù)負責(zé)人繼續(xù)說道。
一位第三方數(shù)據(jù)公司的高管對形勢感到樂觀,她認為,這次監(jiān)管風(fēng)暴對行業(yè)的健康發(fā)展是有利的,監(jiān)管介入、政策出臺,這都在引導(dǎo)行業(yè)往好的方向發(fā)展,數(shù)據(jù)采標(biāo)清洗質(zhì)檢等流程會逐漸趨向標(biāo)準(zhǔn)化、合規(guī)化、安全化,進而提高大數(shù)據(jù)行業(yè)的進入門檻,并倒逼從業(yè)者提升服務(wù)質(zhì)量。
一半是海水,一半是火焰,值得一提的是,一些具有國企背景的大數(shù)據(jù)公司逆勢成為行業(yè)里的“香餑餑”。那些不合規(guī)的企業(yè)終將湮沒不斷滾滾向前的歷史洪流中,未來的大數(shù)據(jù)產(chǎn)業(yè)屬于合規(guī)的參與者。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03