
如何采集和分析法律大數(shù)據(jù)_數(shù)據(jù)分析師培訓(xùn)
第一步 數(shù)據(jù)采集與歸類
在中國(guó)裁判文書(shū)網(wǎng)采集裁判文書(shū),目前是不能直接進(jìn)行復(fù)制的,即使采取某些技術(shù)手段復(fù)制了,也需要重新建立文檔進(jìn)行粘貼、為文檔重命名??赡苣X(jué)得沒(méi)神馬,但這樣來(lái)回重復(fù)幾千下還是讓人崩潰呀。(自我反省,我是不是太懶了?)可有什么方法可以簡(jiǎn)便快速的搞定裁判文書(shū)的采集呢?
1、安裝印象筆記
請(qǐng)保證您的電腦上(不分系統(tǒng))有印象筆記,紅圈中可愛(ài)的小象就是印象筆記了。
2、按照省份新建若干筆記本
對(duì)實(shí)現(xiàn)擔(dān)保物權(quán)特別程序的大數(shù)據(jù)分析,少不了要區(qū)分省份進(jìn)行對(duì)比,因此,我以省份為項(xiàng)新建了若干筆記本,這些筆記本又組成一個(gè)實(shí)現(xiàn)擔(dān)保物權(quán)的筆記本組。以后我對(duì)實(shí)現(xiàn)擔(dān)保物權(quán)采集的全部素材就統(tǒng)統(tǒng)包含在這個(gè)筆記本組里了。
3、安裝印象筆記剪藏功能,使之能在瀏覽器上進(jìn)行裁判文書(shū)采集分類
圖片中黃色圈部分就是印象筆記的剪藏功能按鈕了。如圖,我在瀏覽器上將需要收集的裁判文書(shū)打開(kāi),點(diǎn)擊黃圈部分剪藏功能按鈕,然后就會(huì)出現(xiàn)圖右邊印象筆記對(duì)話框。確定綠點(diǎn)選定在藍(lán)色圈的“網(wǎng)頁(yè)正文”選項(xiàng)上,然后按照裁判文書(shū)省份選定之前新建的筆記本,最后點(diǎn)擊確認(rèn)。
這樣,越過(guò)了裁判文書(shū)網(wǎng)無(wú)法復(fù)制的障礙,拋棄了重復(fù)復(fù)制、粘貼、建立文檔等繁雜步驟,每份裁判只需要輕點(diǎn)幾下就乖乖收入到了我的印象筆記實(shí)現(xiàn)擔(dān)保物權(quán)筆記本組中,并且已經(jīng)按照省份做好了分類。
例如,在安徽省筆記本中,每份裁定書(shū)自動(dòng)成為一條筆記,紅色部分自動(dòng)統(tǒng)計(jì)該筆記本中的筆記條數(shù),說(shuō)明安徽省共116份裁定文書(shū)(幫我省了統(tǒng)計(jì)各省案件數(shù)量的活)。
自此,裁判文書(shū)的收集、分類完成。在有印象筆記軟件的電腦、手機(jī)、ipad上,只要我登陸自己的賬戶,就可以查看收集全部裁判文書(shū),隨時(shí)隨地工作。
第二步 分項(xiàng)統(tǒng)計(jì)及分析
1、分析項(xiàng)信息錄入
本次實(shí)現(xiàn)擔(dān)保物權(quán)大數(shù)據(jù)報(bào)告,我們?cè)O(shè)定了15個(gè)BI分析項(xiàng),包括申請(qǐng)人性質(zhì)、擔(dān)保物權(quán)類型、審理形式、是否進(jìn)行財(cái)產(chǎn)保全等。這個(gè)時(shí)候,excel出場(chǎng)了。
如圖黃色部分,我將需要分析的項(xiàng)在excel的第一行列出,并將每個(gè)省份作為一個(gè)工作表(紅色部分),在數(shù)據(jù)分析軟件excel中錄入分析信息。更好的是,有時(shí)候需要直接復(fù)制裁判文書(shū)內(nèi)容到excel中,印象筆記完全可以滿足我。注意,分析表中沒(méi)有案號(hào)一項(xiàng),我認(rèn)為案號(hào)的錄入也是相當(dāng)大的工作量(再次自省,是不是太懶了?),那如何解決?
2、不用單獨(dú)費(fèi)力錄入案號(hào),印象筆記來(lái)幫忙
如何將excel的每個(gè)案件信息與印象筆記中的每份裁判相對(duì)應(yīng)?如果靠excel最左列數(shù)字,用數(shù)的方法對(duì)應(yīng)印象筆記中的裁判文書(shū)順序,第19份還好,第99份呢,第199份呢、甚至第1999份呢?
這個(gè)問(wèn)題,印象筆記目錄功能可以解決。
以廣東省為例,將廣東省筆記本內(nèi)的筆記全選(快捷鍵:蘋果系統(tǒng)command+A,windows系統(tǒng)下control+A),就會(huì)出現(xiàn)右邊紅色部分“創(chuàng)建目錄”,點(diǎn)擊創(chuàng)建目錄。這樣,廣東省的全部裁判文書(shū)就按照順序形成如下的目錄筆記。
在這樣的操作下,需要您保證excel分析信息錄入是按照每個(gè)筆記本中的每條筆記順序進(jìn)行的,則excel的行號(hào)減1(第一行是分析項(xiàng)名稱)就與目錄中的紅色圈中的數(shù)字對(duì)應(yīng)。找到對(duì)應(yīng)的目錄數(shù)字后,只需要輕輕一點(diǎn)目錄數(shù)字后面綠色部分,印象筆記自動(dòng)為您跳轉(zhuǎn)到該條筆記,無(wú)需您費(fèi)力在幾百甚至上千個(gè)案例中尋找。
3、篩選器,只看想看到的信息
信息錄入后,要對(duì)各項(xiàng)信息進(jìn)行歸納、分析、統(tǒng)計(jì),篩選器在這個(gè)時(shí)候堪比貼心小棉襖。如圖紅色部分,對(duì)第一行分析項(xiàng)設(shè)置數(shù)據(jù)下的篩選器功能,這樣在分析項(xiàng)中就會(huì)出現(xiàn)下拉三角形標(biāo)志。
如下圖,如果我需要統(tǒng)計(jì)該省份采用合議庭進(jìn)行審理的案件數(shù)量,點(diǎn)擊篩選器的下拉三角形,勾選合議,則表中僅出現(xiàn)審理形式為合議庭的案件信息。這樣,分析、統(tǒng)計(jì)變得一目了然。
解決了裁判文書(shū)采集、歸類,信息錄入及篩選,您的大數(shù)據(jù)分析準(zhǔn)備工作已經(jīng)基本完畢。接下來(lái),就是利用收集的裁判文書(shū)、通過(guò)分析項(xiàng)信息的對(duì)比、統(tǒng)計(jì),進(jìn)行成果提煉、分析等工作,最后形成大數(shù)據(jù)報(bào)告。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過(guò)程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見(jiàn)需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無(wú)論 ...
2025-07-16解析 MySQL Update 語(yǔ)句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫(kù)的日常運(yùn)維與開(kāi)發(fā)中,開(kāi)發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11