
如何采集和分析法律大數(shù)據(jù)_數(shù)據(jù)分析師培訓
第一步 數(shù)據(jù)采集與歸類
在中國裁判文書網(wǎng)采集裁判文書,目前是不能直接進行復制的,即使采取某些技術手段復制了,也需要重新建立文檔進行粘貼、為文檔重命名??赡苣X得沒神馬,但這樣來回重復幾千下還是讓人崩潰呀。(自我反省,我是不是太懶了?)可有什么方法可以簡便快速的搞定裁判文書的采集呢?
1、安裝印象筆記
請保證您的電腦上(不分系統(tǒng))有印象筆記,紅圈中可愛的小象就是印象筆記了。
2、按照省份新建若干筆記本
對實現(xiàn)擔保物權特別程序的大數(shù)據(jù)分析,少不了要區(qū)分省份進行對比,因此,我以省份為項新建了若干筆記本,這些筆記本又組成一個實現(xiàn)擔保物權的筆記本組。以后我對實現(xiàn)擔保物權采集的全部素材就統(tǒng)統(tǒng)包含在這個筆記本組里了。
3、安裝印象筆記剪藏功能,使之能在瀏覽器上進行裁判文書采集分類
圖片中黃色圈部分就是印象筆記的剪藏功能按鈕了。如圖,我在瀏覽器上將需要收集的裁判文書打開,點擊黃圈部分剪藏功能按鈕,然后就會出現(xiàn)圖右邊印象筆記對話框。確定綠點選定在藍色圈的“網(wǎng)頁正文”選項上,然后按照裁判文書省份選定之前新建的筆記本,最后點擊確認。
這樣,越過了裁判文書網(wǎng)無法復制的障礙,拋棄了重復復制、粘貼、建立文檔等繁雜步驟,每份裁判只需要輕點幾下就乖乖收入到了我的印象筆記實現(xiàn)擔保物權筆記本組中,并且已經(jīng)按照省份做好了分類。
例如,在安徽省筆記本中,每份裁定書自動成為一條筆記,紅色部分自動統(tǒng)計該筆記本中的筆記條數(shù),說明安徽省共116份裁定文書(幫我省了統(tǒng)計各省案件數(shù)量的活)。
自此,裁判文書的收集、分類完成。在有印象筆記軟件的電腦、手機、ipad上,只要我登陸自己的賬戶,就可以查看收集全部裁判文書,隨時隨地工作。
第二步 分項統(tǒng)計及分析
1、分析項信息錄入
本次實現(xiàn)擔保物權大數(shù)據(jù)報告,我們設定了15個BI分析項,包括申請人性質、擔保物權類型、審理形式、是否進行財產保全等。這個時候,excel出場了。
如圖黃色部分,我將需要分析的項在excel的第一行列出,并將每個省份作為一個工作表(紅色部分),在數(shù)據(jù)分析軟件excel中錄入分析信息。更好的是,有時候需要直接復制裁判文書內容到excel中,印象筆記完全可以滿足我。注意,分析表中沒有案號一項,我認為案號的錄入也是相當大的工作量(再次自省,是不是太懶了?),那如何解決?
2、不用單獨費力錄入案號,印象筆記來幫忙
如何將excel的每個案件信息與印象筆記中的每份裁判相對應?如果靠excel最左列數(shù)字,用數(shù)的方法對應印象筆記中的裁判文書順序,第19份還好,第99份呢,第199份呢、甚至第1999份呢?
這個問題,印象筆記目錄功能可以解決。
以廣東省為例,將廣東省筆記本內的筆記全選(快捷鍵:蘋果系統(tǒng)command+A,windows系統(tǒng)下control+A),就會出現(xiàn)右邊紅色部分“創(chuàng)建目錄”,點擊創(chuàng)建目錄。這樣,廣東省的全部裁判文書就按照順序形成如下的目錄筆記。
在這樣的操作下,需要您保證excel分析信息錄入是按照每個筆記本中的每條筆記順序進行的,則excel的行號減1(第一行是分析項名稱)就與目錄中的紅色圈中的數(shù)字對應。找到對應的目錄數(shù)字后,只需要輕輕一點目錄數(shù)字后面綠色部分,印象筆記自動為您跳轉到該條筆記,無需您費力在幾百甚至上千個案例中尋找。
3、篩選器,只看想看到的信息
信息錄入后,要對各項信息進行歸納、分析、統(tǒng)計,篩選器在這個時候堪比貼心小棉襖。如圖紅色部分,對第一行分析項設置數(shù)據(jù)下的篩選器功能,這樣在分析項中就會出現(xiàn)下拉三角形標志。
如下圖,如果我需要統(tǒng)計該省份采用合議庭進行審理的案件數(shù)量,點擊篩選器的下拉三角形,勾選合議,則表中僅出現(xiàn)審理形式為合議庭的案件信息。這樣,分析、統(tǒng)計變得一目了然。
解決了裁判文書采集、歸類,信息錄入及篩選,您的大數(shù)據(jù)分析準備工作已經(jīng)基本完畢。接下來,就是利用收集的裁判文書、通過分析項信息的對比、統(tǒng)計,進行成果提煉、分析等工作,最后形成大數(shù)據(jù)報告。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11