2018-10-20
閱讀量:
1156
列出數(shù)據(jù)清理的最佳實踐?
1)按不同的屬性排序數(shù)據(jù)
2)對于大數(shù)據(jù)集,逐步清理并改進數(shù)據(jù),直到獲得良好的數(shù)據(jù)質量
3)對大型數(shù)據(jù)集,可以先將其分解為小數(shù)據(jù)集,使用更少的數(shù)據(jù)將增加迭代速度
4)要處理常見的清理任務,請創(chuàng)建一組實用程序函數(shù)/工具/腳本。它可能包括基于CSV文件或SQL數(shù)據(jù)庫重映射值,或者正則表達式搜索和替換,消除所有不匹配正則表達式的值
5)如果在數(shù)據(jù)清理方面存在問題,請按照估計的頻率進行安排并解決問題
6)分析每列的匯總統(tǒng)計數(shù)據(jù)(標準差,均值,缺失值的數(shù)量)
7)保持對每一個清理操作的跟蹤,以便可以根據(jù)需要更改或刪除操作






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論