數據挖掘中常用的數據清洗方法 數據清洗的方法包括哪些


【數據挖掘中常用的數據清洗方法 數據清洗的方法包括哪些】
數據清洗技術有哪些數據清洗是指在數據集中發現不準確、不完整或不合理數據 , 并對這些數據進行修補或移除以提高數據質量的過程 。而通常來說 , 數據清洗框架由5個步驟構成 , 第一就是定義錯誤類型 , 第二就是搜索并標識錯誤實例 , 第三就是改正錯誤 , 第四就是文檔記錄錯誤實例和錯誤類型 , 第五就是修改數據錄入程序以減少未來的錯誤 。
清洗數據有三個方法 , 分別是分箱法、聚類法、回歸法 。這三種方法各有各的優勢 , 能夠對噪音全方位的清理 。分箱法是一個經常使用到方法 , 所謂的分箱法 , 就是將需要處理的數據根據一定的規則放進箱子里 , 然后進行測試每一個箱子里的數據 , 并根據數據中的各個箱子的實際情況進行采取方法處理數據 。
怎么分箱 , 我們可以按照記錄的行數進行分箱 , 使得每箱有一個相同的記錄數 。或者我們把每個箱的區間范圍設置一個常數 , 這樣我們就能夠根據區間的范圍進行分箱 。其實我們也可以自定義區間進行分箱 。這三種方式都是可以的 。分好箱號 , 我們可以求每一個箱的平均值 , 中位數、或者使用極值來繪制折線圖 , 一般來說 , 折線圖的寬度越大 , 光滑程度也就越明顯 。
數據挖掘中常用的數據清洗方法有哪些數據清洗目的主要有:
①解決數據質量問題;
②讓數據更適合做挖掘;
數據清洗是對數據審查過程中發現的明顯錯誤值、缺失值、異常值、可疑數據 , 選用一定方法進行“清洗” , 為后續的數據分析做準備 。
數據清洗的方法有:
①數據數值化
對存在各種不同格式的數據形式的原始數據 , 對其進行標準化操作 。對字符串取值 , 按照ANSI碼值求和得到字符串的值 , 如果值太大 , 取一個適當的質數對其求模 。
②標準化 normalization
對整體數據進行歸一化工作 , 利用min-max標準化方法將數據都映射到一個指定的數值區間 。
③數據降維
原始數據存在很多維度 , 使用主成分分析法對數據的相關性分析來降低數據維度 。
④數據完整性
數據完整性包括數據缺失補數據和數據去重;
補全數據的方法有:


  1. 通過身份證件號碼推算性別、籍貫、出生日期、年齡(包括但不局限)等信息補全;

  2. 通過前后數據補全;

  3. 實在補不全的 , 對數據進行剔除 。


數據去重的方法有:

  1. 用sql或者excel“去除重復記錄”去重;

  2. 按規則去重 , 編寫一系列的規則 , 對重復情況復雜的數據進行去重 。


數據清洗有哪些方法數據清洗有兩種辦法 , 第一種是物理辦法 , 直接通過對磁盤內信息的格式化重新加入新的數據 , 可以把原先的數據清洗掉 。
數據挖掘中常用的數據清洗方法數據挖掘中常用的數據清洗方法
對于數據挖掘來說 , 80%的工作都花在數據準備上面 , 而數據準備 , 80%的時間又花在數據清洗上 , 而數據清洗的工作 , 80%又花在選擇若干種適當高效的方法上 。用不同方法清洗的數據 , 對后續挖掘的分析工作會帶來重大影響 。
1、數值化
由于原始數據往往存在各種不同格式的數據形式 , 比如如果你要處理的數據是數值型 , 但是原始數據也許有字符型或者其他 , 那就要對其進行標準化操作 。處理的方式可以很簡單也可以很復雜 , 我采取過的一個方法是:對字符串取值 , 按照ANSI碼值求和得到字符串的值 , 如果值太大 , 可以取一個適當的質數對其求模 , 本質上就是映射到一個區間了 。然后就得到數值型的數據了 。
2、標準化 normalization
由于原始數據各個維度之間的數值往往相差很大 , 比如一個維度的最小值是0.01 , 另一個維度最小值卻是1000 , 那么也許在數據分析的時候 , 計算相關性或者方差啥的指標 , 后者會掩蓋了前者的作用 。因此有必要對整體數據進行歸一化工作 , 也就是將它們都映射到一個指定的數值區間 , 這樣就不會對后續的數據分析產生重大影響 。我采取過的一個做法是:min-max標準化 。
3、降維
由于原始數據往往含有很多維度 , 也就是咱們所說的列數 。比如對于銀行數據 , 它往往就含有幾十個指標 。這些維度之間往往不是獨立的 , 也就是說也許其中之間若干的維度之間存在關聯 , 也許有他就可以沒有我 , 因此咱們可以使用數據的相關性分析來降低數據維度 。我使用過的一個方法是:主成分分析法 。
4、完整性:
解決思路:數據缺失 , 那么補上就好了 。
補數據有什么方法?
- 通過其他信息補全 , 例如使用身份證件號碼推算性別、籍貫、出生日期、年齡等
- 通過前后數據補全 , 例如時間序列缺數據了 , 可以使用前后的均值 , 缺的多了 , 可以使用平滑等處理 , 記得Matlab還是什么工具可以自動補全
- 實在補不全的 , 雖然很可惜 , 但也必須要剔除 。但是不要刪掉 , 沒準以后可以用得上
- 解決數據的唯一性問題
解題思路:去除重復記錄 , 只保留一條 。
去重的方法有:
- 按主鍵去重 , 用sql或者excel“去除重復記錄”即可 , 
- 按規則去重 , 編寫一系列的規則 , 對重復情況復雜的數據進行去重 。例如不同渠道來的客戶數據 , 可以通過相同的關鍵信息進行匹配 , 合并去重 。
- 解決數據的權威性問題
解題思路:用最權威的那個渠道的數據
方法:
對不同渠道設定權威級別 , 例如:在家里 , 首先得相信媳婦說的 。。。
- 解決數據的合法性問題
解題思路:設定判定規則
- 設定強制合法規則 , 凡是不在此規則范圍內的 , 強制設為最大值 , 或者判為無效 , 剔除
- 字段類型合法規則:日期字段格式為“2010-10-10”
- 字段內容合法規則:性別 in (男、女、未知);出生日期<=今天
設定警告規則 , 凡是不在此規則范圍內的 , 進行警告 , 然后人工處理
- 警告規則:年齡》110
離群值人工特殊處理 , 使用分箱、聚類、回歸、等方式發現離群值
解決數據的一致性問題
解題思路:建立數據體系 , 包含但不限于:
- 指標體系(度量)
- 維度(分組、統計口徑)
- 單位
- 頻度
- 數據
數據清洗的方法有哪些?現如今 , 科技得到了空前發展 , 正是由于這個原因 , 很多科學技術得到大幅度的進步 。就在最近的幾年里 , 出現了很多的名詞 , 比如大數據、物聯網、云計算、人工智能等 。其中大數據的熱度是最高的 , 這是因為現在很多的行業積累了龐大的原始數據 , 通過數據分析可以得到對企業的決策有幫助的數據 , 而大數據技術能夠比傳統的數據分析技術更優秀 。但是 , 大數據離不開數據分析 , 數據分析離不開數據 , 海量的數據中有很多是我們我們需要的數據 , 也有很多我們不需要的數據 。正如世界上沒有完全純凈的東西 , 數據也會存在雜質 , 這就需要我們對數據進行清洗才能保證數據的可靠性 。一般來說 , 數據中是存在噪音的 , 那么噪音是怎么清洗的呢?我們就在這篇文章中給大家介紹一下數據清洗的方法 。
通常來說 , 清洗數據有三個方法 , 分別是分箱法、聚類法、回歸法 。這三種方法各有各的優勢 , 能夠對噪音全方位的清理 。分箱法是一個經常使用到方法 , 所謂的分箱法 , 就是將需要處理的數據根據一定的規則放進箱子里 , 然后進行測試每一個箱子里的數據 , 并根據數據中的各個箱子的實際情況進行采取方法處理數據 。看到這里很多朋友只是稍微明白了 , 但是并不知道怎么分箱 。如何分箱呢?我們可以按照記錄的行數進行分箱 , 使得每箱有一個相同的記錄數 。或者我們把每個箱的區間范圍設置一個常數 , 這樣我們就能夠根據區間的范圍進行分箱 。其實我們也可以自定義區間進行分箱 。這三種方式都是可以的 。分好箱號 , 我們可以求每一個箱的平均值 , 中位數、或者使用極值來繪制折線圖 , 一般來說 , 折線圖的寬度越大 , 光滑程度也就越明顯 。
回歸法和分箱法同樣經典 。回歸法就是利用了函數的數據進行繪制圖像 , 然后對圖像進行光滑處理 。回歸法有兩種 , 一種是單線性回歸 , 一種是多線性回歸 。單線性回歸就是找出兩個屬性的最佳直線 , 能夠從一個屬性預測另一個屬性 。多線性回歸就是找到很多個屬性 , 從而將數據擬合到一個多維面 , 這樣就能夠消除噪聲 。
聚類法的工作流程是比較簡單的 , 但是操作起來確實復雜的 , 所謂聚類法就是將抽象的對象進行集合分組 , 成為不同的集合 , 找到在集合意外的孤點 , 這些孤點就是噪聲 。這樣就能夠直接發現噪點 , 然后進行清除即可 。
關于數據清洗的方法我們給大家一一介紹了 , 具體就是分箱法、回歸法、聚類法 。每個方法都有著自己獨特的優點 , 這也使得數據清洗工作能夠順利地進行 。所以說 , 掌握了這些方法 , 有助于我們后面的數據分析工作 。
如何進行數據清洗數據清理是有一些步驟的 , 一般分為缺失值清洗 , 格式內容清洗 , 邏輯錯誤清洗 , 非需求數據清洗 , 關聯性驗證 。
缺失值是最常見的數據問題 , 處理缺失值也有很多方法 , 我建議按照以下四個步驟進行:1、確定缺失值范圍:對每個字段都計算其缺失值比例 , 然后按照缺失比例和字段重要性 , 分別制定策略 。
2、去除不需要的字段:這一步很簡單 , 直接刪掉即可 , 但強烈建議清洗每做一步都備份一下 , 或者在小規模數據上試驗成功再處理全量數據 。
3、填充缺失內容:某些缺失值可以進行填充 。
4、重新取數:如果某些指標非常重要又缺失率高 , 那就需要和取數人員或業務人員了解 , 是否有其他渠道可以取到相關數據 。
第二步:格式內容清洗
如果數據是由系統日志而來 , 那么通常在格式和內容方面 , 會與元數據的描述一致 。而如果數據是由人工收集或用戶填寫而來 , 則有很大可能性在格式和內容上存在一些問題 。
第三步:邏輯錯誤清洗
這部分的工作是去掉一些使用簡單邏輯推理就可以直接發現問題的數據 , 防止分析結果走偏 。
第四步:非需求數據清洗
這一步說起來非常簡單:把不要的字段刪了 。
但實際操作起來 , 有很多問題 。
第五步:關聯性驗證
如果你的數據有多個來源 , 那么有必要進行關聯性驗證 。例如 , 你有汽車的線下購買信息 , 也有電話客服問卷信息 , 兩者通過姓名和手機號關聯 , 要看一下同一個人線下登記的車輛信息和線上問卷問出來的車輛信息是不是同一輛 , 如果不是 , 那么需要調整或去除數據 。
關于數據清洗的方法和數據清洗的方法包括哪些的內容就分享到這兒!更多實用知識經驗 , 盡在 m.apearl.cn