
文章插圖
簡述數據預處理的內容是:
【簡述數據預處理的作用和主要過程? 簡述數據預處理的主要步驟】
數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理 。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算 。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等 。現實世界中數據大體上都是不完整,不一致的 臟數據,無法直接進行數據挖掘,或挖掘結果差強人意 。為了提高數據挖掘的質量產生了數據預處理技術 。
數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等 。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間 。數據清理例程通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性來“清理”數據 。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重復數據的清除 。數據集成例程將多個數據源中的數據結合起來并 統一存儲,建立數據倉庫的過程實際上就是數據集成 。通過平滑聚集,數據概化,規范化等方式將數據轉換成適用于數據挖掘的形式 。數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近于保持原數據的完整性,并結果與歸約前結果相同或幾乎相同 。數據預處理是數據挖掘一個熱門的研究方面,畢竟這是由數據預處理的產生背景所決定的,現實世界中的數據幾乎都臟數據 。
- 關于浙江新途建設有限公司簡述 浙江新途建設有限公司
- 關于最推理 第2輯簡述 最推理 第2輯
- 關于浙江新課堂教育咨詢有限公司簡述 浙江新課堂教育咨詢有限公司
- 關于曾通村簡述 曾通村
- 關于浙江新詩史簡述 浙江新詩史
- 關于曾迪琰詩集靈感錄:一九字格體詩一百首簡述 曾迪琰詩集靈感錄:一九字格體詩一百首
- 關于浙江新藍科技有限公司簡述 浙江新藍科技有限公司
- 關于浙江新能量科技有限公司簡述 浙江新能量科技有限公司
- 關于最挑戰想象力的貼紙書:各種各樣的形狀簡述 最挑戰想象力的貼紙書:各種各樣的形狀
- 關于浙江新聯控股股份有限公司簡述 浙江新聯控股股份有限公司
