數據預處理概述(PPT 1114頁)
- 所屬分類:
- bi商務智能
- 文件大小:
- 4427 KB
- 下載地址:
- 相關資料:
- 預處理
數據預處理概述(PPT 1114頁)內容簡介
4. 數據預處理
為什麼要進行數據挖掘?
為什麼數據預處理重要?
數據預處理的主要內容:
數據預處理的主要內容
一、原始數據的表述
二、數據清理——缺失值的填補
例:
均值填補:
(二)異常值(孤立點)探測
異常值的探測方法
第二,基於距離的異常點檢測(二維以上數據)
異常值探測的應用
三、數據變換
為什麼要進行標準化?
1、小數縮放
3、標準差規範化(z-score規範化)
為什麼要進行數據的平滑?
1、分箱
2、回歸
3、通過自然劃分分段
Example
為什麼要進行數據概化?
四、元組的歸約
1、有監督離散化和無監督離散化
2、動態和靜態離散化
3、自頂向下和自底向上
4、局部和全局離散化
(二)典型離散化的過程
(三)離散化方法的評價
(四)具體的離散化方法
進行重新分組:使得每個區間的頻數大於12
2、聚類
3、基於熵的離散化方法
貪心算法
基於熵的離散化方法
舉例:iris樣本集的具體步驟
4、chimerge算法
應用
具體步驟:
五、屬性的歸約
1、主成分分析(因子分析)
2、因子分析
主成分分析和因子分析的對比
主成份分析和因子分析的優點
3、聚類分析——K均值聚類分析
(二)屬性子集的選擇
1、搜索策略
2、屬性子集選擇中的評價函數
3、評價函數的要求
4、模式識別中基於距離的評價函數
屬性子集選擇方法的應用
..............................
為什麼要進行數據挖掘?
為什麼數據預處理重要?
數據預處理的主要內容:
數據預處理的主要內容
一、原始數據的表述
二、數據清理——缺失值的填補
例:
均值填補:
(二)異常值(孤立點)探測
異常值的探測方法
第二,基於距離的異常點檢測(二維以上數據)
異常值探測的應用
三、數據變換
為什麼要進行標準化?
1、小數縮放
3、標準差規範化(z-score規範化)
為什麼要進行數據的平滑?
1、分箱
2、回歸
3、通過自然劃分分段
Example
為什麼要進行數據概化?
四、元組的歸約
1、有監督離散化和無監督離散化
2、動態和靜態離散化
3、自頂向下和自底向上
4、局部和全局離散化
(二)典型離散化的過程
(三)離散化方法的評價
(四)具體的離散化方法
進行重新分組:使得每個區間的頻數大於12
2、聚類
3、基於熵的離散化方法
貪心算法
基於熵的離散化方法
舉例:iris樣本集的具體步驟
4、chimerge算法
應用
具體步驟:
五、屬性的歸約
1、主成分分析(因子分析)
2、因子分析
主成分分析和因子分析的對比
主成份分析和因子分析的優點
3、聚類分析——K均值聚類分析
(二)屬性子集的選擇
1、搜索策略
2、屬性子集選擇中的評價函數
3、評價函數的要求
4、模式識別中基於距離的評價函數
屬性子集選擇方法的應用
..............................
用戶登陸
bi商務智能熱門資料
bi商務智能相關下載