大數據應用基礎-數據挖掘流程(PPT 77頁)
大數據應用基礎-數據挖掘流程(PPT 77頁)內容簡介
主要內容
數據挖掘流程
數據挖掘的基本流程
高度重視以下同義詞
數據預處理
數據預處理的步驟
數據質量有很多方麵問題
數據準備
數據準備的重要性
數據集成
數據集成中的實體識別問題
數據集成中屬性值不一致的問題
數據集成中的數據值格式不一致問題
數據集成中的屬性冗餘問題
數據探索
數據探索的方法
數據清理(數據預處理)
數據清理
缺失值
缺失值的成因
缺失值的處理方法
數據噪聲
識別數據噪聲
處理數據噪聲
識別異常個案
處理異常個案
識別異常值
重複數據
數據轉換
數據轉換——離散化
數據轉換——產生衍生變量
數據轉換——使變量分布更接近正態分布
數據標準化
數據歸約
數據歸約——抽樣
數據歸約——不平衡數據的抽樣
數據歸約——屬性篩選
屬性篩選的方法
屬性篩選的方法——線性相關性
屬性篩選的方法——互信息
屬性篩選的方法——R平方
屬性篩選的方法——特征抽取法
屬性篩選的方法——主成分分析
後續步驟
數據挖掘
評估
分類算法評估的主要宗旨
分類算法評估——一個比喻
分類算法評估——混淆矩陣
分類算法評估—— ROC曲線
分類算法評估——Lift曲線
分類算法評估——成本收益分析
分類算法評估——其他
分類算法評估的目的
知識表示
數據挖掘結果的應用和效果評估
數據挖掘是一個反複循環的過程
分類的一個常見問題——過度擬合
如何避免過度擬合?
..............................
用戶登陸
大數據熱門資料
大數據相關下載