數據挖掘技術概述(PPT 145頁)
- 所屬分類:
- 大數據
- 文件大小:
- 3723 KB
- 下載地址:
- 相關資料:
- 數據挖掘技術
主要內容
數據挖掘概覽
數據預處理
分類(Classification)
聚類(Cluster)
關聯規則(Association Rule)
回歸(Regression)
數據挖掘概覽
數據挖掘定義
模式有效性度量
為何需要數據挖掘?
數據挖掘的意義
數據挖掘應用
數據挖掘步驟
數據質量:為何需要數據預處理?
數據挖掘預處理的主要任務
數據清洗
缺失值(Incomplete/Missing Data)
如何補充缺失值
噪聲數據
如何處理噪聲數據
分箱(Binning)
數據平滑的分箱方法
聚類:Cluster Analysis
Regression
數據集成
數據變換(規範化)
數據變換
數據規約
數據立方體
屬性子集選擇
維度規約
數值規約
離散化
抽樣
分類
分類應用
分類步驟
(1)模型的構建
(2)利用模型分類
分類方法評價
分類器性能評價方式
評估分類方法的準確性
分類方法
基於距離的分類方法
基於距離的分類方法的直觀解釋
距離計算方法
基於距離的分類方法的一般性描述
K近鄰算法(KNN)
決策樹(Decision Tree)
決策樹
決策樹的步驟
分裂屬性選擇
信息增益的計算
決策樹算法
決策樹分類規則提取
貝葉斯分類
樸素貝葉斯分類
樸素貝葉斯分類舉例
聚類:Cluster
聚類圖示
聚類與分類的區別
聚類分析
K-means
初始值敏感
K-mediods步驟
聚類方法性能評價
聚類評價
常用的相似性度量方法
相似性度量方法
DBSCAN
基於密度方法的聚類- DBSCAN
DBSCAN聚類過程
關聯規則
關聯規則:Association Rule
規則度量:支持度與可信度
經典的發現頻繁項目集算法
Apriori算法例子
Rule-generate算法例子
算法問題
FP-tree算法的基本原理
序列模式概念
序列模式表示
序列模式挖掘
序列模式挖掘算法
預測:Prediction
分類vs.預測
回歸方法(Regression)
大型數據庫中描述統計計量
度量中心趨勢
度量數據的離散度
盒圖-示例
基本統計類描述的圖像顯示-直方圖
..............................