基於多分類器架構的數據流中概念漂移的研究論文(pdf 61頁)
基於多分類器架構的數據流中概念漂移的研究論文(pdf 61頁)內容簡介
基於多分類器架構的數據流中概念漂移的研究論文內容提要:
近幾年,數據流在股票交易、網絡流量監控、網絡安全監控、電信通信記錄、
傳感器網絡等許多領域有著廣泛的應用。簡單地說,數據流是無限的、連續的、
快速的、實時的數據集合。由於這些特點,傳統的數據挖掘技術無法用於數據流
的處理。這就為數據流挖掘技術的發展帶來了機遇。
數據流中概念漂移的檢測是當前數據挖掘領域的重要研究分支,近年來得到
廣泛的關注。所謂概念漂移是指由於潛在信息的變化而導致目標概念發生根本性
變化的現象。當前概念漂移方法還存在需要解決的問題有:
(1)當前大多數概念漂移檢測模型或算法是基於批處理方式的,不能夠適應
數據流中概念在短時間內的快速變化,一些小的快速變化的概念可能會被大的成
塊的概念所“淹沒”。
(2)批處理的方式一般需要大容量的訓練數據,因此在隻有少量訓練樣本的
數據流情況時,可能會導致算法的精確度下降。
(3)目前已經出現了增量式多分類器算法,但是它們在技術上仍然不成熟,
方法和實驗手段上仍然需要繼續研究和探討。
本文針對這些問題,提出了一種稱為ICEA(Incremental CIassification
Ensemble Algorithm)的數據流挖掘算法。並從理論上給出了分析結果。它利用
集成分類器綜合技術,實現了數據流中概念漂移的增量式檢測和挖掘。實驗結果
表明,對比已有的算法,ICEA算法在處理數據流的快速概念漂移上表現出更高
的精確度和較好的時間效率。
..............................
近幾年,數據流在股票交易、網絡流量監控、網絡安全監控、電信通信記錄、
傳感器網絡等許多領域有著廣泛的應用。簡單地說,數據流是無限的、連續的、
快速的、實時的數據集合。由於這些特點,傳統的數據挖掘技術無法用於數據流
的處理。這就為數據流挖掘技術的發展帶來了機遇。
數據流中概念漂移的檢測是當前數據挖掘領域的重要研究分支,近年來得到
廣泛的關注。所謂概念漂移是指由於潛在信息的變化而導致目標概念發生根本性
變化的現象。當前概念漂移方法還存在需要解決的問題有:
(1)當前大多數概念漂移檢測模型或算法是基於批處理方式的,不能夠適應
數據流中概念在短時間內的快速變化,一些小的快速變化的概念可能會被大的成
塊的概念所“淹沒”。
(2)批處理的方式一般需要大容量的訓練數據,因此在隻有少量訓練樣本的
數據流情況時,可能會導致算法的精確度下降。
(3)目前已經出現了增量式多分類器算法,但是它們在技術上仍然不成熟,
方法和實驗手段上仍然需要繼續研究和探討。
本文針對這些問題,提出了一種稱為ICEA(Incremental CIassification
Ensemble Algorithm)的數據流挖掘算法。並從理論上給出了分析結果。它利用
集成分類器綜合技術,實現了數據流中概念漂移的增量式檢測和挖掘。實驗結果
表明,對比已有的算法,ICEA算法在處理數據流的快速概念漂移上表現出更高
的精確度和較好的時間效率。
..............................
用戶登陸
數據倉熱門資料
數據倉相關下載