網絡信息采集及智能處理技術研究(pdf 63頁)
網絡信息采集及智能處理技術研究(pdf 63頁)內容簡介
摘要。I
ABSTRACT.III
第一章緒論l
1.1研究背景及意義..1
1.2國內外研究現狀。2
1.3主要研究內容4
1.4論文的組織結構.4
第二章Web信息采集技術研究。6
2.1網絡爬蟲6
2.1.1通用爬蟲原理6
2.1.2通用爬蟲的不足9
2.1.3麵向主題的聚焦爬蟲.9
2.2網頁去重。l 0
2.2.1基於聚類的方法.1l
2.2.2消除相同的UI也11
2.2.3基於特征碼的方法ll
2.3信息抽取l 2
2.3.1HTML語法分析12
2.3.2信息抽取原理12
2.3.3基於正則表達式的信息抽取13
2.4集中式Web數據采集係統的基本結構14
第三章文本信息處理關鍵技術17
3.1中文分詞.1 7
3.1.1分詞中的難題..17
3.1.2分詞算法。l 7
3.2.文本的表示19
3.3文本特征選擇方法20
3.3.1文檔頻度20
3.3.2信息增益一20
3.3.3互信息.2l
3.3.4 Z2(CHI)統計.22
3.3.5基於同義詞合並的特征選擇23
3.4權重計算24
3.5常見分類算法。25
3.5.1貝葉斯方法.26
3.5.2決策樹方法26
3.5.3支持向量機分類算法..27
3.5.4K-最近鄰法28
第四章基於改進的KNN算法構造文本分類器29
4.1文本分類概述..29
4.2改進的KNN算法29
4.2.IKNN算法的不足29
4.2.2KNN算法的改進30
’4.3分類器的構造3 l
4.3.1文本分類係統結構3 l
4.3.1文本預處理.32
4.3.2訓練階段34
4.3.3分類階段34
4.4分類器的閾值選擇。35
第五章分類實驗結果與分析。37
5.1實驗環境37
5.2實驗語料庫37
5.2實驗評估指標.38
5.3實驗設計和結果分析38
5.3.1特征維數對分類效果的影響39
5.3.2 K值的選取對分類效果的影響。39
5.3.3改進的KNN算法與傳統KNN算法性能比較。40
總結與展望..4 l
工作總結4l
工作展望.4l
參考文獻43
攻讀碩士學位期間發表的論文46
獨創性聲明..47
致謝。48
VH
..............................
ABSTRACT.III
第一章緒論l
1.1研究背景及意義..1
1.2國內外研究現狀。2
1.3主要研究內容4
1.4論文的組織結構.4
第二章Web信息采集技術研究。6
2.1網絡爬蟲6
2.1.1通用爬蟲原理6
2.1.2通用爬蟲的不足9
2.1.3麵向主題的聚焦爬蟲.9
2.2網頁去重。l 0
2.2.1基於聚類的方法.1l
2.2.2消除相同的UI也11
2.2.3基於特征碼的方法ll
2.3信息抽取l 2
2.3.1HTML語法分析12
2.3.2信息抽取原理12
2.3.3基於正則表達式的信息抽取13
2.4集中式Web數據采集係統的基本結構14
第三章文本信息處理關鍵技術17
3.1中文分詞.1 7
3.1.1分詞中的難題..17
3.1.2分詞算法。l 7
3.2.文本的表示19
3.3文本特征選擇方法20
3.3.1文檔頻度20
3.3.2信息增益一20
3.3.3互信息.2l
3.3.4 Z2(CHI)統計.22
3.3.5基於同義詞合並的特征選擇23
3.4權重計算24
3.5常見分類算法。25
3.5.1貝葉斯方法.26
3.5.2決策樹方法26
3.5.3支持向量機分類算法..27
3.5.4K-最近鄰法28
第四章基於改進的KNN算法構造文本分類器29
4.1文本分類概述..29
4.2改進的KNN算法29
4.2.IKNN算法的不足29
4.2.2KNN算法的改進30
’4.3分類器的構造3 l
4.3.1文本分類係統結構3 l
4.3.1文本預處理.32
4.3.2訓練階段34
4.3.3分類階段34
4.4分類器的閾值選擇。35
第五章分類實驗結果與分析。37
5.1實驗環境37
5.2實驗語料庫37
5.2實驗評估指標.38
5.3實驗設計和結果分析38
5.3.1特征維數對分類效果的影響39
5.3.2 K值的選取對分類效果的影響。39
5.3.3改進的KNN算法與傳統KNN算法性能比較。40
總結與展望..4 l
工作總結4l
工作展望.4l
參考文獻43
攻讀碩士學位期間發表的論文46
獨創性聲明..47
致謝。48
VH
..............................
用戶登陸
信息技術熱門資料
信息技術相關下載