信息組織中的自然語言應用培訓課件(PPT 194頁)
信息組織中的自然語言應用培訓課件(PPT 194頁)內容簡介
一.自然語言的演化與發展
二.自然語言的優缺點
三.自然語言與自然語言處理
本節內容
一、自然語言的演化與發展
檢索語言的演化與發展
檢索係統中檢索語言的應用變化
二、自然語言的優缺點
優點
缺點
結論
三、自然語言與自然語言處理
(一)自然語言處理
Cont.
語言學上對語言的層次劃分
自然語言處理研究內容的基礎部分
語法層分析
語義層分析
語境層分析
(二)自然語言在信息組織和檢索中的應用
小結
漢語分詞
一、漢語分詞及其障礙概述
(一)漢語的語言特點
漢語切分中的難點
(二)漢語自動分詞的困難
1.分詞歧義的類型
2.漢語真實文本中的分詞歧義情況
漢語真實文本中的分詞歧義情況(續)
3.切分歧義的解決策略
1.未登錄詞(unknownword)
2.未登錄詞識別
3.識別未登錄詞的策略
二、漢語分詞方法
(一)基於詞典匹配的分詞方法
機械分詞方法一般模型
機械分詞係統采用的改進方法
最大匹配法
最大匹配法分詞示例
最大匹配法切詞過程演示
最大匹配法分詞存在的問題
最大匹配法解決分詞歧義的能力
最大匹配法解決分詞歧義的能力(續)
最大概率法分詞
提高計算效率
最大概率法切分過程演示
最大概率法分詞的問題
(二)基於理解的分詞方法
(三)基於統計的分詞方法
三.自動分詞係統演示
四.漢語分詞係統的評測
漢語自動分詞的現狀
2003年測評結果
自然語言標引
一.自然語言標引概述
自然語言標引方式
(一)自由標引
自由標引的優點
(二)自動標引
自動標引的意義
自動標引的分類
自動抽詞標引
自動賦分類號標引
1.西文自動標引
2.中文自動標引
中文自動標引的基本流程
(1)確定標引源
標引源
(2)文檔的預處理
(3)分詞處理
(4)確定關鍵詞
確定關鍵詞的主要方法
(5)轉換為受控詞
轉換為受控詞的方法
(6)給出主題標識符
四、單漢字標引
單漢字索引庫的建立過程
單漢字索引文檔結構
單漢字索引結構
基於單漢字索引的檢索
單漢字索引的優點
單漢字索引的缺點
課後練習
第七章信息組織中的自然語言
一.自然語言檢索係統
二.自然語言檢索
自然語言檢索的類型
三.全文檢索
全文檢索的深入理解
全文檢索係統實現技術
全文檢索的索引問題
各種索引方式的優缺點
中文信息索引的合理方式
全文檢索係統優缺點
四.搜索引擎的自然語言檢索問題
(一)搜索引擎的檢索理論
搜索引擎一般係統架構
搜索引擎的工作流程
(二)搜索引擎的自然語言檢索技術
1.關鍵詞檢索的改進
查找Window98的Bugs問題
“Searchwithintheseresults”
2.簡單提問式輸入檢索
Ask.com模式
Ask.com檢索實例
AnswerBus模式
AnswerBus檢索實例
3.智能的自然語言檢索技術
基於語言理解的自然語言檢索
eXcite
中國知網CNKI相關詞
AltaVista的BabelFish
自然語言檢索係統存在的問題
症結分析
本節小結
自然語言檢索
一.後控製和後控詞表
後控製詞表
後控詞表的編製
後控詞表的編製方式
後控詞表檢索係統結構
後控詞表檢索係統基本功能模塊
網絡環境中的後控詞表模式
後控詞表的控製方案(控製程度)
二.後控詞表應用現狀
自動化詞表編製管理係統
自動化詞表編製管理係統(cont.)
可升級的詞表組件結構模型
對象、關係和元數據
SynapticaOverview
網絡化詞表的應用
三.網絡檢索係統中的後控製技術
1.分類目錄限定――領域限定、修整
2.檢索式的修整、優化
1)停用詞典――檢索詞有效性控製
2)截詞詞典――有效檢索詞詞形控製
3)詞間關係詞表――檢索式概念控製
概念/詞條關係的獲得方式(1)--基於詞表
SOSIG(社會科學主題網關)
eXcite的ZoomIn檢索助手實例
百度“相關搜索”功能
獲得方式(2)--基於語料知識庫技術
WordNet
HowNet(知網)
WordNet提供的關係類型
WordNet1.6檢索係統
後控檢索應用中的注意點
3.檢索結果控製
檢索結果的聯機聚類技術
聚類實例
Mooter
Kartoo
國外可視化結果聚類技術研究
TileBar-模式文檔細節顯示視圖
..............................
二.自然語言的優缺點
三.自然語言與自然語言處理
本節內容
一、自然語言的演化與發展
檢索語言的演化與發展
檢索係統中檢索語言的應用變化
二、自然語言的優缺點
優點
缺點
結論
三、自然語言與自然語言處理
(一)自然語言處理
Cont.
語言學上對語言的層次劃分
自然語言處理研究內容的基礎部分
語法層分析
語義層分析
語境層分析
(二)自然語言在信息組織和檢索中的應用
小結
漢語分詞
一、漢語分詞及其障礙概述
(一)漢語的語言特點
漢語切分中的難點
(二)漢語自動分詞的困難
1.分詞歧義的類型
2.漢語真實文本中的分詞歧義情況
漢語真實文本中的分詞歧義情況(續)
3.切分歧義的解決策略
1.未登錄詞(unknownword)
2.未登錄詞識別
3.識別未登錄詞的策略
二、漢語分詞方法
(一)基於詞典匹配的分詞方法
機械分詞方法一般模型
機械分詞係統采用的改進方法
最大匹配法
最大匹配法分詞示例
最大匹配法切詞過程演示
最大匹配法分詞存在的問題
最大匹配法解決分詞歧義的能力
最大匹配法解決分詞歧義的能力(續)
最大概率法分詞
提高計算效率
最大概率法切分過程演示
最大概率法分詞的問題
(二)基於理解的分詞方法
(三)基於統計的分詞方法
三.自動分詞係統演示
四.漢語分詞係統的評測
漢語自動分詞的現狀
2003年測評結果
自然語言標引
一.自然語言標引概述
自然語言標引方式
(一)自由標引
自由標引的優點
(二)自動標引
自動標引的意義
自動標引的分類
自動抽詞標引
自動賦分類號標引
1.西文自動標引
2.中文自動標引
中文自動標引的基本流程
(1)確定標引源
標引源
(2)文檔的預處理
(3)分詞處理
(4)確定關鍵詞
確定關鍵詞的主要方法
(5)轉換為受控詞
轉換為受控詞的方法
(6)給出主題標識符
四、單漢字標引
單漢字索引庫的建立過程
單漢字索引文檔結構
單漢字索引結構
基於單漢字索引的檢索
單漢字索引的優點
單漢字索引的缺點
課後練習
第七章信息組織中的自然語言
一.自然語言檢索係統
二.自然語言檢索
自然語言檢索的類型
三.全文檢索
全文檢索的深入理解
全文檢索係統實現技術
全文檢索的索引問題
各種索引方式的優缺點
中文信息索引的合理方式
全文檢索係統優缺點
四.搜索引擎的自然語言檢索問題
(一)搜索引擎的檢索理論
搜索引擎一般係統架構
搜索引擎的工作流程
(二)搜索引擎的自然語言檢索技術
1.關鍵詞檢索的改進
查找Window98的Bugs問題
“Searchwithintheseresults”
2.簡單提問式輸入檢索
Ask.com模式
Ask.com檢索實例
AnswerBus模式
AnswerBus檢索實例
3.智能的自然語言檢索技術
基於語言理解的自然語言檢索
eXcite
中國知網CNKI相關詞
AltaVista的BabelFish
自然語言檢索係統存在的問題
症結分析
本節小結
自然語言檢索
一.後控製和後控詞表
後控製詞表
後控詞表的編製
後控詞表的編製方式
後控詞表檢索係統結構
後控詞表檢索係統基本功能模塊
網絡環境中的後控詞表模式
後控詞表的控製方案(控製程度)
二.後控詞表應用現狀
自動化詞表編製管理係統
自動化詞表編製管理係統(cont.)
可升級的詞表組件結構模型
對象、關係和元數據
SynapticaOverview
網絡化詞表的應用
三.網絡檢索係統中的後控製技術
1.分類目錄限定――領域限定、修整
2.檢索式的修整、優化
1)停用詞典――檢索詞有效性控製
2)截詞詞典――有效檢索詞詞形控製
3)詞間關係詞表――檢索式概念控製
概念/詞條關係的獲得方式(1)--基於詞表
SOSIG(社會科學主題網關)
eXcite的ZoomIn檢索助手實例
百度“相關搜索”功能
獲得方式(2)--基於語料知識庫技術
WordNet
HowNet(知網)
WordNet提供的關係類型
WordNet1.6檢索係統
後控檢索應用中的注意點
3.檢索結果控製
檢索結果的聯機聚類技術
聚類實例
Mooter
Kartoo
國外可視化結果聚類技術研究
TileBar-模式文檔細節顯示視圖
..............................
上一篇:組織的權力概述(PPT 29頁)
用戶登陸
組織設計熱門資料
組織設計相關下載