基於粗糙集和遺傳算法的大數據集數據挖掘應用研究(PDF 74頁)
基於粗糙集和遺傳算法的大數據集數據挖掘應用研究(PDF 74頁)內容簡介
男人摘要
第1章緒論
新的需求推動新的技術的誕生。數據分析是科學研究的基礎,許多科學研究都是
建立在數據收集和分析基礎上的。在目前的商業活動中,數據分析總是和一些特殊的
人群的高智商行為聯係起來,因為並不是每個平常人都能從過去的銷售情況預測將來
發展趨勢或作出正確決策的。但是,隨著一個企業或行業業務數據的不斷積累,特別
是由於數據庫的普及,人工去整理和理解如此大的數據源已經存在效率、準確性等問
題。因此,探討自動化的數據分析技術,為企業提供能帶來商業利潤的決策信息而成
為必然I”。
事實上,數據(Data)、信息(Information)和知識(Knowledge)可以看作是廣
義數據表現的不同形式。數據庫是目前組織和存儲數據的最有效方法之一,但是麵對
日益膨脹的數據,數據庫查詢技術已表現出它的局限性。直觀上說,信息或稱有效信
息是指對人們有幫助的數據。數據的膨脹和技術環境的進步,人們對聯機決策和分析
等高級信息處理的要求越來越迫切。尤其在電信行業,隨著電信市場壟斷格局的打破,
市場競爭更趨激烈,客戶服務的質量要求日益提高,這些因素使得國內的電信企業開
始著手數據倉庫的建設,並將數據挖掘係統作為數據倉庫實施的一部分。
隨著移動通信的不斷發展,小靈通短信實現了全國互通以及和手機互通。山西網
通太原通信分公司負責太原、晉中、晉城、呂梁四地市共享的UT短信中心及全省短
信二級網關的維護。其中,短信二級網關是UT短信中心、中興短信中心、北京一級
網關、移動短信網關和聯通短信網關的互聯通信樞紐,每日流量達五百萬條以上,業
務處理十分繁忙。網關數據庫每天生成一張短信數據表,每張表有30個字段,約500
萬條紀錄。一條短消息作為一條記錄存儲,其中包含有短消息ID,發送時間,接受
時間,發送號碼,接受號碼,來自哪個賬號,資費類型,轉發路由等大量信息。在日
常維護中,由於廠家沒有提供完備的網管及告警係統,所以每天需要統計掛接在網關
上的主要帳號的收發成功率,來大致掌握短信係統的運行情況。一旦成功率低於正常
值(例如聯通,移動方向的正常值是90%),就需要較快的定位造成異常的原因,及
時采取措施保障通信暢通。由於表中的字段過多,在實際工作中,往往隻能根據經驗
對某幾個主要字段進行統計分析。如果不能通過統計幾個字段得出結果,也就無法找
出原因。所以要能夠高效的維護係統,從海量的數據中總結出知識,就需要建立數據
挖掘係統。基於該數據庫字段多,記錄數量龐大的特點,首先利用粗糙集來約簡屬性,
然後再用遺傳算法篩選出比較準確的決策規則,供維護人員參考。數據庫中海量的數
據信息通常是不完整的,缺失的,不確定的,為了客觀處理這些信息,在挖掘中采用
粗糙集技術。粗糙集理論是一種研究能有效地分析和處理不精確,不確定知識的數學
工具。它的主要特點之一是無須提供問題所需處理的數據集合之外的任何先驗信息。
。
..............................
第1章緒論
新的需求推動新的技術的誕生。數據分析是科學研究的基礎,許多科學研究都是
建立在數據收集和分析基礎上的。在目前的商業活動中,數據分析總是和一些特殊的
人群的高智商行為聯係起來,因為並不是每個平常人都能從過去的銷售情況預測將來
發展趨勢或作出正確決策的。但是,隨著一個企業或行業業務數據的不斷積累,特別
是由於數據庫的普及,人工去整理和理解如此大的數據源已經存在效率、準確性等問
題。因此,探討自動化的數據分析技術,為企業提供能帶來商業利潤的決策信息而成
為必然I”。
事實上,數據(Data)、信息(Information)和知識(Knowledge)可以看作是廣
義數據表現的不同形式。數據庫是目前組織和存儲數據的最有效方法之一,但是麵對
日益膨脹的數據,數據庫查詢技術已表現出它的局限性。直觀上說,信息或稱有效信
息是指對人們有幫助的數據。數據的膨脹和技術環境的進步,人們對聯機決策和分析
等高級信息處理的要求越來越迫切。尤其在電信行業,隨著電信市場壟斷格局的打破,
市場競爭更趨激烈,客戶服務的質量要求日益提高,這些因素使得國內的電信企業開
始著手數據倉庫的建設,並將數據挖掘係統作為數據倉庫實施的一部分。
隨著移動通信的不斷發展,小靈通短信實現了全國互通以及和手機互通。山西網
通太原通信分公司負責太原、晉中、晉城、呂梁四地市共享的UT短信中心及全省短
信二級網關的維護。其中,短信二級網關是UT短信中心、中興短信中心、北京一級
網關、移動短信網關和聯通短信網關的互聯通信樞紐,每日流量達五百萬條以上,業
務處理十分繁忙。網關數據庫每天生成一張短信數據表,每張表有30個字段,約500
萬條紀錄。一條短消息作為一條記錄存儲,其中包含有短消息ID,發送時間,接受
時間,發送號碼,接受號碼,來自哪個賬號,資費類型,轉發路由等大量信息。在日
常維護中,由於廠家沒有提供完備的網管及告警係統,所以每天需要統計掛接在網關
上的主要帳號的收發成功率,來大致掌握短信係統的運行情況。一旦成功率低於正常
值(例如聯通,移動方向的正常值是90%),就需要較快的定位造成異常的原因,及
時采取措施保障通信暢通。由於表中的字段過多,在實際工作中,往往隻能根據經驗
對某幾個主要字段進行統計分析。如果不能通過統計幾個字段得出結果,也就無法找
出原因。所以要能夠高效的維護係統,從海量的數據中總結出知識,就需要建立數據
挖掘係統。基於該數據庫字段多,記錄數量龐大的特點,首先利用粗糙集來約簡屬性,
然後再用遺傳算法篩選出比較準確的決策規則,供維護人員參考。數據庫中海量的數
據信息通常是不完整的,缺失的,不確定的,為了客觀處理這些信息,在挖掘中采用
粗糙集技術。粗糙集理論是一種研究能有效地分析和處理不精確,不確定知識的數學
工具。它的主要特點之一是無須提供問題所需處理的數據集合之外的任何先驗信息。
。
..............................
用戶登陸
大數據熱門資料
大數據相關下載