您現在的位置: 18luck新利全站下载 >> 管理信息化>> 大數據>> 資料信息

大數據存儲與應用數據流挖掘培訓教材(PPT 64頁)

所屬分類:
大數據
文件大小:
623 KB
下載地址:
相關資料:
大數據, 應用數據, 數據流, 培訓教材
大數據存儲與應用數據流挖掘培訓教材(PPT 64頁)內容簡介
內容
流數據模型
係統,示例
抽樣
過濾
數目統計
矩估計
窗口內計數
衰減窗口
預覽
穀歌/淘寶是怎麼做下麵這些事情的
取樣
比例取樣
固定size取樣
頻度統計
統計item發生的次數
白名單過濾
統計不同查詢的個數
評估用戶訪問的均勻性
發現最熱item
簡單的數據統計問題,在大數據場合下,新的方法
係統
示例
查詢
問題

數據以流的方式進入
搜索引擎的查詢請求
微博更新
特點
無窮
非平穩
流的到達速率取決於用戶行為,係統無法控製
元素(Element)
Tuple
大數據下的係統限製
流源源不斷地來
要求實時處理
係統限製
存儲限製,不能存這麼多
存得多,處理量也大,處理能力限製
NSA(美國棱鏡門)
存幾個月
流處理
有限存儲情況下,怎麼實時處理?
Onlinelearning
模型
兩種查詢
固定查詢:
Standingquery
從不停止
例:
曆史最高溫度
事先寫好
Ad-hoc查詢
不全存,但還是存一些內容
根據這些存儲的內容應答
取樣:
隨機取樣(Sampling)
過濾(白名單):選取特定屬性的元素(Filtering)
計數(一定窗口內)
有多少個不同的元素?(distinctelements)
各元素的Popularity?
特征:各階矩
誰最流行?
應用
Google:
查詢流
發現最流行的查詢關鍵字
Yahoo:
發現最流行的頁麵
微博:
發現最熱的話題
找人
傳感器網絡
電話記錄
美國,棱鏡門
網絡交換機
流量統計,優化路由
檢測DDoS攻擊
Sampling
兩種抽樣
固定比率抽樣
1in10
固定Size抽樣
總是保持s個元素
應用場合
搜索引擎,一個用戶的搜索中,重複的有多少?
存不了全部,可以存1/10
最明顯的辦法
每來一個query
生成一個隨機整數:0…9
如果是0,就存起來
1/10的采樣
然後統計其中的用戶重複搜索比例
對嗎?
有問題
..............................
大數據存儲與應用數據流挖掘培訓教材(PPT 64頁)

上一篇:大數據采集與清洗培訓講義(PPT 36頁)

下一篇:尚無數據

Baidu
map