大數據存儲與應用數據流挖掘培訓教材(PPT 64頁)
大數據存儲與應用數據流挖掘培訓教材(PPT 64頁)內容簡介
內容
流數據模型
係統,示例
抽樣
過濾
數目統計
矩估計
窗口內計數
衰減窗口
預覽
穀歌/淘寶是怎麼做下麵這些事情的
取樣
比例取樣
固定size取樣
頻度統計
統計item發生的次數
白名單過濾
統計不同查詢的個數
評估用戶訪問的均勻性
發現最熱item
簡單的數據統計問題,在大數據場合下,新的方法
係統
示例
查詢
問題
流
數據以流的方式進入
搜索引擎的查詢請求
微博更新
特點
無窮
非平穩
流的到達速率取決於用戶行為,係統無法控製
元素(Element)
Tuple
大數據下的係統限製
流源源不斷地來
要求實時處理
係統限製
存儲限製,不能存這麼多
存得多,處理量也大,處理能力限製
NSA(美國棱鏡門)
存幾個月
流處理
有限存儲情況下,怎麼實時處理?
Onlinelearning
模型
兩種查詢
固定查詢:
Standingquery
從不停止
例:
曆史最高溫度
事先寫好
Ad-hoc查詢
不全存,但還是存一些內容
根據這些存儲的內容應答
取樣:
隨機取樣(Sampling)
過濾(白名單):選取特定屬性的元素(Filtering)
計數(一定窗口內)
有多少個不同的元素?(distinctelements)
各元素的Popularity?
特征:各階矩
誰最流行?
應用
Google:
查詢流
發現最流行的查詢關鍵字
Yahoo:
發現最流行的頁麵
微博:
發現最熱的話題
找人
傳感器網絡
電話記錄
美國,棱鏡門
網絡交換機
流量統計,優化路由
檢測DDoS攻擊
Sampling
兩種抽樣
固定比率抽樣
1in10
固定Size抽樣
總是保持s個元素
應用場合
搜索引擎,一個用戶的搜索中,重複的有多少?
存不了全部,可以存1/10
最明顯的辦法
每來一個query
生成一個隨機整數:0…9
如果是0,就存起來
1/10的采樣
然後統計其中的用戶重複搜索比例
對嗎?
有問題
..............................
流數據模型
係統,示例
抽樣
過濾
數目統計
矩估計
窗口內計數
衰減窗口
預覽
穀歌/淘寶是怎麼做下麵這些事情的
取樣
比例取樣
固定size取樣
頻度統計
統計item發生的次數
白名單過濾
統計不同查詢的個數
評估用戶訪問的均勻性
發現最熱item
簡單的數據統計問題,在大數據場合下,新的方法
係統
示例
查詢
問題
流
數據以流的方式進入
搜索引擎的查詢請求
微博更新
特點
無窮
非平穩
流的到達速率取決於用戶行為,係統無法控製
元素(Element)
Tuple
大數據下的係統限製
流源源不斷地來
要求實時處理
係統限製
存儲限製,不能存這麼多
存得多,處理量也大,處理能力限製
NSA(美國棱鏡門)
存幾個月
流處理
有限存儲情況下,怎麼實時處理?
Onlinelearning
模型
兩種查詢
固定查詢:
Standingquery
從不停止
例:
曆史最高溫度
事先寫好
Ad-hoc查詢
不全存,但還是存一些內容
根據這些存儲的內容應答
取樣:
隨機取樣(Sampling)
過濾(白名單):選取特定屬性的元素(Filtering)
計數(一定窗口內)
有多少個不同的元素?(distinctelements)
各元素的Popularity?
特征:各階矩
誰最流行?
應用
Google:
查詢流
發現最流行的查詢關鍵字
Yahoo:
發現最流行的頁麵
微博:
發現最熱的話題
找人
傳感器網絡
電話記錄
美國,棱鏡門
網絡交換機
流量統計,優化路由
檢測DDoS攻擊
Sampling
兩種抽樣
固定比率抽樣
1in10
固定Size抽樣
總是保持s個元素
應用場合
搜索引擎,一個用戶的搜索中,重複的有多少?
存不了全部,可以存1/10
最明顯的辦法
每來一個query
生成一個隨機整數:0…9
如果是0,就存起來
1/10的采樣
然後統計其中的用戶重複搜索比例
對嗎?
有問題
..............................
下一篇:尚無數據
用戶登陸
大數據熱門資料
大數據相關下載