2017-10-01 | 演算法, 大數據, mining massive dataset

Shingling, MinHashing and Common distance measure I

誰適合閱讀這篇文章：熟悉 Hash, Set, Tries (Prefix and Suffix Tree) 等資料結構和有志從事大量資料分析的電腦工程師主要解決問題：給定一份文件，如何在網際網路的無盡文件大海中，找到相似的文件？主要應用：偵測剽竊 (Plagiarism)，搜尋引擎欲尋找鏡像網頁，網路購物或電影推薦系統中的協同過濾綱要：如何快速比較兩文件集合並提供量化結果: a. 如何定義相似度？ b. 如何重新定義相似度

TechBridge 技術共筆部落格

var topics = ['Web前後端', '行動網路', '機器人/物聯網', '數據分析', '產品設計', 'etc.']

Shingling, MinHashing and Common distance measure I