Shingling, MinHashing and Common distance measure I
誰適合閱讀這篇文章:熟悉 Hash, Set, Tries (Prefix and Suffix Tree) 等資料結構和有志從事大量資料分析的電腦工程師 主要解決問題:給定一份文件,如何在網際網路的無盡文件大海中,找到相似的文件?主要應用:偵測剽竊 (Plagiarism),搜尋引擎欲尋找鏡像網頁,網路購物或電影推薦系統中的協同過濾 綱要: 如何快速比較兩文件集合並提供量化結果: a. 如何定義相似度? b. 如何重新定義相似度