[转]文本相似性算法：simhash/minhash/余弦算法

发布时间：2021-01-18 18:35:35 所属栏目：大数据来源：网络整理

导读：数据挖掘之lsh（局部敏感hash） minhash、simhash 在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单

感谢您做的simhash库，感觉会很方便。有关求二进制中1的个数，其实有各种O(1)的实现。可以参考这个地方：http://stackoverflow.com/a/14682688

simhash 实现的工程项目

主要是针对中文文档，也就是此项目进行simhash之前同时还进行了分词和关键词的抽取。

『百度的去重算法』

百度的去重算法最简单，就是直接找出此文章的最长的n句话，做一遍hash签名。n一般取3。工程实现巨简单，据说准确率和召回率都能到达80%以上。

『shingle算法』

shingle原理略复杂，不细说。 shingle算法我认为过于学院派，对于工程实现不够友好，速度太慢，基本上无法处理海量数据。

『其他算法』

具体看微博上的讨论

来源：http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

实现文本相似度算法（余弦定理）

（编辑：ASP站长）

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。

一个不错的有关mysql和	多功能吸尘器买哪种品
首发649元！Redmi 10A	迷你吸尘器怎样迷你吸