[转]文本相似性算法：simhash/minhash/余弦算法

发布时间：2021-01-18 18:35:35 所属栏目：大数据来源：网络整理

导读：数据挖掘之lsh（局部敏感hash） minhash、simhash 在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单

????? ?程序中做了两小的改进，以加快效率：

????? ?1. 只将汉字作为向量，其他的如标点，数字等符号不处理；2. 在HashMap中存放汉字和其在文本中对于的个数时，先将单个汉字通过GB2312编码转换成数字，再存放。

????? ?最后写了个测试，根据两种不同的算法对比下时间，下面是测试结果：

????? ?余弦定理算法：doc1 与 doc2 相似度为：0.9954971,耗时：22mm

????? ?距离编辑算法：doc1 与 doc2 相似度为：0.99425095,耗时：322mm

????? ?可见效率有明显提高，算法复杂度大致为：document1.length + document2.length。

? ? ? ?

文章来源：?http://my.oschina.net/BreathL/blog/42477

PHP实现余弦相似度算法

（编辑：ASP站长）

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。

一个不错的有关mysql和	多功能吸尘器买哪种品
首发649元！Redmi 10A	迷你吸尘器怎样迷你吸