[转]文本相似性算法:simhash/minhash/余弦算法
发布时间:2021-01-18 18:35:35 所属栏目:大数据 来源:网络整理
导读:数据挖掘之lsh(局部敏感hash) minhash、simhash 在项目中碰到这样的问题: 互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。 算法的原理很简单
????? ?程序中做了两小的改进,以加快效率:
????? ?1. 只将汉字作为向量,其他的如标点,数字等符号不处理;2. 在HashMap中存放汉字和其在文本中对于的个数时,先将单个汉字通过GB2312编码转换成数字,再存放。 ????? ?最后写了个测试,根据两种不同的算法对比下时间,下面是测试结果: ????? ?余弦定理算法:doc1 与 doc2 相似度为:0.9954971,耗时:22mm ????? ?距离编辑算法:doc1 与 doc2 相似度为:0.99425095,耗时:322mm ????? ?可见效率有明显提高,算法复杂度大致为:document1.length + document2.length。 ? ? ? ? 文章来源:?http://my.oschina.net/BreathL/blog/42477 PHP实现余弦相似度算法(编辑:ASP站长) 【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。 |
相关内容
未处理完善
-
无相关信息
最新更新