推荐系统技术之文本相似性计算（三）

发布时间：2021-03-08 19:43:46 所属栏目：大数据来源：网络整理

导读：今天这篇也比较长，但中间有部分是代码，7，8，9最后三节的信息我认为较为有用。前面说了两篇了，推荐系统技术之文本相似性计算（一）和推荐系统技术 --- 文本相似性计算（二）分别介绍了 TFIDF 和向量空间的相关东西，然后介绍了主题模型，这一篇我们就

副标题[/!--empirenews.page--]

今天这篇也比较长，但中间有部分是代码，7，8，9最后三节的信息我认为较为有用。前面说了两篇了，推荐系统技术之文本相似性计算（一）和推荐系统技术 --- 文本相似性计算（二）分别介绍了TFIDF和向量空间的相关东西，然后介绍了主题模型，这一篇我们就来试试这两个东西。词向量就不在这篇试了，词向量和这两个关系不大，不好对比，不过我最后也给出了代码。

0. 工具准备

工欲善其事,必先利其器，那么我们先来利其器，这里我们使用的是python的gensim工具包，地址是:https://radimrehurek.com/gensim/index.html，这个工具包很强大，我就不一一介绍了，反正我们需要的功能都有，而且我们用得很简单，它还可以分布式部署，感兴趣可以去官网看具体介绍。为什么不自己写？这个问题....呵呵.....呵呵....我写不出来.....至于安装，需要先安装python 2.6以上(废话)，NumPy 1.3以上，SciPy 0.7以上，后两个是python的科学计算的包。easy_install很容易搞定，这里就不废话了，windows上安装可能有点困难，但我很久没用过windows了，我电脑上安装很轻松，三四个命令搞定，可以去看gensim的官方文档，上面也有怎么安装，如果你装都装不上，那就google，百度，总有解决办法。除了gensim，还有个分词的包需要装一下，就是jieba分词，这个也很容易装。1. 数据准备

数据准备可是个技术活，我的职业操守很高，没有用公司的数据，那只能自己找数据了，如果直接找网上的语料，显得太Low了。于是我自己爬了一些数据。首先，我瞄准了目前一个技术网站，然后瞄准了一个汽车网站，于是开始爬数据，自己写了个爬虫开始爬数据，恩，我的爬虫我觉得还可以，调度器+爬取器组成，爬取器插件话，可以使用任意语言做编写，甚至可以直接对接chrome爬取纯JS单页面网站爬取，也支持代理池，如果大家感兴趣我也可以说说爬虫相关的东西，分布式的哦，可以随便加机器增加爬取能力。好了，爬了两个网站，中途各种坑就不表了，可以开始干活了，爬两个类型的网站是为了说明后面LDA主题模型，大家就有个认识了。2. 数据清理
数据爬下来后，要做的就是数据清洗工作了，我之前有一篇搞机器学习要哪些技能说了，数据的清理是一个算法工程师的必备技能，如果没有好的数据，算法怎么好都没用。拿到数据以后，写个脚本

首先把标题，作者，时间之类的提取出来，通过正则也好，xpath也好，都很容易把这些东西提取出来。

（编辑：ASP站长）

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。

1/11

尾页

一个不错的有关mysql和	多功能吸尘器买哪种品
首发649元！Redmi 10A	迷你吸尘器怎样迷你吸