今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了TFIDF
和向量空间的相关东西,然后介绍了主题模型
,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。
工欲善其事,必先利其器
,那么我们先来利其器,这里我们使用的是python的gensim
工具包,地址是:https://radimrehurek.com/gensim/index.html,这个工具包很强大,我就不一一介绍了,反正我们需要的功能都有,而且我们用得很简单,它还可以分布式部署,感兴趣可以去官网看具体介绍。为什么不自己写?这个问题....呵呵.....呵呵....我写不出来.....
至于安装,需要先安装python 2.6以上
(废话),NumPy 1.3
以上,SciPy 0.7
以上,后两个是python的科学计算的包。easy_install很容易搞定,这里就不废话了,windows上安装可能有点困难,但我很久没用过windows了,我电脑上安装很轻松,三四个命令搞定,可以去看gensim的官方文档,上面也有怎么安装,如果你装都装不上,那就google,百度,总有解决办法。除了gensim,还有个分词的包需要装一下,就是jieba分词
,这个也很容易装。1. 数据准备
数据准备可是个技术活,我的职业操守很高,没有用公司的数据,那只能自己找数据了,如果直接找网上的语料,显得太Low了。于是我自己爬了一些数据。首先,我瞄准了目前一个技术网站,然后瞄准了一个汽车网站,于是开始爬数据,自己写了个爬虫开始爬数据,恩,我的爬虫我觉得还可以,调度器+爬取器组成,爬取器插件话,可以使用任意语言做编写,甚至可以直接对接