利用Python实现中文文本关键词抽取的三种方法
文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取,以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中,发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子,代码和步骤也比较简单,但是采用Word2Vec词聚类方法时网上的资料并未把过程和步骤表达的很清晰。因此,本文分别采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法实现对专利文本(同样适用于其它类型文本)的关键词抽取,通过理论与实践相结合的方式,一步步了解、学习、实现中文文本关键词抽取。
目录
利用Python实现中文文本关键词抽取的三种方法	1
1 概述	1
2 开发环境准备	2
2.1 Python环境	2
2.2 第三方模块	2
3 数据准备	3
3.1 样本语料	3
3.2 停用词词典	4
4 基于TF-IDF的文本关键词抽取方法	4
4.1 TF-IDF算法思想	4
4.2 TF-IDF文本关键词抽取方法流程	5
4.3 代码实现	5
5 基于TextRank的文本关键词抽取方法	6
5.1 PageRank算法思想	6
5.2 TextRank算法思想	7
5.3 代码实现	8
6 基于Word2Vec词聚类的文本关键词抽取方法	8
6.1 Word2Vec词向量表示	9
6.2 K-means聚类算法	9
6.3 Word2Vec词聚类文本关键词抽取方法流程	10
6.4 代码实现	11
7 结语	11
1 概述
一篇文档的关键词等同于最能表达文档主旨的N个词语,即对于文档来说最重要的词,因此,可以将文本关键词抽取问题转化为词语重要性排序问题,选取排名前TopN个词语作为文本关键词。目前,主流的文本关键词抽取方法主要有以下两大类:







