基于奇异值分解的新闻标题聚类研究 |
| |
作者姓名: | 文晓艺 郝程程 |
| |
作者单位: | 上海对外经贸大学统计与信息学院 |
| |
基金项目: | 上海市大学生创新训练项目(201810273116) |
| |
摘 要: | 汉语分词技术和文本聚类是自然语言处理的重要环节,在文本信息的组织、摘要和导航中应用广泛.文本聚类作为一种无监督学习算法,其依据是聚类假设:同类的文档相似程度大,不同类的文档相似程度小.文中主要研究汉语文本聚类算法在新闻标题类文本中的应用.首先对采集到的若干条新闻标题进行分词和特征提取,将分词后的文本转化为词条矩阵;然后...
|
关 键 词: | 汉语分词 词云图 奇异值分解 潜在语义分析 K-means聚类 |
本文献已被 维普 等数据库收录! |
|