共查询到18条相似文献,搜索用时 62 毫秒
1.
传统的向量空间模型表示文本的缺点是向量维数高,向量空间模型中一个文本是一个大的稀疏矩阵,计算文本之间的距离或者相似度时,算法的效率低,聚类效果不理想。在主题模型(Latent Dirichlet Allocation,LDA)中,将文本表示成主题(Topic)的概率分布,主题表示为词的概率分布。主题模型下,指定主题数目为T时,所有待聚类的文本都被表示成维数为T的向量。K-均值算法作为本文的聚类算法,并通过实验验证了主题模型的聚类效果要好于向量空间模型的聚类。 相似文献
2.
刘欣佘贤栋唐永旺王波 《数据采集与处理》2017,32(5):1052-1060
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。 相似文献
3.
基于单词相似度的文本聚类 总被引:3,自引:1,他引:3
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果. 相似文献
4.
随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式摘要到生成式摘要的方向演化,从中达到生成更高质量的自然流畅的文摘的目的.近年来,深度学习技术逐渐被应用于生成式摘要研究中,其中基于注意力机制的序列到序列模型已成为应用最广泛的模型之一,尤其在句子级摘要生成任务(如新闻标题生成、句子压缩等)中取得了显著的效果.然而,现有基于神经网络的生成式摘要模型绝大多数将注意力均匀分配到文本的所有内容中,而对其中蕴含的重要主题信息并没有细致区分.鉴于此,本文提出了一种新的融入主题关键词信息的多注意力序列到序列模型,通过联合注意力机制将文本中主题下重要的一些关键词语的信息与文本语义信息综合起来实现对摘要的引导生成.在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了所提方法的有效性和先进性. 相似文献
5.
基于注意力机制的序列到序列模型在生成式摘要方法中得到广泛应用,并取得较好的表现。但现有模型方法生成的摘要普遍存在语义无关、句内重复和未登录词等问题。为了解决这些问题,在典型基于注意力机制的序列到序列模型基础上,提出了结合双注意力和指针覆盖机制的生成式文本摘要方法DAPC(Dual Attention and Pointer-Coverage based model)模型。组合局部注意力和卷积神经网络,提取输入文本的更高层次的语言特征;引入指针-生成网络来解决未登录词问题;使用覆盖机制解决模型生成摘要句内重复的问题。实验结果表明,模型在CNN/Daily Mail数据集中有较好的表现。 相似文献
6.
7.
8.
9.
位置加权文本聚类算法 总被引:3,自引:2,他引:1
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。 相似文献
10.
11.
一种基于语义内积空间模型的文本聚类算法 总被引:17,自引:0,他引:17
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 相似文献
12.
短文本的表示方法和特征提取方法是自然语言处理基础研究的一个重要方向,具有广泛的应用价值.本文提出了BERT_BLSTM_TCNN模型,该神经网络模型利用BERT的迁移学习,并在词向量编码阶段引入对抗训练方法,训练出包括句的语义和结构特征的且泛化性能更优的句特征,并将这些特征输入BLSTM_TCNN层中进行特征抽取以完成... 相似文献
13.
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。 相似文献
14.
基于向量空间模型的贝叶斯文本分类方法 总被引:2,自引:0,他引:2
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。 相似文献
15.
基于多层向量空间模型的Web信息检索方法 总被引:1,自引:0,他引:1
针对Web信息检索的特点,在分析传统向量空间模型存在问题的基础上,提出了一种多层向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段。按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。 相似文献
16.
17.
提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类.它改进了原有的词共现模型,突出了利用位置信息来优化词共现模型的特点.实验证明该策略使采集和分类的性能都有了一定的提高. 相似文献
18.
高炉煤气发生量的准确预测对钢铁企业能源优化调度具有重要意义;针对钢铁企业中基于机理模型的高炉煤气发生量难以准确预测问题,建立了基于小波分析的最小二乘支持向量机(LSSVM)和自回归差分滑动平均(ARIMA)相结合的高炉煤气预测模型;预测前利用小波去噪对原始数据进行消噪处理,并对处理后的数据进行小波变换得到趋势序列和波动序列,然后对各部分序列分别建模和预测,最后将各部分预测结果叠加;仿真结果表明,组合预测模型减小了预测误差,提高了预测精度;与其他模型相比,组合预测模型更适合高炉煤气预测. 相似文献