首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   1篇
自动化技术   1篇
  2022年   1篇
排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量。词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题。提出一种新的聚类模型BERT_AE_[K]-Means,利用预训练模型BERT(bidirectional encoder representations from transformers)作为文本表示的初始化方法,利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,将得到的特征提取器Encoder和聚类模型[K]-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性。所提出的模型在四个数据集上与Word2Vec_[K]-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,所提方法有效地提高了短文本聚类的准确度。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号