排序方式: 共有54条查询结果,搜索用时 15 毫秒
31.
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。 相似文献
32.
方位参考点恢复是自然语言空间语义理解中十分重要问题 .方位参考点恢复是在篇章中找方位词的参考点并补充上,得到完整的空间表达式 .目前,自然语言处理技术大多面向句子级,导致省略参考点空间表达式独立出现,使空间语义理解困难 .方位参考点恢复无疑可以解决类似问题 .在此提出基于有限知识的方位参考点恢复方法 .在句法分析基础上,以知网为常识库,结合有限知识识别空间表达式以及恢复方位参考点 .实验结果表明该方法比较令人满意 . 相似文献
33.
34.
基于词汇语义计算的文本相似度研究 总被引:7,自引:0,他引:7
基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。 相似文献
35.
随着近年来机器学习方法在自然语言处理领域的应用越发广泛,自然语言处理任务的安全性也引起了研究者们重视.现有研究发现,向样本施加细微扰动可能令机器学习模型得到错误结果,这种方法称之为对抗攻击.文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进.然而,目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略,对抗攻击成功率提升有限,且对样本进行高侵入性修改容易导致样本质量下降.如何更简单、更高效地提升对抗攻击效果,并输出高质量对抗样本已经成为重要需求.为解决此问题,从改进对抗攻击过程的新角度,设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA)及稀释池构建算法(dilution pool construction algorithm, DPCA). SSDA是一种可以自由嵌入经典对抗攻击过程中的新过程,它利用DPCA构建的稀释池先对输入样本进行稀释,再进行对抗样本生成.在未知文本数据集与自然语言模型的情况下,不仅能够提升任意文本对抗攻击方法的攻击成功率,还能够获得相较于原方法更高的对抗样本质量.通过对不同文本数据集、稀释... 相似文献
36.
《吉林化工学院学报》2012,30(7)
词语之间相似度的计算通常有基于统计和基于世界知识2种方法.中文词语相似度的计算,可以通过计算义原的相似度进而计算词语的相似度,在此基础之上深入分析《知网》的义原层次体系,提出了一种将义原在层次体系树上的深度和区域密度2个因素添加到义原相似度计算中的方法.通过实验发现,考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这2个因素得到结果更符合实际. 相似文献
37.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。 相似文献
38.
39.
文章主要提出了一种汉语句子倾向性判别的方法,以情感词的静态极性(褒贬性)为基础,通过对其上下文的分析,通过情感修饰词的修饰关系,计算其动态(修饰)极性,从而提高了句子倾向性识别的准确性。实验结果表明,通过该种方法能够较好地识别句子的倾向性是合理有效的。 相似文献
40.
语义蕴含识别旨在检测和判断两个语句的语义是否一致,以及是否存在蕴含关系.然而现有方法通常面临中文同义词、一词多义现象困扰和长文本难理解的挑战.针对上述问题,本文提出了一种基于Transformer和HowNet义原知识融合的双驱动中文语义蕴含识别方法,首先通过Transformer对中文语句内部结构语义信息进行多层次编码和数据驱动,并引入外部知识库HowNet进行知识驱动建模词汇之间的义原知识关联,然后利用soft-attention进行交互注意力计算并与义原矩阵实现知识融合,最后用BiLSTM进一步编码文本概念层语义信息并推理判别语义一致性和蕴含关系.本文所提出的方法通过引入HowNet义原知识手段解决多义词及同义词困扰,通过Transformer策略解决长文本挑战问题.在BQ、AFQMC、PAWSX等金融和多语义释义对数据集上的实验结果表明,与DSSM、MwAN、DRCN等轻量化模型以及ERNIE等预训练模型相比,该模型不仅可以有效提升中文语义蕴含识别的准确率(相比DSSM模型提升2.19%),控制模型的参数量(16 M),还能适应50字及以上的长文本蕴含识别场景. 相似文献