首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 859 毫秒
1.
在高考语文阅读理解中,观点类问题中的观点表达较为抽象,为了从阅读材料中获取与问题相关的答案信息,需要对问题中的抽象词语进行扩展,达到扩展观点类问题的目的。该文提出了基于多任务层级长短时记忆网络(Multi-HLSTM)的问题扩展建模方法。首先将阅读材料与问题进行交互注意,同时建模问题预测和答案预测两个任务,使模型对问题进一步扩展。最后将扩展后的问题与原问题同时应用于问题的答案候选句抽取中。通过在高考语文观点类的真题、模拟题以及DuReader的描述观点类数据集上进行实验,验证了本文的问题扩展模型对答案候选句的抽取性能具有一定的提升作用。  相似文献   

2.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

3.
以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为  相似文献   

4.
为了将语义信息用于文本聚类和有效地进行特征选择,文中提出一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系.然后利用此关系来相互调整彼此的聚类结果.实验结果表明,利用特征与主题之间的语义关联关系能有效提高聚类效果.  相似文献   

5.
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。  相似文献   

6.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

7.
针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主题模型进行双词语义扩展。实验结果表明,与现有Biterm主题模型相比,该模型不仅具有较好的短文本主题分类效果,而且双词间的语义关联性能及主题词义聚类性能也得到明显提升。  相似文献   

8.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

9.
网页与广告关联是基于网页内容的网络广告的核心技术,本文提出了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。首先对一个Web网页进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、上位词扩展、下位词扩展和相关词扩展,最后从待匹配的广告中选择匹配度最高的广告。对该方法进行了模型系统实现并进行了测试运行, 结果表明该方法是行之有效的。  相似文献   

10.
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。  相似文献   

11.
机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法,结合传统的EDA数据增强思路提出了适应于高考阅读理解的EDA策略,针对阅读材料普遍较长的特征提出了基于滑动窗口的材料动态裁剪方式,围绕材料中不同句子的重要性差异明显的问题,提出了基于相似度计算的材料句质量评价方法。实验结果表明,三种方法均能提升高考题阅读理解自动答题的效果,答题准确率最高可提升5个百分点以上。  相似文献   

12.
高考语文阅读理解问答相对普通阅读理解问答难度更大,同时高考问答任务中的训练数据较少,目前的深度学习方法不能取得良好的答题效果。针对这些问题,该文提出融合BERT语义表示的高考阅读理解答案候选句抽取方法。首先,采用改进的MMR算法对段落进行筛选;其次,运用微调之后的BERT模型对句子进行语义表示;再次,通过SoftMax分类器对答案候选句进行抽取,最后利用PageRank排序算法对输出结果进行二次排序。该方法在北京近十年高考语文阅读理解问答题上的召回率和准确率分别达到了61.2%和50.1%,验证了该方法的有效性。  相似文献   

13.
高考语文阅读理解问答相对普通阅读理解问答难度更大,问句抽象表述的理解需要更深层的语言分析技术,答案候选句抽取更注重与问句的关联分析,答案候选句排序更注重答案句之间的语义相关性。为此,该文提出借助框架语义匹配和框架语义关系抽取答案候选句,在排序时引入流形排序模型,通过答案句之间的框架语义相关度将排序分数进行传播,最终选取分数较高的Top-4作为答案句。在北京近12年高考语文阅读理解问答题上的准确率与召回率分别达到了53.65%与79.06%。  相似文献   

14.
王元龙 《计算机应用》2017,37(6):1741-1746
阅读理解任务需要综合运用文本的表示、理解、推理等自然语言处理技术。针对高考语文中文学作品阅读理解的选项题问题,提出了基于分层组合模式的句子组合模型,用来实现句子级的语义一致性计算。首先,通过单个词和短语向量组成的三元组来训练一个神经网络模型;然后,通过训练好的神经网络模型来组合句子向量(两种组合方法:一种为递归方法;另一种为循环方法),得到句子的分布式向量表示。句子间的一致性利用两个句子向量之间的余弦相似度来表示。为了验证所提方法,收集了769篇模拟材料+13篇北京高考语文试卷材料(包括原文与选择题)作为测试集。实验结果表明,与传统最优的基于知网语义方法相比,循环方法准确率在高考材料中提高了7.8个百分点,在模拟材料中提高了2.7个百分点。  相似文献   

15.
阅读理解因果关系类选项是指存在因果线索词的选项,此类选项需要根据原文中的因果关系表征进行作答。基于高考阅读理解任务构建因果关系网络,提出融合因果关系表征的因果关系类选项判断方法。采用模式匹配方法抽取原文的因果句对,根据文章因果句对抽取出因果关系词对,并通过点互信息计算因果关系词对之间的因果关联强度,从而构建因果关系网络来表征原文的因果关系。在此基础上,将因果关系表征融入到BERT模型中,预测因果关系选项和原文是否一致。同时,根据高考阅读理解大纲结合语料库发现错误类型分为因果颠倒、强加因果、偷换原因或结果、其他类型等4类,根据每一种错误类型的特点结合预测结果确定选项的错误类型,并提供一个错误解释,以增强方法的可解释性。选用近15年全国高考试题及模拟题中的4 071个科技类阅读理解因果选项进行实验,结果显示F1值达到62.09%,验证了该方法的有效性。  相似文献   

16.
选项多标签分类是高考文学类阅读理解选择题解答任务中的重要一环,对不同标签类型的选项调用不同的答题引擎,可以有效提高选择题答题准确率。由于选项类型复杂多样,一个选项可能有多个类别特征,将其看作多标签分类任务。传统多标签分类算法仅考虑到文本与标签间相关性,忽略了标签间相关性,且选项内部存在着强语义关联性,对最终的标签预测产生较大影响。为了充分利用选项内相关性,提出一种基于混合注意力的Seq2seq模型,同时考虑选项标签间相关性和选项内相关性。采用Bi-LSTM获得选项到标签的相互信息,利用多头自注意力获得选项内关联语义。为获取标签间语义相关性,使用标签嵌入方式进行隐式融合。在高考文学类阅读理解选择题数据集上的实验结果表明,对多种相关性建模能有效提升选项多标签分类精度。  相似文献   

17.
高考语文阅读理解篇章标题选择题要求机器根据对篇章内容的理解,从多个候选项中选取能够准确恰当的概括表达篇章内容的选项。标题往往是高度凝练且能准确表达文意、结构鲜明的词串。因此,如何对篇章内容进行归纳概括、对标题结构进行梳理和分析是解答篇章标题选择题的关键。针对该问题,提出了标题与篇章要点相关性分析模型。该模型通过分析标题与篇章要点的相关性,构建了基于标题和篇章要点的相关度矩阵。在此基础上融入标题结构特征,选取与篇章最相关的标题。在全国近10年高考真题和测试题上进行实验,验证了该方法的有效性。  相似文献   

18.
刘啸  杨敏 《集成技术》2022,11(2):67-78
近年来,基于深度学习的机器阅读理解模型研究取得显著进展,但这些模型在全局语义关系构建以及较长距离推理上仍有显著缺陷,在对段落文本进行推理时,大多只把文本信息看作词的序列,而没有探索词与词之间丰富的语义关系.为了解决上述问题,该文提出一种新的基于动态图神经网络的会话式机器阅读理解模型.首先,提取文本中的实体,使用句法结构...  相似文献   

19.
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号