共查询到20条相似文献,搜索用时 123 毫秒
1.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。 相似文献
2.
3.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能. 相似文献
4.
5.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。 相似文献
6.
随着互联网的发展, 如何快速地从海量新闻中获取核心信息, 减少浏览负担, 是信息部门目前急需解决的问题. 现有的TextRank及其改进算法在新闻摘要抽取任务中, 考虑文本特征不全面. 在摘要句选择时, 只考虑到摘要的冗余度, 忽略了摘要的多样性及可读性. 针对上述问题, 本文提出了融合多特征的文本自动摘要方法MF-TextRank(multi-feature TextRank). 根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵, 使句子权重计算更准确. 采用MMR算法更新句子权重, 通过集束搜索得到候选摘要集, 在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出. 实验结果表明, MF-TextRank算法在摘要抽取任务中摘要Rouge得分优于现有改进的TexRank算法, 有效提高了摘要抽取的准确性. 相似文献
7.
《计算机科学与探索》2016,(3):372-380
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。 相似文献
8.
裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。 相似文献
9.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性. 相似文献
10.
11.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。 相似文献
12.
针对传统的采用关键词搜索人物图片的方式在使用查询关系人语句进行查询时不能识别语义的不足,设计并实现了一种基于人物关系的图片搜索系统架构.基于文档共现和句子共现的关系度算法,从新闻语料中挖掘了人物之间潜在的关联关系.创建了人物图片的领域本体库,本体中包含亲属、朋友、同事等共174种具有层级结构的人物关系属性.提供一个面向查询关系人句子的本体库查询接口,首先基于依存关系树的合并规则从依存句法树提取查询关系人语句的关键组成部分,然后基于三元组补全算法转换得到SPARQL语句,接着使用SPARQL查询人物图片本体库,实现语义检索.最后给出实验结果验证系统的可行性和有效性. 相似文献
13.
14.
传统的信息检索的研究多集中在文档级的检索场景中,然而,句子级的检索在如移动应用以及信息需求更加明确的检索场景下具有非常重要的意义。在句子级的检索场景下,我们认为句子的上下文能够提供更加丰富的语义信息来支撑句子与查询的匹配,基于此,该文提出了一个基于句子上下文的深度语义句子检索模型(context-aware deep sentence matching model, CDSMM)。具体的,我们使用双向循环神经网络来建模句子内部以及句子上下文的语义信息,基于句子和查询的语义信息得到它们的匹配程度,在WebAP句子检索数据集上的实验表明,我们的模型性能显著地优于其他的方法,并取得了目前最好的效果。 相似文献
15.
文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。 相似文献
16.
基于XML数据的通用路径表达式的查询 总被引:2,自引:0,他引:2
查询重写是数据库研究的一个基本问题,它和查询优化、数据仓库、数据集成、语义缓存等数据库问题密切相关。同时,查询重写也是在关系数据库中存储和查询XML数据的关键问题。由于XML数据是元素嵌套和元素引用的,嵌套层数可以任意,并且模式和数据混合,因此XML的查询会涉及到广义路径表达式(GPE)。文中着重研究了如何解决XML数据的查询重写的方案,把含有广义路径表达式的XML查询语句重写为含有简单路径表达式(SPE)的XML查询语句,再转化为基于关系数据库的SQL语句。 相似文献
17.
18.
使用语音识别技术为搜索引擎提供语音查询接口,使得奇询概念的输入更为简便。但是,由于查询概念中存在大量的专有名词和名称,识别精度往往不高,影响搜索结果的准确率。该文提出一种在新闻领域内,利用新闻领域知识提高查询概念识别率的方法,通过计算语音识别结果与新闻概念库中概念的语音相似度确定备选结果,计算备选结果与辅助概念的新闻相关度来确定最终的查询概念。实验证明,该方法对新闻搜索引擎的查询概念的纠错收到了良好的效果。 相似文献
19.