首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 123 毫秒
1.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。  相似文献   

2.
仇丽青  李伟明 《计算机工程》2010,36(21):265-266,269
针对现有的多文档自动摘要生成方法中存在的问题,提出一种多文档自动摘要生成方法,该方法能够最大限度地减小摘要内容的冗余。选取权重最大的句子作为摘要句,把已选句子中包含的词汇的权重设置为接近0的常数,当下次选择摘要句时,可以避免再次选取包含这些词汇的句子。使用自动摘要评测方法ROUGE对该方法进行评测。实验结果表明,根据该方法抽取的机器摘要能够获得较高的 成绩。  相似文献   

3.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能.  相似文献   

4.
偏重摘要系统是实现智能化信息服务的基础,偏重摘要不区分单文档与多文档,根据用户需求为用户提供结果。该文实现了用关键词密度分布方法获取偏重摘要的一个实验系统。研究了基于关键词密度分布方法生成摘要句的策略,通过两种不同的实验,对系统进行了评测。对实验结果进行了讨论。实验证明,该系统能够基本满足用户的查询要求,在基于检索任务和基于问答任务的两项不同的评测中均得到了较好的实验结果。  相似文献   

5.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。  相似文献   

6.
随着互联网的发展, 如何快速地从海量新闻中获取核心信息, 减少浏览负担, 是信息部门目前急需解决的问题. 现有的TextRank及其改进算法在新闻摘要抽取任务中, 考虑文本特征不全面. 在摘要句选择时, 只考虑到摘要的冗余度, 忽略了摘要的多样性及可读性. 针对上述问题, 本文提出了融合多特征的文本自动摘要方法MF-TextRank(multi-feature TextRank). 根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵, 使句子权重计算更准确. 采用MMR算法更新句子权重, 通过集束搜索得到候选摘要集, 在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出. 实验结果表明, MF-TextRank算法在摘要抽取任务中摘要Rouge得分优于现有改进的TexRank算法, 有效提高了摘要抽取的准确性.  相似文献   

7.
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。  相似文献   

8.
温嘉宝  杨敏 《集成技术》2024,13(1):62-71
裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。  相似文献   

9.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性.  相似文献   

10.
面向查询的文本摘要是自动文摘中的一个特殊领域,可以根据用户个性化的查询需求,从原始文档或文档集中提取有价值的摘要信息。目前,该技术已经在面向查询的搜索引擎、智能化信息检索、问答系统等领域得到广泛应用,并受到越来越多的关注。文章基于面向查询的文本摘要任务的典型技术框架,从查询理解、文档处理和信息组织三个方面对其国内外研究方法的现状进行对比和分析,对不同业务场景的应用进行了举例,归纳了面向查询的文本摘要面临的挑战及发展趋势。  相似文献   

11.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。  相似文献   

12.
针对传统的采用关键词搜索人物图片的方式在使用查询关系人语句进行查询时不能识别语义的不足,设计并实现了一种基于人物关系的图片搜索系统架构.基于文档共现和句子共现的关系度算法,从新闻语料中挖掘了人物之间潜在的关联关系.创建了人物图片的领域本体库,本体中包含亲属、朋友、同事等共174种具有层级结构的人物关系属性.提供一个面向查询关系人句子的本体库查询接口,首先基于依存关系树的合并规则从依存句法树提取查询关系人语句的关键组成部分,然后基于三元组补全算法转换得到SPARQL语句,接着使用SPARQL查询人物图片本体库,实现语义检索.最后给出实验结果验证系统的可行性和有效性.  相似文献   

13.
抽取式摘要的核心问题在于合理地建模句子,正确地判断句子重要性。该文提出一种计算句子话题重要性的方法,通过分析句子与话题的语义关系,判断句子是否描述话题的重要信息。针对自动摘要任务缺乏参考摘要作为训练数据的问题,该文提出一种基于排序学习的半监督训练框架,利用大规模未标注新闻语料训练模型。在DUC2004多文档摘要任务上的实验结果表明,该文提出的话题重要性特征能够作为传统启发式特征的有效补充,改进摘要质量。  相似文献   

14.
传统的信息检索的研究多集中在文档级的检索场景中,然而,句子级的检索在如移动应用以及信息需求更加明确的检索场景下具有非常重要的意义。在句子级的检索场景下,我们认为句子的上下文能够提供更加丰富的语义信息来支撑句子与查询的匹配,基于此,该文提出了一个基于句子上下文的深度语义句子检索模型(context-aware deep sentence matching model, CDSMM)。具体的,我们使用双向循环神经网络来建模句子内部以及句子上下文的语义信息,基于句子和查询的语义信息得到它们的匹配程度,在WebAP句子检索数据集上的实验表明,我们的模型性能显著地优于其他的方法,并取得了目前最好的效果。  相似文献   

15.
文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。  相似文献   

16.
基于XML数据的通用路径表达式的查询   总被引:2,自引:0,他引:2  
郑刚 《微机发展》2004,14(11):94-97
查询重写是数据库研究的一个基本问题,它和查询优化、数据仓库、数据集成、语义缓存等数据库问题密切相关。同时,查询重写也是在关系数据库中存储和查询XML数据的关键问题。由于XML数据是元素嵌套和元素引用的,嵌套层数可以任意,并且模式和数据混合,因此XML的查询会涉及到广义路径表达式(GPE)。文中着重研究了如何解决XML数据的查询重写的方案,把含有广义路径表达式的XML查询语句重写为含有简单路径表达式(SPE)的XML查询语句,再转化为基于关系数据库的SQL语句。  相似文献   

17.
根据新闻文本的特点,分别对新闻标题与正文进行分析,该文提出了一种针对新闻文本的特征加权的主题句抽取方法。首先对新闻主题句在文本中的分布情况进行分析,选取了位置特征;然后根据新闻标题对于新闻主旨的提示作用,选取了标题句子重合度与关联度的特征,且在关联度特征中将基于加权二部图的最大匹配算法融入其中;最后依据句子的得分排名,进行主题句抽取。实验显示,利用该方法进行主题句抽取的P@1为75.9%,P@3 达到92.4%。  相似文献   

18.
沈玺  王永成 《计算机仿真》2006,23(2):222-226
使用语音识别技术为搜索引擎提供语音查询接口,使得奇询概念的输入更为简便。但是,由于查询概念中存在大量的专有名词和名称,识别精度往往不高,影响搜索结果的准确率。该文提出一种在新闻领域内,利用新闻领域知识提高查询概念识别率的方法,通过计算语音识别结果与新闻概念库中概念的语音相似度确定备选结果,计算备选结果与辅助概念的新闻相关度来确定最终的查询概念。实验证明,该方法对新闻搜索引擎的查询概念的纠错收到了良好的效果。  相似文献   

19.
借助新闻事件元素之间的关联特性,提出了基于事件元素无向图的查询扩展方法,利用新闻事件元素之间的关联关系进行查询扩展提升新闻事件检索效果。首先分析候选事件文档与查询项的关系,确定待扩展的元素;然后利用事件元素之间的关联关系构建无向图,通过事件向量空间计算边的权重;最后,利用无向图节点权重模型计算事件元素权重,依据权重进行事件元素扩展。在新闻事件查询扩展方面进行了对比试验,结果表明该文提出的查询扩展方法取得了较好的效果。  相似文献   

20.
跨语言信息检索中查询语句翻译转换算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张孝飞  黄河燕  陈肇雄  代六玲 《计算机工程》2007,33(11):166-167,212
跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,将查询语句的翻译问题转换为查询关键词词典义项的boost值计算,重构目标语查询语句。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号