首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、Text-Rank、LDA等六种方法的对比,该摘要方法ROUGE评测指标上优于其他方法。从结合评测结果及摘要示例可以看出,该文提出的方法可以有效地从新闻文档集中摘取核心信息,满足用户查询内容的信息需求。  相似文献   

2.
通过自动摘要技术对生物医学概念进行摘要抽取,能够提高研究人员查阅和分析相关资料的效率.利用生物医学语义关系抽取多文档摘要,旨在从语义层面比较全面地覆盖查询概念的多方面内容,帮助研究人员快速掌握查询概念的主要信息.从生物医学文本中挖掘出了概念的重要语义关系,并利用语义关系作为衡量句子重要性的特征,生成查询概念的摘要.分析...  相似文献   

3.
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。  相似文献   

4.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

5.
面向查询的多文档摘要技术有两个难点 第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。  相似文献   

6.
支持XML信息检索的索引技术*   总被引:4,自引:0,他引:4  
作为互联网的新技术, XML 已经渗透到了Internet 的很多领域, 结构文档XML 的信息交换、提取、处理、查询的研究也日益受到重视。目前, 已经提出了许多面向XML 的查询语言, 这些查询语言一般基于路径和树模式。从信息检索理论与技术角度出发, 探讨XML 文档的索引技术, 以期达到内容和结构的双重检索。  相似文献   

7.
马建刚  张鹏  马应龙 《计算机应用》2019,39(5):1293-1298
随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效率。针对面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能低问题,提出一种基于司法知识块摘要和词转移距离(WMD)的高效司法文档分类方法。首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要;然后基于司法文本的知识块摘要利用WMD进行司法文档相似度计算;最后利用K最近邻算法进行司法文本分类。以两个典型罪名的案件文档集作为实验数据,与传统的WMD文档相似度计算方法进行对比,实验结果表明,所提方法能明显提高司法文本分类的正确率(分别有5.5和9.9个百分点的提升),同时也降低了文档分类所需的时间(速度分别提升到原来的52.4和89.1倍)。  相似文献   

8.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性.  相似文献   

9.
针对互联网上的“Rich Data Poor Information”问题 ,进行了面向领域的个性化智能检索系统的开发与研究 .系统采用多 Agent技术实现对 web文档索引数据库管理 ;实现基于智能代理的信息过滤和个性化服务 ;利用辅助词典、同义词词典和蕴含词词典 ,对查询词进行概念扩检 ,使检索结果能返回与查询需求相似的文档 .  相似文献   

10.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要。该文主要研究基于多文档的文本情感摘要问题, 重点针对网络上存在同一个产品的多个评论产生相应的摘要。首先,为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的中文多文档文本情感摘要语料库。其次,该文提出了一种基于情感信息的PageRank算法框架用于实现多文档文本情感摘要,该算法同时考虑了情感和主题相关两方面的信息。实验结果表明,该文采用的方法和已有的方法相比在ROUGE值上有显著提高。  相似文献   

11.
伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度。  相似文献   

12.
王凯祥 《计算机科学》2018,45(Z11):12-16
对面向查询的自动文本摘要技术进行系统梳理,分析所用方法的基本思想、优缺点,并总结未来的发展方向。通过分析梳理,总结出了四大类面向查询的自动文本摘要技术:基于图模型的方法、基于机器学习的方法、基于聚类的方法和其他方法。在今后的研究过程中,基于神经网络和多模型融合的方法将成为未来研究的热点,在应用层面上,与实际应用场景相结合的算法研究将成为趋势。  相似文献   

13.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要,用以帮助用户更好地阅读、理解情感文本的内容。该文主要研究多文档的文本情感摘要问题,重点针对网络上存在的同一个产品的多个评论进行摘要抽取。在情感文本中,情感相关性是一个重要的特点,该文将充分考虑情感信息对文本情感摘要的重要影响。同时,对于评论语料,质量高的评论或者说可信度高的评论可以帮助用户更好的了解评论中所评价的对象。因此,该文将充分考虑评论质量对文本情感摘要的影响。并且为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的英文多文档文本情感摘要语料库。实验证明,情感信息和评论质量能够帮助多文档文本情感摘要,提高摘要效果。  相似文献   

14.
基于语义的单文档自动摘要算法   总被引:1,自引:0,他引:1  
章芝青 《计算机应用》2010,30(6):1673-1675
单文档自动摘要的目的是在原始的文本中通过摘取、提炼主要信息,提供一篇简洁全面的摘要。自动摘要的主流方法是通过统计和机器学习的技术从文本中直接提取出句子,而单文档由于篇章有限,统计的方法无效。针对此问题,提出了基于语义的单文本自动摘要方法。该方法首先将文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。实验结果表明,通过融合语义信息,该方法提高了摘要的质量。  相似文献   

15.
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。  相似文献   

16.
研究发现对大规模的数据进行预训练可以更好地从自然语言文本中捕捉更丰富的语义信息,目前很多的多文档摘要的工作也应用了预训练模型并取得了一定的效果。但是这些预训练模型没有考虑到结构化的实体-关系信息。不能更好地从文本中捕获事实性知识。该文提出了基于实体信息增强和多粒度融合的多文档摘要模型MGNIE,该方法将实体关系信息融入预训练模型ERNIE中,增强知识事实以获得多层语义信息,解决摘要生成的事实一致性问题,进而从多种粒度进行多文档层次结构的融合建模,以词信息、实体信息以及句子信息捕捉长文本信息摘要生成所需的关键信息点。该文设计的模型在国际标准评测数据集MultiNews上的实验证明,所提模型对比强基线模型效果和竞争力获得较大提升。  相似文献   

17.
Web中存在着越来越多的XML的文档,如何高效地从XML文档查询出有效信息已经成为当前在半结构化数据研究领域中的热点问题。针对XML文档节点进行编码和建立索引结构可以有效地提高查询速度,提出一种SBXHCI(Schema-Based XML Hybrid Coding Indexing)查询技术,该方法充分利用Schema信息对XML文档进行编码和构建索引。对创建索引所花费的时间和空间,查询响应的时间进行大量的实验分析,结果表明SBXHCI方法的编码机制降低了索引结构在时间和空间的资源消耗,并且在路径查询的响应速度有着显著的提高。  相似文献   

18.
基于概念获取的多文档主题划分研究   总被引:1,自引:0,他引:1  
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值.当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果.本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题.实验结果表明该方法对多个相关文档的主题划分取得了良好的效果.  相似文献   

19.
面向中文新闻领域的移动摘要系统   总被引:1,自引:0,他引:1  
面向移动终端的自动摘要技术,对摘要本身提出了更严格的字数要求。本文设计了一个面向中文新闻领域的移动摘要系统,提取网页中的最大重复串作为文档的关键词集合,利用编辑距离生成适于在移动终端上显示的摘要。对于含有子标题的文档,采用层次型的摘要结构,以提高摘要的覆盖率,并用基于Q&A的评测方法验证了层次型摘要结构对该类文档的有效性。实验结果表明,生成的移动摘要在字数、可读性和完整性具有很好的效果。  相似文献   

20.
中文单文档摘要是把一篇文档压缩成一个更短描述的过程.随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值.但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题.该文提出基于关键信息指导的标题生成算法.算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号