首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。  相似文献   

2.
基于双向LSTM神经网络模型的中文分词   总被引:1,自引:0,他引:1  
中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效果。对中文分词,该文在经典单向LSTM模型上进行改进,增加了自后向前的LSTM层,设计了双向LSTM模型,改进了单向LSTM对后文依赖性不足的缺点;并引入了贡献率α,对前传LSTM层和后传LSTM层的权重矩阵进行调节,并设计了四个实验,验证了所建模型的正确性和优越性。  相似文献   

3.
多文档自动文摘综述   总被引:18,自引:9,他引:18  
秦兵  刘挺  李生 《中文信息学报》2005,19(6):15-20,56
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。  相似文献   

4.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

5.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容.  相似文献   

6.
多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。 该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。  相似文献   

7.
基于时间戳的多文档自动文摘   总被引:1,自引:0,他引:1       下载免费PDF全文
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。  相似文献   

8.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17  
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

9.
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。  相似文献   

10.
一个基于向量空间模型的中文文本自动分类系统   总被引:33,自引:2,他引:33  
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。  相似文献   

11.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。  相似文献   

12.
基于统计方法的汉语自动文摘系统研究   总被引:11,自引:0,他引:11  
本文简要介绍了文本的向量空间模型表示,并提出了用该模型进行非受限真实文本的自动文摘方法。其基本思想是对输入文本进行项(本文为词和概念)的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形成句子的综合权重,生成摘要。文中较详细地介绍了系统的实现及实验结果,同时提出了对文摘系统的评价方法。  相似文献   

13.
为提高家庭服务机器人指令中目标对象预测的准确率,提出一种基于混合深度学习的多模态自然语言理处理(Natural Language Processing,NLP)指令分类方法.该方法从语言特征、视觉特征和关系特征多模态入手,采用两种深度学习方法分别以多模态特征进行编码.对于语言指令,采用多层双向长短期记忆(Bi-LSTM...  相似文献   

14.
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。  相似文献   

15.
现有的孪生网络目标跟踪算法采用边界框模板进行跟踪,在目标形变、遮挡等干扰下很容易导致跟踪漂移。在轮廓检测网络和孪生卷积网络(Siamese)跟踪网络的基础上,提出一种基于深度轮廓模板更新的改进孪生卷积网络目标跟踪算法。利用轮廓检测网络获取目标边缘轮廓,降低背景杂波干扰;利用改进的Siamese网络获得轮廓模板和搜索区域的深度特征;通过相似性匹配获得最优跟踪目标。仿真实验结果表明,所提出的改进模型能够提高目标形变、遮挡等干扰下目标跟踪性能,具有较高的工程应用价值。  相似文献   

16.
基于知识的文本摘要系统研究与实现   总被引:18,自引:2,他引:16  
提出了一个基于知识的文摘系统模型,并基于这种模型实现屯一个文本摘要系统LADIES,另外,还提出了一种文摘系统的评估方法。  相似文献   

17.
数据库NL界面上汉语查询的EAAD模型   总被引:6,自引:0,他引:6  
张亚南  徐洁磐 《计算机学报》1993,16(12):881-888
本文给出一种旨在描述数据库NL界面上汉语查询的语法,语义结构的EAAD模型。通过该模型,数据库自然语言界面上的查询分析与理解,可以与其相应的背景知识 机地结合起来,EAAD模型适合于描述任意构形上的ER模型或与其相应的关系模型上的汉语查询,尤其是描述涉及多实体,多路径的查询的结构规律,有利于增强数据库NL界面的理解力和可移植性。  相似文献   

18.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

19.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号