共查询到18条相似文献,搜索用时 93 毫秒
1.
2.
3.
4.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容. 相似文献
5.
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型.在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率.实验结果表明,使用Siamese LSTM与传统余弦相似度... 相似文献
6.
基于WordNet概念向量空间模型的文本分类 总被引:5,自引:0,他引:5
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 相似文献
7.
基于规则和统计的中文自动文摘系统 总被引:6,自引:2,他引:6
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-measure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 相似文献
8.
利用语料库技术的中文自动文摘系统 总被引:2,自引:0,他引:2
本文着重介绍利用“后邻字符树”的方法在领域语料库中生成字符树库,用于自动文摘候选句子选取时提高精度,介绍了后邻字符树的构造、后邻字符树库的生成及优化和句子权值计算方法。 相似文献
9.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。 相似文献
10.
随着网络信息日益增多,文本摘要变得越来越重要。大多数现有的文摘方法采用的是独立于查询的方法来生成文摘。论文提出了一种将基于查询条件的句子权值计算融入句子重要度计算的文摘技术,实验结果表明该方法生成的文摘能有效提高用户搜索信息的速度并提高准确性。 相似文献
11.
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。 相似文献
12.
13.
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 相似文献
14.
15.
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。 相似文献
16.
谢翠香 《数字社区&智能家居》2009,(19)
学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文抄袭排查,提高工作效率,根治学术腐败,营造更好的创新环境。 相似文献
17.
许琦 《计算机与数字工程》2014,(10)
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。 相似文献