首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
一个基于向量空间模型的中文文本自动分类系统   总被引:33,自引:2,他引:33  
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。  相似文献   

2.
基于HowNet概念获取的中文自动文摘系统   总被引:11,自引:3,他引:11  
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。  相似文献   

3.
提出了能够综合衡量搜索引擎工作性能的六个评测指标,选择了当今主流的三个搜索引擎:谷歌、雅虎和百度进行评测,成功地在两个大型的数据集上实现了整个自动评测系统。实验表明,谷歌工作性能最稳定;雅虎返回的第一个结果最能满足用户的要求,但会受时间因素的影响;百度明显地受关键字类别因素的影响。最后对中搜、狗、爱问进行了评测。  相似文献   

4.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容.  相似文献   

5.
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型.在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率.实验结果表明,使用Siamese LSTM与传统余弦相似度...  相似文献   

6.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

7.
基于规则和统计的中文自动文摘系统   总被引:6,自引:2,他引:6  
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-measure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。  相似文献   

8.
利用语料库技术的中文自动文摘系统   总被引:2,自引:0,他引:2  
本文着重介绍利用“后邻字符树”的方法在领域语料库中生成字符树库,用于自动文摘候选句子选取时提高精度,介绍了后邻字符树的构造、后邻字符树库的生成及优化和句子权值计算方法。  相似文献   

9.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。  相似文献   

10.
随着网络信息日益增多,文本摘要变得越来越重要。大多数现有的文摘方法采用的是独立于查询的方法来生成文摘。论文提出了一种将基于查询条件的句子权值计算融入句子重要度计算的文摘技术,实验结果表明该方法生成的文摘能有效提高用户搜索信息的速度并提高准确性。  相似文献   

11.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

12.
基于向量空间模型的视频语义相关内容挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
对海量视频数据库中所蕴涵的语义相关内容进行挖掘分析,是视频摘要生成方法面临的难题。该文提出了一种基于向量空间模型的视频语义相关内容挖掘方法:对新闻视频进行预处理,将视频转化为向量形式的数据集,采用主题关键帧提取算法对视频聚类内容进行挖掘,保留蕴涵场景独特信息的关键帧,去除视频中冗余的内容,这些主题关键帧按原有的时间顺序排列生成视频的摘要。实验结果表明,使用该视频语义相关内容挖掘的算法生成的新闻视频具有良好的压缩率和内容涵盖率。  相似文献   

13.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

14.
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。  相似文献   

15.
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。  相似文献   

16.
学术腐败已日渐成为社会瞩目的焦点,除了加强科技人员道德自律,还应有相应的技术手段加以监督,由此,该文将信息检索领域中向量空间模型进行了分析改进,并用改进的模型实现了学术论文相似性辨别系统,可供一些机构用来进行学术论文抄袭排查,提高工作效率,根治学术腐败,营造更好的创新环境。  相似文献   

17.
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。  相似文献   

18.
基于基本要素向量空间的英文多文档自动摘要   总被引:1,自引:0,他引:1       下载免费PDF全文
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号