首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

2.
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用B...  相似文献   

3.
分析一些篇章结构特征,探讨一种基于篇章结构的自动文摘方法.充分结合篇章结构提供的信息,采用动态聚类算法划分文章子主题;以各子主题为单位摘要,通过句子相关度计算,合并各部分摘要的重叠内容;将精简后的各部分摘要顺序输出生成篇章摘要.该摘要方法实行全文加权,局部抽取,从全面性和准确性上提高摘要质量.  相似文献   

4.
如何在数量巨大的Internet中快速准确搜索到符合要求的Web页是一个值得探讨的重要课题。构造一种能够根据句式和词频对Web文本自动模型,运用人工免疫算法使该模型具有较高的聚类精度和自发现能力,实验结果表明,该模型不仅能够有效对各类Web文本进行,保持较低的错误肯定率和错误否定率,还具有很强的自适应性和更新能力,在算法复杂度上也具备一定优势。  相似文献   

5.
基于网站结构挖掘的Web文档自动分类   总被引:3,自引:0,他引:3  
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。  相似文献   

6.
一种混合型的汉语篇章结构自动分析方法   总被引:5,自引:0,他引:5  
张益民  陆汝占  沈李斌 《软件学报》2000,11(11):1527-1533
提出一种混合型的汉语篇章结构自动分析方法.此方法主要基于RST(rhetorical structure theory)分析、主位模式分析等多种语言学方法,还利用了向量空间模型等统计方法.提出并 实现了一种确定性RST分析算法.与其他现有方法相比,此方法具有更大的适用范围和更高的 处理精度.  相似文献   

7.
8.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17  
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

9.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

10.
王健  韩广琳 《福建电脑》2007,(8):132-132,137
自动文本摘技术的出现为人们快速阅读的带来了极大的方便,本文地对于Web文本的特征设计出了计算词权重系数公式及句子得分公式.并对Luhn算法进行了改进.  相似文献   

11.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。  相似文献   

12.
基于内容的网页特征提取   总被引:5,自引:1,他引:5  
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。  相似文献   

13.
从文档对象模型的角度对网页文档格式进行了研究,给出了基于文档对象获取的网页制作题自动阅卷方案,弥补了以往用文本匹配方式进行阋卷在知识点定位及取值过程中的不足。  相似文献   

14.
随着Web服务技术的发展,越来越多的社区引入了Web服务。为了更好地满足用户的要求,本文提出了一种为社区用户推荐服务的方法CWSR。CWSR首先对服务质量即QoS给出了定量的测算,然后通过解析服务的WSDL文档提取出服务关键字,计算社区与服务关键字的相似性从而获得服务对社区的相关度,最后结合两者与历史评分数据训练得出某特殊社区的推荐模型,根据该模型预测其它服务对于该社区的推荐指数。实验表明,本文提出的方法具有比以往方法更优的推荐质量。  相似文献   

15.
随着自助出版系统文本规模的迅速增长,选用合理的推荐技术有利于"长尾"文本的发掘和价值实现。针对自助出版文本,设计了基于有向图的聚类算法DCA(Directed Graph Clustering Algorithm),将聚类看成是确定对象的过程,根据词间信息传递量的大小选定特征词集对文本进行聚类。为改善"长尾"文本聚类的有效性,文中所述系统设置了浮动相似度阙值及推荐公共池。实验结果表明,较之K-Means算法,该算法有较强的自适应性和通用性,能有效地运用到自助出版文本的个性化推荐系统领域。  相似文献   

16.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

17.
PériCulture is the name of a research project at theUniversité de Montréal which is part of a largerproject based at the Université de Sherbrooke. The parentproject aimed to form a research network for managing Canadiandigital cultural content. The general research objective ofPériCulture was to study indexing methods for web-basednon-textual cultural content, specifically still images. Theresearch results reported here build on work in image indexingand automatic (text) indexing by studying properties of textassociated with images in a networked environment to try togain some understanding of how the ancillary text associatedwith images on web pages can be exploited to index the correspondingimages. We studied this question in the context of selectedweb sites, i.e. that contained multimedia objects, that hadtext associated with these objects (broader than file namesand captions), that were bilingual (English and French), andthat housed Canadian digital cultural content. We identifiedkeywords that were useful in indexing and studied their proximityto the object described. Potential indexing terms were identifiedin various HTML tags and full text (each considered a differentsource of ancillary text). Our study found that a large numberof useful indexing terms are available in the ancillary textof many web sites with cultural content, and that ancillarytext of different sources have variable usefulness in retrieval.Our results suggest that these terms can be manipulated in anumber of ways in automated retrieval systems to improve searchresults.  相似文献   

18.
一种基于多关键字的新闻视频自动检索方法   总被引:1,自引:0,他引:1  
周生  胡晓峰  罗批 《计算机科学》2010,37(1):181-183
针对TBVR技术中人工标注存在的问题和CBVR技术的不成熟,以及对虚拟新闻系统中视频检索需求和特点的深入分析,在TBVR的基础上提出了一种基于多关键字的新闻视频自动检索方法。详细讨论了标注字典库、树形标注结构、关键字自动获取、相似度计算模型和自动检索算法等问题,并进行了实验验证。结果表明,提出的方法在对新闻视频进行检索时取得了很高的查全率,同时取得了较高的查准率,能够解决虚拟新闻系统中视频自动检索的问题。  相似文献   

19.
关键词作为文本的概要信息,是信息检索,特别是针对海量Web信息处理的基础。由于手工分配关键词是一项耗时性的工作,因此不需要训练集的非监督关键词获取方法研究受到了关注。本文以语义聚类为模型,以词在给定语境和词义本身两种语义距离的计算为基础,给出一种关键词获取算法。实验结果表明,该算法得到较好的查准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号