共查询到19条相似文献,搜索用时 171 毫秒
1.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。 相似文献
2.
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用B... 相似文献
3.
贾果 《计算机与数字工程》2007,38(6):10-13,31
分析一些篇章结构特征,探讨一种基于篇章结构的自动文摘方法.充分结合篇章结构提供的信息,采用动态聚类算法划分文章子主题;以各子主题为单位摘要,通过句子相关度计算,合并各部分摘要的重叠内容;将精简后的各部分摘要顺序输出生成篇章摘要.该摘要方法实行全文加权,局部抽取,从全面性和准确性上提高摘要质量. 相似文献
4.
如何在数量巨大的Internet中快速准确搜索到符合要求的Web页是一个值得探讨的重要课题。构造一种能够根据句式和词频对Web文本自动模型,运用人工免疫算法使该模型具有较高的聚类精度和自发现能力,实验结果表明,该模型不仅能够有效对各类Web文本进行,保持较低的错误肯定率和错误否定率,还具有很强的自适应性和更新能力,在算法复杂度上也具备一定优势。 相似文献
5.
6.
8.
基于篇章多级依存结构的自动文摘研究 总被引:17,自引:0,他引:17
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。 相似文献
9.
10.
自动文本摘技术的出现为人们快速阅读的带来了极大的方便,本文地对于Web文本的特征设计出了计算词权重系数公式及句子得分公式.并对Luhn算法进行了改进. 相似文献
11.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。 相似文献
12.
基于内容的网页特征提取 总被引:5,自引:1,他引:5
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。 相似文献
13.
从文档对象模型的角度对网页文档格式进行了研究,给出了基于文档对象获取的网页制作题自动阅卷方案,弥补了以往用文本匹配方式进行阋卷在知识点定位及取值过程中的不足。 相似文献
14.
随着Web服务技术的发展,越来越多的社区引入了Web服务。为了更好地满足用户的要求,本文提出了一种为社区用户推荐服务的方法CWSR。CWSR首先对服务质量即QoS给出了定量的测算,然后通过解析服务的WSDL文档提取出服务关键字,计算社区与服务关键字的相似性从而获得服务对社区的相关度,最后结合两者与历史评分数据训练得出某特殊社区的推荐模型,根据该模型预测其它服务对于该社区的推荐指数。实验表明,本文提出的方法具有比以往方法更优的推荐质量。 相似文献
15.
随着自助出版系统文本规模的迅速增长,选用合理的推荐技术有利于"长尾"文本的发掘和价值实现。针对自助出版文本,设计了基于有向图的聚类算法DCA(Directed Graph Clustering Algorithm),将聚类看成是确定对象的过程,根据词间信息传递量的大小选定特征词集对文本进行聚类。为改善"长尾"文本聚类的有效性,文中所述系统设置了浮动相似度阙值及推荐公共池。实验结果表明,较之K-Means算法,该算法有较强的自适应性和通用性,能有效地运用到自助出版文本的个性化推荐系统领域。 相似文献
16.
基于支持向量机的中文网页自动分类 总被引:5,自引:0,他引:5
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。 相似文献
17.
PériCulture is the name of a research project at theUniversité de Montréal which is part of a largerproject based at the Université de Sherbrooke. The parentproject aimed to form a research network for managing Canadiandigital cultural content. The general research objective ofPériCulture was to study indexing methods for web-basednon-textual cultural content, specifically still images. Theresearch results reported here build on work in image indexingand automatic (text) indexing by studying properties of textassociated with images in a networked environment to try togain some understanding of how the ancillary text associatedwith images on web pages can be exploited to index the correspondingimages. We studied this question in the context of selectedweb sites, i.e. that contained multimedia objects, that hadtext associated with these objects (broader than file namesand captions), that were bilingual (English and French), andthat housed Canadian digital cultural content. We identifiedkeywords that were useful in indexing and studied their proximityto the object described. Potential indexing terms were identifiedin various HTML tags and full text (each considered a differentsource of ancillary text). Our study found that a large numberof useful indexing terms are available in the ancillary textof many web sites with cultural content, and that ancillarytext of different sources have variable usefulness in retrieval.Our results suggest that these terms can be manipulated in anumber of ways in automated retrieval systems to improve searchresults. 相似文献
18.
19.
关键词作为文本的概要信息,是信息检索,特别是针对海量Web信息处理的基础。由于手工分配关键词是一项耗时性的工作,因此不需要训练集的非监督关键词获取方法研究受到了关注。本文以语义聚类为模型,以词在给定语境和词义本身两种语义距离的计算为基础,给出一种关键词获取算法。实验结果表明,该算法得到较好的查准率。 相似文献