首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

2.
Internet网络新闻文本自动摘要的研究   总被引:6,自引:0,他引:6  
官礼和 《计算机工程与设计》2007,28(14):3518-3520,F0003
给出了Internet网络新闻中文文本自动摘要的基本思路和基本步骤,讨论了断句、分词算法.针对自动摘要中新闻文本的4种形式特征,提出了一套新的自动摘要方案:首先综合新闻文本的4种形式特征对词汇和句子赋予不同的权值,然后根据权值大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅且具备一定质量的摘要.最后实验分析表明效果较好.  相似文献   

3.
一种面向新闻文献的自动摘要系统的研究与实践   总被引:3,自引:0,他引:3  
主要介绍一种面新闻文献的摘要系统的研究与实践,阐述了面向新闻文献的自动摘要原理,在建立新闻文献主题提取规则库过程中的几点体会,又简要地介绍了系统的流程,最后给出了对该系统进行大规模箱测试的结果,评测结果显示该系统已经基本成熟,可以用于实际应用中。  相似文献   

4.
央金藏文分词系统   总被引:3,自引:0,他引:3  
藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。  相似文献   

5.
当前,搜索引擎是互联网的一个重要组成部分.其网页摘要采用的是静态网页额摘要,用户不能快速从网页 摘要中获取网页内容的主题思想.本文在开源搜索引擎Nutch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确 度的速度.  相似文献   

6.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

7.
计算语句的类似度在自动问答、机器翻译、信息检索和自动摘要等算法中有着非常重要的作用。首先归纳了语句类似度计算的方法,综合考虑关键词特征、语义特征、句式特征和语句长度特征等信息并提出一种优化语句类似度计算方法,以语句权重计算方法以及冗余处理优化处理为基础,实现一个改进的自动摘要算法。通过在DUC的测评语料上进行仿真,实验结果证明了该算法对于摘要质量优化的高效性。最后,讨论了自动摘要研究存在的问题,并指出自动摘要的研究趋势。  相似文献   

8.
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。  相似文献   

9.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

10.
藏文自动分词系统的设计与实现   总被引:15,自引:3,他引:15  
藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。  相似文献   

11.
一种篇章结构指导的中文Web文档自动摘要方法   总被引:29,自引:0,他引:29  
“摘要”、“关键词”是对文档内容提供简要概括的元数据,在Web信息检索中起着重要作用。针对Web信息检索的需求和Web文档的特点,采用拟人思维,提出了一种以篇章结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的篇章结构;在篇章结构的指导下,使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

12.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果.  相似文献   

13.
基于Web挖掘的智能门户搜索引擎的研究   总被引:31,自引:0,他引:31  
搜索引擎是人们在Internet上快速获得信息的重要工具之一,但是由于中文自身的特点,使得检索结果的准确性和相关性不是很高,将Web挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。文章首先介绍了搜索引擎的工作原理和相关概念,然后介绍了Web挖掘的定义、分类和应用。最后,详细讨论了Web挖掘技术在智能搜索引擎的重要应用。  相似文献   

14.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

15.
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息.由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败.鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑.  相似文献   

16.
随着互联网爆炸性的发展,搜索引擎技术不断发展和完善。从理论上研究了一种基于蚁群算法的搜索引擎算法,并通过仿真实验证明了该算法可以提高搜索效率,具有本质并行性,易于在网络上的分布式系统中实现,并能够较好地维护系统稳定性。  相似文献   

17.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。  相似文献   

18.
在教育网内FTP站点资源不断丰富的情况下,具备快速文件检索能力的搜索引擎对高校师生来说尤为重要.本文从分析高校FTP搜索引擎系统的整体结构出发,主要研究其信息采集技术的三个组件.并对提高搜索引擎效率的其他技术进行了详尽阐述.  相似文献   

19.
搜索引擎结果中Web文档的排序研究   总被引:1,自引:0,他引:1  
信息检索结果中,如何对检索结果进行排序在很大程度上影响了用户所得到的检索结果。对现存典型的词频统计排序技术和超链分析排序技术进行了分析,并借助向量空间模型,提出了一种基于概念语义的查询词-文档相似度排序方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号