首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 125 毫秒
1.
中文自动分词模块是自动答疑系统的一个重要功能模块.在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现.  相似文献   

2.
学习研究了搜索引擎的工作原理,对办公系统及部分信息管理系统建立了统一的索引信息,针对检测业务查询关键字及基于字典词库的中文分词技术,建立了检测中心内部办公及相关信息系统的搜索引擎查询机制,并将中文分词技术应用于企业级的知识库软件confluence,实现系统的专业中文词汇检索查询功能。  相似文献   

3.
基于中文文本分类的分词方法研究   总被引:13,自引:1,他引:13  
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。  相似文献   

4.
庞海杰 《计算机应用》2012,32(7):2038-2040
为及时有效地获取商品评价信息,提出了基于评价对象识别的商品评价信息检测方法。首先在中文分词的基础上,依据词性标注结果抽取商品评价信息中的候选评价对象;然后基于规则过滤和共现扩展的方法得到精准评价对象;最后实现了基于评价对象识别的商品评价信息检测方法。实验结果表明,与基本模型相比,提出的商品评价信息检测方法的F-Measure提高了34.8%,证明了充分挖掘商品评价信息中的评价对象可以非常有效地改善检测方法的性能。  相似文献   

5.
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。  相似文献   

6.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

7.
在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。  相似文献   

8.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

9.
基于Lucene.Net的知识检索系统的设计与实现   总被引:1,自引:0,他引:1  
在Lucene.Net的基础上,设计并实现了一种知识检索系统--基于奥运知识库的检索系统,该系统对Lucene.Net的中文分词功能进行了改进,即采用双字哈希机制的中文分词器,提高了对中文分词的支持度,并增加了新增生词的功能,能提高检索的准确度.  相似文献   

10.
分词词典是汉语自动分词系统中的一个基本组成部分,其查询速度直接影响到分词系统的处理速度。文章提出并实现了一种用哈希算法和二分查找算法相结合的中文单词查找算法,实验显示,该算法可以实现对字符串的快速查找。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号