首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
词典是自动分词基础,分词词典机制的优劣直接影响到中文分词速度和效率.本文在对中文编码体系和中文分词的算法进行研究的基础上,设计一种新的分词词典,以及基于该词典结构上的一种多次Hash自动分词算法.分析表明,该算法的时间复杂度有很大的改善.  相似文献   

2.
简要分析了当前自动答疑系统的缺陷及其重要性,设计了一个基于Lucene的自动答疑系统。该系统充分利用了Lucene强大的检索机制,设计了针对于本答疑系统的专业词典,采用了当前最流行的二级哈希词典存储结构,同时提出了一种优化的最大匹配中文分词算法并应用到Lucene当中,弥补了Lucene自带分词器的不足。  相似文献   

3.
汉语文本自动分词算法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。  相似文献   

4.
汉语自动分词实用系统CASS的设计和实现   总被引:9,自引:1,他引:8  
近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。  相似文献   

5.
郑耿忠 《计算机工程与设计》2007,28(9):2224-2226,2235
汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在.针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提出了一种改进型的自动分词算法,对该算法及其在智能答疑系统中的应用进行了分析,有利于提高智能答疑系统答疑的准确性和智能性,具有一定的实用价值.  相似文献   

6.
基于反序词典的中文分词技术研究   总被引:2,自引:1,他引:1  
中文自动分词是计算机中文信息处理中的难题.在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统.实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高.  相似文献   

7.
程节华 《微机发展》2008,(7):181-183
在基于FAQ的智能答疑系统中,分词处理是基础和关键。分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹配的分词算法。为了提高词典的查找速度,分词词典采用Hash表和二维数组的数据结构,根据汉字的内码利用Hash方法,求得在内存的地址,然后计算其索引项的二维数组的下标,对于词典的搜索采用二分查找法。实验结果表明:该分词系统提高了智能答疑系统的效率和准确率。  相似文献   

8.
基于FAQ的智能答疑系统中分词模块的设计   总被引:1,自引:0,他引:1  
在基于FAQ的智能答疑系统中,分词处理是基础和关键.分词质量的好坏直接影响智能答疑系统的准确性.针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹配的分词算法.为了提高词典的查找速度,分词词典采用Hash表和二维数组的数据结构,根据汉字的内码利用Hash方法,求得在内存的地址,然后计算其索引项的二维数组的下标,对于词典的搜索采用二分查找法.实验结果表明:该分词系统提高了智能答疑系统的效率和准确率.  相似文献   

9.
汉语自动分词词典机制的实验研究   总被引:70,自引:4,他引:66  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献   

10.
中文自动分词是计算机中文信息处理中的难题。在对中文分词的现有技术研究的基础上,对反序最大匹配分词方法进行了较深入的研究探讨,在此基础上对中文分词的词典结构和分词算法做了一部分改进,设计了基于反序词典的中文分词系统。实验表明,该改进算法加快了中文的分词速度,使得中文分词系统的效率有了显著提高。  相似文献   

11.
一种基于生语料的领域词典生成方法   总被引:7,自引:0,他引:7  
为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法;利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集,然后利用规则对其进行优化,最终生成领域词典.词典的生成过程基本上是自动完成的,人工干预少,易于更新;目前.本方法生成的领域词典已经应用于我们自主开发的“基于Web的智能答疑系统”中,并取得了较好的效果.  相似文献   

12.
汉语自动分词方法   总被引:26,自引:0,他引:26       下载免费PDF全文
本文给出了为汉语自动分词而提出了机械匹配法,特征词库法,约束矩法,语法2分析法和理解切法。  相似文献   

13.
文本自动校对是自然语言处理的一个挑战性的研究课题,也是一个难题。该文对中文的错误类型和原因进行分析,提出了一种基于领域问答系统用户问题日志的错别字自动发现方法。该方法首先对语料进行分词,然后对分词的结果中出现的散串进行合并,对分词中的多字词和合并的串进行相似词串聚类,对相似词串的上下文语境进行统计分析,从中自动获取错别字对。实验表明,该系统获得71.32%的召回率,82.6%的准确率。  相似文献   

14.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

15.
基于FAQ的自动答疑系统的设计与实现   总被引:1,自引:0,他引:1  
设计并实现了一个基于FAQ的自动答疑系统。阐述了自动答疑过程的主要环节和基本流程,介绍了系统实现的关键技术,包括改进的汉语自动分词算法、问句关键词的提取与同义词变换、疑问词分类与知识点分类相结合的问题分类法、根据用户问题建立候选问题集和问句相似度计算等。实验表明,答疑系统对用户问题的回答具有较高的准确率。  相似文献   

16.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。  相似文献   

17.
中文自动分词系统的设计模型   总被引:10,自引:1,他引:9  
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。  相似文献   

18.
针对中文信息处理中词与词之间的歧义切分难点,通过分析词语之间的逻辑关系,然后用泛布尔代数将其表达出来,再将此算法用于汉语自动分词系统。实验表明此方法提高了分词的速度和准确性,达到了较好的分词效果。  相似文献   

19.
大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号