首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 122 毫秒
1.
中文自动分词模块是自动答疑系统的一个重要功能模块.在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现.  相似文献   

2.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

3.
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。  相似文献   

4.
文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。  相似文献   

5.
基于元数据的WEB信息描述方法的应用研究   总被引:1,自引:0,他引:1  
本文介绍了元数据的概念,并以元数据为基础,以中文WEB文档的自动抽词、中文Web文档关键词的提取和自动摘要、中文WEB文档的自动分类为流程介绍了WEB信息描述的方法,并建立了无字典自动抽词模型,对中文WEB文档的自动分类作了深入的理论探讨。  相似文献   

6.
In addition to Chinese character I/O, one of the most important issues for Chinese informationprocessing is automatic extraction of words from textual data. Having discussed the characteristics ofChinese words and sentences, we proved in this paper that this problem cannot be thoroughly resolved.Then, various algorithms for extraction of words from Chinese sentences are reviewed. Finally, a newalgorithm is put forward, based on which a highly automatic Chinese information processing system hasbeen developed.  相似文献   

7.
汉语树库的构建   总被引:11,自引:7,他引:11  
本文讨论了汉语树库构建的若干基础问题, 包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型, 介绍了一个已经实现的汉语自动句法标注系统, 和在此基础上进行的一些树库构建实验, 最后提出了构建大规模汉语树库的设想。  相似文献   

8.
基于语料库和网络的新词自动识别   总被引:6,自引:0,他引:6  
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log-likelihood ratio两个参数的改进形式。主要分三个阶段完成:先从网络上下载丰富的语料,构建语料库;然后采用统计的方法进行多字词识别;最后与已有的词表进行对照,判定新词。  相似文献   

9.
信息过滤中的中文自动分词技术研究   总被引:2,自引:0,他引:2  
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。  相似文献   

10.
中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号