首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
汉语自动分词方法   总被引:26,自引:0,他引:26       下载免费PDF全文
本文给出了为汉语自动分词而提出了机械匹配法,特征词库法,约束矩法,语法2分析法和理解切法。  相似文献   

2.
汉语自动分词实用系统CASS的设计和实现   总被引:9,自引:1,他引:8  
近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。  相似文献   

3.
汉语自动分词系统的评价   总被引:1,自引:0,他引:1  
汉语自动分词是中文信息处理中最基本的工作。近年来,已有多种自动分词软件问世,但尚无评价此类软件的标准、模型和方法。本文针对自动分词软件的特点,提出了自动分词软件的评价准则,并给出了定性和定量的度量方法。  相似文献   

4.
尹锋  林业平 《软件世界》1996,(12):85-88
一、神经网络的基本特征和信息处理能力 神经网络是一个具有高度非线性的超大规模连续时间动力系统,其最主要特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。同时它又具有一般非线性动力系统的共性,即不可预测性、吸引性、耗散性、非平衡性、不可逆性、高维性、广泛联结性与自适应性等。因此它实际上是一个超大规模非线性连续时间自适应信息处理系统。  相似文献   

5.
本文阐述了自动分词技术的理论与技术创新点,提出了一个适用于中英文WWW搜索引擎的分词器的实现,它具有高速的特点,同时具有较好的切分精度。该分词技术能对外提供基于全文和关键字检索的接口,并采用一系列的策略来提高切分速度,优化结构。它已应用于“中英文WWW搜索引擎系统”中,应用效果较好。  相似文献   

6.
汉语自动分词技术的现状及发展趋势   总被引:11,自引:0,他引:11  
尹锋  林亚平 《软件世界》1996,(12):80-84
一、汉语自动分词的提出与困难 汉语自动分词是80年代初期中文信息处理领域提出的重大课题,分为书面汉语分词和口词分词,前者指对键盘输入或以光电识别输入计算机的汉语进行处  相似文献   

7.
汉语自动分词词典机制的实验研究   总被引:66,自引:4,他引:66  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献   

8.
汉语自动分词和词性标注评测   总被引:6,自引:2,他引:6  
本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试中所采用的一种柔性化的自动测试方法,该方法在一定程度上克服了界定一个具体分词单位的困难。同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议。  相似文献   

9.
神经网络专家系统集成式汉语自动分词技术   总被引:2,自引:0,他引:2  
尹锋  林亚平 《软件世界》1996,(12):89-93
一、神经网络专家系统分词方法的基本构想 神经网络专家系统(NNES)是以人工神经网络为核心建造的一种集成式智能系统,它与传统的人工智能的关系不是简单取代而是互为补充辨证统一的关系,它不仅可以实现专家系统的基本功能,模仿人类专家的逻辑思维方式进行推理决策和问题求解;还具有学习能力、自适应能力、并行推理和联想记忆能力。 一个神经网络专家系统可以定义为一个四元组 NNES=(KB,NN,EX,SM)  相似文献   

10.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

11.
中文分词算法在搜索引擎应用中的研究   总被引:14,自引:1,他引:14  
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。  相似文献   

12.
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。  相似文献   

13.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

14.
汉语自动分词研究及其在信息检索中的应用   总被引:10,自引:0,他引:10  
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。  相似文献   

15.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

16.
中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序.  相似文献   

17.
18.
对互联网环境下中文分词系统的一种架构改进   总被引:1,自引:0,他引:1  
在现有的分词系统基础上,给出一种引入学习新词过程的中文分词系统架构。该架构基于统计方法学习新词条,并运用到分词过程中。实验结果表明,引入动态增长的词库可以提高互联网环境下中文分词的精确度。  相似文献   

19.
如何高效率的获取满足个性化的需求成为了新时代的一个热门话题,搜索引擎在一定程度上体现了这一点。然而在搜索引擎中,内部分词算法机制是关键环节,它的目的在于选取好的关键字。一个好的分词算法会降低用户搜索信息的时间和难度,大大提高查询信息的效率。然而目前有很多分词算法,它们的性能和效率各不相同,本文的主要研究目的是探讨目前几种比较流行分词器算法的工作机制,根据它们自身的不同特点,在准确率和召回率这两个方面来比较它们的性能,并进一步研究它们是如何处理用户关键字的。  相似文献   

20.
基于图切割的图像自动分割方法   总被引:1,自引:0,他引:1  
针对图切割在图像分割中的研究主要集中于交互式图像分割,提出一种基于图切割,对彩色图像和灰度图像均可进行自动分割的方法。通过对图像进行初始化,建立能量函数的数据项、光滑项,图切割求解及迭代执行等步骤自动实现图像的分割,既无需用户人工交互进行约束,也无需对图像建模及对数据分布进行估计,可以较快速度获得良好的分割结果。通过实验对彩色图像和灰度图像进行自动分割,实验结果验证该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号