首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 95 毫秒
1.
利用上正文信息解决汉语自动分词中的组合型歧义   总被引:3,自引:0,他引:3  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验 定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献   

2.
MIS智能接口中汉语分词系统的设计与应用   总被引:4,自引:0,他引:4  
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。  相似文献   

3.
利用上下文信息解决汉语自动分词中的组合型歧义   总被引:15,自引:2,他引:15  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献   

4.
汉语自动分词专家系统的设计与实现   总被引:5,自引:1,他引:5  
王彩荣 《微处理机》2004,25(3):56-57,60
本文介绍了自动分词专家系统的设计思想和系统结构,并给出了自动分词专家系统知识库的组织与实现方法,以及推理机制的建立和自动分词过程。  相似文献   

5.
汉语文本自动分词算法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。  相似文献   

6.
基于规则的汉语自动分词系统   总被引:33,自引:3,他引:33  
本文通过对汉语自动分词难点的分析, 讨论了词频和词结合力的关系, 提出了一套机械切分与语义校正的汉语自动分词方法。系统包括建立绝对切分标志符表, 变长度最大匹配法、2一3一1优先规则集、固有歧义切分和组合歧义切分校正方法等。最后列举描述语义校正规则的实例。系统作为CETRAN.A的一部令, 在SUN8一280工作站上实现。  相似文献   

7.
汉语自动分词研究及其在信息检索中的应用   总被引:10,自引:0,他引:10  
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。  相似文献   

8.
汉语自动分词方法   总被引:26,自引:0,他引:26       下载免费PDF全文
本文给出了为汉语自动分词而提出了机械匹配法,特征词库法,约束矩法,语法2分析法和理解切法。  相似文献   

9.
汉语自动分词技术研究   总被引:1,自引:0,他引:1  
汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法.  相似文献   

10.
讨论了旅游信息数据库系统汉语接口的实现方法,基于该系统的情况提出了解决歧义切分、未登录词切分的自动分词方法及句法分析、语义内部表示及其生成、内部语义到数据库命令的转换、汉语应答句生成等方法。通过对全套方法进行的实验验证及对系统的每一步结果进行的考察表明,该文提出的方法是可行的和有较好参考价值的。  相似文献   

11.
提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有向图的节点。利用Bigram和Trigram给有向边赋值,使有向图的最短路径对应句子的正确切分,确定了句子的切分路径即可识别出句子中的人名。实验结果表明,该方法取得了较好的人名识别正确率。  相似文献   

12.
现代汉语分词系统通用接口设计与实现   总被引:7,自引:0,他引:7  
现代汉语文本自动分词是中文信息处理的重要基石,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标,论述了它的原理和设计方案。该系统已经初步实现。  相似文献   

13.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

14.
基于条件随机场的汉语分词系统   总被引:6,自引:1,他引:6  
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。  相似文献   

15.
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。  相似文献   

16.
基于复句语料库分词系统研究   总被引:2,自引:0,他引:2  
复句在书面语中具有举足轻重的地位,如何让计算机正确理解复句是中文信息处理中一个值得重视的问题。现有的分词系统对复句关系词的正确切分与标注上不足以满足对复句进行层次分析和语义分析的需要。建立的分词系统在复句中关系词的切分和标注上做出了必要的改进。  相似文献   

17.
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。  相似文献   

18.
中文文本中外国人名与中国人名同步识别方法   总被引:1,自引:0,他引:1  
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号