首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   36篇
  完全免费   3篇
  自动化技术   39篇
  2015年   1篇
  2014年   5篇
  2013年   5篇
  2012年   1篇
  2011年   1篇
  2009年   1篇
  2008年   2篇
  2007年   2篇
  2006年   2篇
  2004年   2篇
  2003年   2篇
  2002年   2篇
  2001年   2篇
  2000年   4篇
  1999年   3篇
  1997年   2篇
  1995年   1篇
  1989年   1篇
排序方式: 共有39条查询结果,搜索用时 31 毫秒
1.
汉语自动分词词典机制的实验研究   总被引:67,自引:4,他引:63  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分,TRIE索引树及逐字二分,着重比较了它们的时间,空间效率。实验显示:基于逐字二分的分词词典机制简洁,高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献
2.
利用汉字二元语法关系解决汉语自动分词中的交集型歧义   总被引:52,自引:2,他引:50  
本文提出了一种利用句内相邻之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。初步的实验结果显示,可以正确处理90.3%的交集字段。  相似文献
3.
高频最大交集型歧义切分字段在汉语自动分词中的作用   总被引:48,自引:7,他引:41  
交集型歧义切分字段是影响汉族自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真,伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619年覆盖率为59.20%,且覆盖率受领域变化的影响不大。  相似文献
4.
中文姓名的自动辨识   总被引:47,自引:16,他引:31  
中文姓名的辨识对汉语自动分词研究具有重要意义,本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本,实验结果表明,召回率达到了99.77%。  相似文献
5.
一种高性能的两类中文文本分类方法   总被引:34,自引:0,他引:34  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献
6.
汉语最长名词短语的自动识别   总被引:22,自引:0,他引:22       下载免费PDF全文
周强  孙茂松  黄昌宁 《软件学报》2000,11(2):195-201
通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.  相似文献
7.
多值因果图的推理算法研究   总被引:21,自引:0,他引:21  
针对多值因果图存在的两个困难:(1)不严格满足概率论;(2)将其用于实际问题时,推理结果可能出现错误,提出了一种基于因果影响可能性分配的推理算法,该算法将多值因果图的推量分成3个阶段,首先对多值因果图进行补充定义,使多值因果图能够兼容单值因果图;接着将多值因果图转化为单值因果图进行概率计算,最后对多值因果图进行可能性计算,将单值因果图计算得到的概率按多值因果图计算得到的可能性进行分配,以核电站二回路系统中蒸汽发生器故障诊断因果图为例,展示了该算法推理计算的全过程,实例表明,该算法能够有效地克服多值因果图存在的困难,其推理过程严谨,计算结果符合实际情况,而前面提出的推理算法基础上,针对其不能处理模型情况的局限性,提出了一种模糊推理算法,该算法对多值因果图进行了模糊扩展定义,在读数变量和事件变量之间建立了用于表达模糊知识的模糊对应关系,在事件变量上定义了一个等价的虚拟模糊状态,使读数变量取值对应一个模糊状态,把读数和模糊推理转化为对应模糊状态的非模糊推理,通过本文的工作,目前因果图已发展成了一个能够处理离散变量和连续变量的混合因果图模型。  相似文献
8.
基于字串内部结合紧密度的汉语自动抽词实验研究   总被引:21,自引:7,他引:14  
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现,进而尝试将它们组合在一起,以期提高性能。为了达到尽可能好的组合效果,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明,这九种常用统计量中,互信息的抽词能力量强,F—measure可达54.77%,而组合后的F—measure为55.47%,仅比互信息提高了O.70%,效果并不显著。我们的结论是:(1)上述统计量并不具备良好的互补性;(2)通常情况下,建议直接选用互信息进行自动抽调,简单有效。  相似文献
9.
汉语句子的组块分析体系   总被引:19,自引:1,他引:18  
周强  孙茂松  黄昌宁 《计算机学报》1999,22(11):1158-1165
介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系-组块分析体系,并详细讨论了其中两大部分;词界块和成分组的基本内容及其自动识别算法,在此基础上,提出了一种分阶段构造汉语树库的新设想,即先构造组块库,再构造树库,进行了一系列句法分析和知识获取实验,包括1)自然识别汉语最长名词短语;2)自动获取汉语句法知识等。所有这些工作都证明了这种知识描述体系的实用性和有效性。  相似文献
10.
利用上下文信息解决汉语自动分词中的组合型歧义   总被引:17,自引:2,他引:15  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号