首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   806篇
  国内免费   24篇
  完全免费   48篇
  自动化技术   878篇
  2016年   2篇
  2015年   5篇
  2014年   16篇
  2013年   14篇
  2012年   14篇
  2011年   17篇
  2010年   87篇
  2009年   103篇
  2008年   121篇
  2007年   114篇
  2006年   89篇
  2005年   65篇
  2004年   57篇
  2003年   53篇
  2002年   18篇
  2001年   25篇
  2000年   20篇
  1999年   8篇
  1998年   10篇
  1997年   7篇
  1996年   9篇
  1995年   8篇
  1994年   4篇
  1991年   4篇
  1990年   4篇
  1989年   3篇
  1988年   1篇
排序方式: 共有878条查询结果,搜索用时 46 毫秒
1.
基于向量空模型的文本自动分类系统的研究与实现   总被引:150,自引:11,他引:139  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献
2.
中文文本分类中特征抽取方法的比较研究   总被引:101,自引:9,他引:92  
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响.考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法.采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性.实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类.文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法.最后通过实验验证组合特征抽取方法的有效性.  相似文献
3.
中文文本分类中的特征选择研究   总被引:78,自引:3,他引:75  
本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Nave Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果.其中,当用Nave Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右.  相似文献
4.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:64  
垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容的过滤是当前解决垃圾邮件问题的主流技术之一.目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法.本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等.实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做.  相似文献
5.
汉语自动分词词典机制的实验研究   总被引:67,自引:4,他引:63  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分,TRIE索引树及逐字二分,着重比较了它们的时间,空间效率。实验显示:基于逐字二分的分词词典机制简洁,高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献
6.
中文分词十年回顾   总被引:53,自引:6,他引:47  
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。  相似文献
7.
串频统计和词形匹配相结合的汉语自动分词系统   总被引:51,自引:7,他引:44  
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频率计算其权值,权值大的子串候选词;第三遍,利用侯选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词特别适用于文献检索等领域。  相似文献
8.
基于统计的网页正文信息抽取方法的研究   总被引:50,自引:6,他引:44  
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法.该方法先根据网页中的HTML标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点.该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上.采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求.  相似文献
9.
高频最大交集型歧义切分字段在汉语自动分词中的作用   总被引:48,自引:7,他引:41  
交集型歧义切分字段是影响汉族自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真,伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619年覆盖率为59.20%,且覆盖率受领域变化的影响不大。  相似文献
10.
中文姓名的自动辨识   总被引:47,自引:16,他引:31  
中文姓名的辨识对汉语自动分词研究具有重要意义,本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本,实验结果表明,召回率达到了99.77%。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号