首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   866篇
  国内免费   33篇
  完全免费   61篇
  自动化技术   960篇
  2018年   1篇
  2017年   9篇
  2016年   4篇
  2015年   10篇
  2014年   56篇
  2013年   23篇
  2012年   53篇
  2011年   61篇
  2010年   93篇
  2009年   104篇
  2008年   129篇
  2007年   99篇
  2006年   92篇
  2005年   55篇
  2004年   53篇
  2003年   46篇
  2002年   4篇
  2001年   5篇
  2000年   6篇
  1999年   5篇
  1998年   7篇
  1997年   8篇
  1996年   5篇
  1995年   5篇
  1994年   5篇
  1993年   4篇
  1992年   5篇
  1991年   2篇
  1983年   2篇
  1982年   1篇
  1981年   1篇
  1980年   1篇
  1979年   1篇
  1978年   1篇
  1977年   4篇
排序方式: 共有960条查询结果,搜索用时 31 毫秒
1.
中文文本分类中的特征选择研究   总被引:78,自引:3,他引:75  
本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Nave Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果.其中,当用Nave Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右.  相似文献
2.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:64  
垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容的过滤是当前解决垃圾邮件问题的主流技术之一.目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法.本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等.实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做.  相似文献
3.
基于统计的网页正文信息抽取方法的研究   总被引:50,自引:6,他引:44  
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法.该方法先根据网页中的HTML标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点.该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上.采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求.  相似文献
4.
基于HowNet的词汇语义倾向计算   总被引:44,自引:6,他引:38  
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。  相似文献
5.
一种中文分词词典新机制--双字哈希机制   总被引:40,自引:2,他引:38  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。  相似文献
6.
实体关系自动抽取   总被引:36,自引:7,他引:29  
实体关系抽取是信息抽取领域中的重要研究课题.本文使用两种基于特征向量的机器学习算法,Winnow和支持向量机(SVM),在2004ACT(Automatic Content Extraction)评测的训练数据上进行实体关系抽取实验.两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score分别为73.08%和73.27%.可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大.因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征.  相似文献
7.
文档聚类综述   总被引:30,自引:6,他引:24  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。  相似文献
8.
一种基于词汇链的关键词抽取方法   总被引:29,自引:6,他引:23  
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明.与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。  相似文献
9.
基于向量空间模型的文本分类系统的研究与实现   总被引:25,自引:1,他引:24  
文本分类是信息处理的一个重要的研究课题,它可以有效的解决信息杂乱的现象并有助于定位所需的信息.本文综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征"过度拟合"问题,并基于此实现了二级分类模式的文本分类系统.和类中心分类法相比,实验结果表明二级分类模式具有较高的精度和召回率.  相似文献
10.
基于统计的中文地名识别   总被引:24,自引:5,他引:19  
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整,系统闭式召回率和精确率分别为90.24%和93.14%,开式召回率和精确率分别达86.86%和91.48%。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号