首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2858篇
  国内免费   197篇
  完全免费   855篇
  自动化技术   3910篇
  2018年   16篇
  2017年   49篇
  2016年   48篇
  2015年   109篇
  2014年   240篇
  2013年   156篇
  2012年   279篇
  2011年   271篇
  2010年   281篇
  2009年   365篇
  2008年   412篇
  2007年   330篇
  2006年   249篇
  2005年   236篇
  2004年   217篇
  2003年   183篇
  2002年   114篇
  2001年   71篇
  2000年   65篇
  1999年   30篇
  1998年   35篇
  1997年   40篇
  1996年   18篇
  1995年   23篇
  1994年   25篇
  1993年   14篇
  1992年   12篇
  1991年   9篇
  1990年   5篇
  1989年   8篇
排序方式: 共有3910条查询结果,搜索用时 31 毫秒
1.
Web文本挖掘技术研究   总被引:215,自引:1,他引:214  
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了  相似文献
2.
基于向量空模型的文本自动分类系统的研究与实现   总被引:150,自引:11,他引:139  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献
3.
中文文本分类中特征抽取方法的比较研究   总被引:101,自引:9,他引:92  
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响.考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法.采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性.实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类.文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法.最后通过实验验证组合特征抽取方法的有效性.  相似文献
4.
基于机器学习的文本分类技术研究进展   总被引:94,自引:1,他引:93       下载免费PDF全文
苏金树  张博锋  徐昕 《软件学报》2006,17(9):1848-1859
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.  相似文献
5.
中文文本分类中的特征选择研究   总被引:78,自引:3,他引:75  
本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Nave Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果.其中,当用Nave Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右.  相似文献
6.
向量空间法中单词权重函数的分析和构造   总被引:75,自引:3,他引:72  
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位,深入分析了一种简单而常用的经典文本分类模型--向量空间模型(vector space model,VSM)--的实质,找出了其分类精度低的原因,提出了一种利用特征筛选中的评估函数代替IDF函数进行权值调整的方法,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较,提出了一种构造新的高性能评估函数的新颖方法。  相似文献
7.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:64  
垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容的过滤是当前解决垃圾邮件问题的主流技术之一.目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法.本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等.实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做.  相似文献
8.
基于向量空间模型的文本过滤系统   总被引:61,自引:0,他引:61       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献
9.
文档中词语权重计算方法的改进   总被引:55,自引:5,他引:50  
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一,但现在tf.idf方法无法把握这一因素。针对这个问题,本文引入信息论中信息增益的概念,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法,验证了改进方法tf.idf.IG的有效性和可行性。  相似文献
10.
文本分类中的特征抽取   总被引:53,自引:3,他引:50  
特征提取是用机器学习方法进行文本分类的重点和难点。文中比较了目前几种最常用的特征抽取方法,提出了一种改进型的互信息特征抽取方法,并在构建的实验系统中比较了这几种特征抽取方法,发现改进的特征抽取方法是有效可行的。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号