首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   5篇
  完全免费   2篇
  自动化技术   7篇
  2002年   2篇
  2001年   1篇
  2000年   4篇
排序方式: 共有7条查询结果,搜索用时 15 毫秒
1
1.
基于支持向量机与无监督聚类相结合的中文网页分类器   总被引:74,自引:0,他引:74  
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题。该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器,任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类。该算法充分利用了SVM准确率高与无监督聚类速度快的优点。实验表明它不仅具有较高的训练效率,而且有很高的精确度。  相似文献
2.
文档中词语权重计算方法的改进   总被引:55,自引:5,他引:50  
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一,但现在tf.idf方法无法把握这一因素。针对这个问题,本文引入信息论中信息增益的概念,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法,验证了改进方法tf.idf.IG的有效性和可行性。  相似文献
3.
概念推理网及其在文本分类中的应用   总被引:37,自引:1,他引:36  
在分析了当前文本分类中学常用方法的基础上,提出了一种新的分类模型,该模型是对人的分类过程的一种模拟,在已的有英语语义词典及大量训练集的基础上,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网,对待分类的文档可以激活相应的网络,网时传播推理以决定其类别的归属,试验表明:该方法具有较高的分类正确率与召回率。  相似文献
4.
一种实现搜索引擎个性化服务的方法   总被引:23,自引:1,他引:22       下载免费PDF全文
1 引言随着Internet网上信息的剧增,人们在利用计算机检索信息时变得越来越困难。一方面是信息非常丰富,收到太多的信息却无从选择和消化;另一方面是信息迷失,人们难于找到自己真正所需的信息。原因是:当前的信息检索技术很少考虑用户的个人兴趣。由于不同的用户有不同的需求,所以显然不能满足各种用户的需要。解决该问题的一个方法是:在准确、动态地描述用户的兴趣和偏好的基础上,使搜索结果呈现出个性化的特点。因此,如何描述和跟踪用户的兴趣和偏好就成为网上信息检索的关键。它既可以协助计算机准确定位用户之所需,而且也成为实现主动信息服务的先决条件。目前,用户兴趣的描述有的直接采用人为描述其兴趣文件来实现。这种做法的描述粒度不好把握.同时由于用户不熟悉领域知识,因此用户不易精确地表达其兴趣。此外,由于兴趣的广泛性与易变性,使用静态的方式表达来描述兴趣是不能在信息检索中发挥大的作用的。  相似文献
5.
用数据采掘方法获取汉语词性标注规则   总被引:8,自引:0,他引:8  
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。  相似文献
6.
Innovating Web Page Classification Through Reducing Noise   总被引:5,自引:0,他引:5       下载免费PDF全文
This paper presents a new method that eliminates noise in Web page classification.It first describes the presentation of a Web page based on HTML tags.Then through a novel distance formula,it eliminates the noise in similarity measure.After carefully analyzing Web pages,we design an algorithm that can distinguish related hyperlinks from noisy ones,Web can utilize non-noisy hyperlinks to improve th performance of Web page classification (The AWN algorithm).For any page.we can classify it through the text and category of neighbor pages relted to the page.The experimental results show that our approach improved classification accuracy.  相似文献
7.
高维数据中有效的相似性计算方法   总被引:2,自引:0,他引:2  
相似性的计算是CBR和k-NN等Lazy Learning研究中十分关键的问题,研究了降低相似性计算代价的方法,并以k-NN为例,介绍了基于部分特征的相似性算法和基于投影的相似性算法,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率,实验表明效率的提高是明显的,其中基于部分特征的k-NN算法效率提高26%~28%,基于投影的k-NN算法效率提高48%~83%,作者已将该算法应用到工程  相似文献
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号