首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
关于“中文网页自动分类竞赛”结果的分析   总被引:5,自引:1,他引:5  
在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。  相似文献   

2.
中文网页自动分类现状的研究   总被引:1,自引:0,他引:1  
本文重点阐述中文网页自动分类关键技术的现状,介绍分析了两个中文网页自动分类系统。并在文章最后对未来研究提出建议。  相似文献   

3.
一个基于Web挖掘的中文专业搜索引擎的设计与实现   总被引:3,自引:0,他引:3  
本文介绍了一个基于Web挖掘技术的中文专业搜索引擎的实现和所用的关键技术,提出了类别向量的概念以及如何将Web结构挖掘和内容挖掘结合起来,利用改进的VSM技术实 现网页自动分类的方法。  相似文献   

4.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

5.
郑津  景彦昊 《福建电脑》2014,(4):153-154
本文主要分析了中文网页自动分类所要用到的功能和技术,给出了一个可行的中文网页自动分类系统的基本构架。  相似文献   

6.
该文介绍中文网页自动分类的研究状况;分析常用的特征提取方法并比较其在中文网页分类应用中的优劣,总结经典分类方法;简述分类评价指标;讨论目前分类系统。  相似文献   

7.
Oracle Text是一种创建文本搜索和文档分类应用的技术。本文提出了一种基于该技术实现中文网页自动分类系统的解决方案。实验结果表明该方案准确有效,具有较好的性能,满足中文网页自动分类的需求。  相似文献   

8.
本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。  相似文献   

9.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

10.
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。  相似文献   

11.
文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.  相似文献   

12.
本文介绍了使用FrontPage软件结合JavaScript脚本编程的方法,制作自动评分网页的过程,目的在于制作一个"模板",将其中编程难度屏蔽,使更多的教师能够制作出相应课程的教学课件。  相似文献   

13.
网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。  相似文献   

14.
王鉴全  季绍波 《计算机科学》2014,41(11):256-259
词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自动构词算法的有效性。  相似文献   

15.
It is often necessary for organizations to perform data mining tasks collaboratively without giving up their own data. This necessity has led to the development of privacy preserving distributed data mining. Several protocols exist which deal with data mining methods in a distributed scenario but most of these methods handle a single data mining task. Therefore, if the participating parties are interested in more than one classification methods they will have to go through a series of distributed protocols every time, thus increasing the overhead substantially. A second significant drawback with existing methods is that they are often quite expensive due to the use of encryption operations. In this paper a method has been proposed that addresses both these issues and provides a generic approach to efficient privacy preserving classification analysis in a distributed setting with a worst-case privacy guarantee. The experimental results demonstrate the effectiveness of this method.  相似文献   

16.
Classification plays an important role in decision support systems. A lot of methods for mining classification rules have been developed in recent years, such as C4.5 and ILA. These methods are, however, based on heuristics and greedy approaches to generate rule sets that are either too general or too overfitting for a given dataset. They thus often yield high error ratios. Recently, a new method for classification from data mining, called the Classification Based on Associations (CBA), has been proposed for mining class-association rules (CARs). This method has more advantages than the heuristic and greedy methods in that the former could easily remove noise, and the accuracy is thus higher. It can additionally generate a rule set that is more complete than C4.5 and ILA. One of the weaknesses of mining CARs is that it consumes more time than C4.5 and ILA because it has to check its generated rule with the set of the other rules. We thus propose an efficient pruning approach to build a classifier quickly. Firstly, we design a lattice structure and propose an algorithm for fast mining CARs using this lattice. Secondly, we develop some theorems and propose an algorithm for pruning redundant rules quickly based on these theorems. Experimental results also show that the proposed approach is more efficient than those used previously.  相似文献   

17.
GIS支持下遥感图象中采矿塌陷地提取方法研究   总被引:6,自引:0,他引:6       下载免费PDF全文
采矿塌陷地动态监测是工矿区资源管理与环境保护的重要方面 ,遥感技术可在其中发挥重要作用 ,从遥感图象中提取采矿塌陷地是遥感应用于矿山资源环境监测的重要研究课题 .传统的提取方法主要基于光谱特征 ,精度与效率都难以满足应用要求 ,为了以较高的精度 ,从遥感图象中提取塌陷地 ,必须建立新的方法与模型 .将遥感技术与 GIS相结合进行专题信息提取是有效的途径之一 .本文根据研究区的特点 ,以具体应用为指导 ,遥感技术与 GIS相结合 ,提出了 GIS支持下的分层分类、基于 GIS变化区域识别的分类、基于 GIS和领域知识对遥感分类图象进行后处理、GIS支持下采矿塌陷地的直接提取等方法与模型 ,充分应用光谱特征、地学特征与信息、领域和专家知识及其他统计数据辅助进行遥感图象处理与专题信息提取 .这些方法在精度、效率等方面均较传统方法有较大提高 ,最大提取精度可达到 89% ,能够有效地对工矿区土地塌陷态势进行动态监测  相似文献   

18.
为研究航天员如何适应长期密闭环境对人体健康(生理、心理、精神)和机体功能的挑战,提出一种基于多标记学习的证候诊断模型。采用中医"望、闻、问、切"的方法,采集长期密闭环境下人体生命活动的状态数据,并运用数据挖掘方法研究、阐释其特点及变化规律。实验结果表明,该融合数据分类模型能达到80%的平均分类精度。  相似文献   

19.
随着社交网络的日益普及,基于Twitter文本的情感分析成为近年来的研究热点。Twitter文本中蕴含的情感倾向对于挖掘用户需求和对重大事件的预测具有重要意义。但由于Twitter文本短小和用户自身行为存在随意性等特点,再加之现有的情感分类方法大都基于手工制作的文本特征,难以挖掘文本中隐含的深层语义特征,因此难以提高情感分类性能。本文提出了一种基于卷积神经网络的Twitter文本情感分类模型。该模型利用word2vec方法初始化文本词向量,并采用CNN模型学习文本中的深层语义信息,从而挖掘Twitter文本的情感倾向。实验结果表明,采用该模型能够取得82.3%的召回率,比传统分类方法的分类性能有显著提高。  相似文献   

20.
基于投影寻踪的中文网页分类算法   总被引:7,自引:1,他引:7  
随着Web 信息迅猛发展,网络用户对网页自动分类器的需求日益增长。为了提高分类精度,本文提出了一种新的基于投影寻踪(Projection Pursuit , 简称PP) 的中文网页分类算法。我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n 维向量的网页投影到一维空间。最后采用KNN 分类算法对其进行分类。此方法能解决“维数灾难”问题。实验结果表明,我们提出的算法是可行而且是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号