共查询到18条相似文献,搜索用时 62 毫秒
1.
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。 相似文献
2.
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。 相似文献
3.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源。如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生。本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究。 相似文献
4.
计算机互联网上的信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需的信息已日益突显出其重要性。该文挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战。文章介绍了Web文本挖掘的一般流程,重点分析了Web文本挖掘中的几种关键技术。 相似文献
5.
Internet信息量迅猛增长,信息的海量化越来越突出,如何获取用户所需已日益突显出其重要性.文本挖掘技术能快速、有效地从大量数据中抽取有价值的信息,而Internet成为一个拥有大量Web文本资源的巨型数据库,大量异构、非结构化的Web文本对数据挖掘技术提出新的挑战.介绍Web文本挖掘的一般流程,重点分析Web文本挖掘中的几种关键技术. 相似文献
6.
基于机器学习的文本分类技术的研究 总被引:1,自引:0,他引:1
基于机器学习的文本分类是近年来信息检索领域的热门研究技术,并且取得了较大进展.本文对文本分类的定义、文本表示进行了详细的阐述,介绍了SVM等一系列机器学习的文本分类方法和文本分类效果评估手段,指出了进一步的研究方向. 相似文献
7.
基于加权类轴的Web文本分类方法研究 总被引:1,自引:0,他引:1
为了更有效的组织Intemet上丰富的信息资源,通过分析传统的近邻文本分类方法技术以及web文本的特点,提出了一种新的简单有效的网页分类方法。该方法充分利用了web文本的结构信息进行特征词加权,以类轴向量为核心构建分类器。实验表明,此方法具有较高的准确率和召回率。 相似文献
8.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。 相似文献
9.
随着Internet的普及和相关技术的发展,Web上聚集了大量的信息资源.如何从这些Web信息资源中提取有用信息这一问题促使了Web文本挖掘技术的产生.本文首先介绍了粗糙集的相关概念和理论,然后对基于粗糙集的Web文本挖掘技术进行了初步探讨和研究. 相似文献
10.
领域内文本褒贬倾向性分类中的特征提取技术 总被引:1,自引:0,他引:1
本文介绍了文本褒贬倾向性分类的方法和技术,重点论述了文本的表示方法和褒贬特征抽取的方法,提出了基于MI特征提取方法的改进办法。实验结果表明,这种改进有利于褒贬特征的抽取,从而提高了分类的精度。 相似文献
11.
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述. 相似文献
12.
13.
讨论若干Deep Web数据库分类准确性的前沿技术,建立基于词频和DOM树的文本特征提取方法模型,提出计算Deep Web数据库的基于权值的K-NN(K Nearest Neighbors)分类优化算法。利用UIUC提供的TEL-8数据集和WEKA平台的各类算法进行实验,并对分类精度、召回率和综合F-measure等测度上的分类结果进行比较。实验结果表明,该方法模型在3个指标上表现都较为突出。 相似文献
14.
随着Internet技术的发展,万维网上的文档数目成指数级增长。在如此浩瀚的信息库中,用户很难找到自己所需要的信息,如何自动且高效地处理这些海量文档信息成为了目前重要的研究课题。文章通过对抽取到的数据集文档中的标题,超连接和标记等超文本信息,以及文档内容本身分别建立分类模型。然后根据神经网络集成各个分类模型得出判别结果,提出了一种基于元信息的超文本集成分类算法,该算法能更好的综合利用超文本的多元结构化信息。实验结果表明,相对于单独利用某种超文本结构信息进行分类的方法。基于元信息的超文本集成分类算法具有更好的分类性能。 相似文献
15.
16.
17.
提出一种基于支持向量机方法依据Web服务的功能信息进行分类的服务分类系统,以UNSPSC作为Web服务的类别体系,并利用UNSPSC中各类别的描述信息作为其父类别的样本文档.在层次化分类体系中利用概念之间的语义层次关系判断出类别的主概念从而进行特征选择的方法,概念之间的语义层次关系通过计算概念在语义词汇网络WordNet中的语义相似度而建立.经过在实际数据和模拟数据集合上进行实验,结果证明服务分类系统分类效果理想. 相似文献
18.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。 相似文献