首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。   相似文献   

2.
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。  相似文献   

3.
直推式支持向量机(TSVM)是在利用有标签样本的同时,考虑无标签样本对分类器的影响,并且结合支持向量机算法,实现一种高效的分类算法。它在包含少量有标签样本的训练集和大量无标签样本的测试集上,具有良好的效果。但是它有算法时间复杂度比较高,需要预先设置正负例比例等不足。通过对原有算法的改进,新算法在时间复杂度上明显下降,同时算法效果没有明显的影响。  相似文献   

4.
粒子群优化算法由于其高效、容易理解、易于实现,在很多领域得到了应用.网页分类是网络信息检索研究的关键技术之一,在对网页的表示时,将Web页面分解为不同的部分,之后迭代使用SVM算法构造分类器.由于PSO算法是一种基于迭代的优化工具,对训练过程中迭代产生的网页分类器进行优化组合,产生最终分类器,同时也增强了分类器的自适应性.实验结果表明,通过对迭代产生的分类器进行优化组合,以及对网页结构的划分,寻找并利用网页集中蕴藏的规律综合计算特征权值,大大提高了网页分类的正确率和F-measure值,所以这种方法是有效的、稳健的和实用的.  相似文献   

5.
周序生  李爽 《计算机仿真》2011,28(10):121-124,252
研究网页自动分类是为快速找到用户所需网页.由于网络中网页数量相当大,而且网络是一种半结构化、海量、高维等文本,传统文本分类方法无法进行降维和消除冗余信息,易出现维数灾问题,网页分类准确率低,用户很难找到自己所需网页.为了提高网页分类准确率,提出基于主成分支持向量机的网页自动分类方法.首先对网页数据进行预处理,提取网页特...  相似文献   

6.
支持向量机在网页信息分类中的应用研究   总被引:4,自引:0,他引:4  
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.  相似文献   

7.
本文提出了一种基于树状SVM进行Web网页分类与信息安全过滤的有效方法。通过对中等规模的Web网页测试实验,表明基于树状SVM的Web网页分类方法是有效的。  相似文献   

8.
基于链接的Web网页分类   总被引:1,自引:1,他引:0  
基于链接的特点,提出了获取链接信息的模型,将得到的链接信息结合对象本身的属性来共同训练分类规则。针对网页链接的特殊性,对链接有向图重新建模。实验证明链接信息的加入可以有效地改善分类的结果,链接有向图的重新建模同样提高了分类的准确性。  相似文献   

9.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

10.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

11.
基于潜在语义标引的WEB文档自动分类   总被引:7,自引:1,他引:6  
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。  相似文献   

12.
Generally, links among objects demonstrate certain patterns and contain rich semantic clues. These important clues can be used to improve classification accuracy. However, many real-world link data may exhibit more complex regularity. For example, there may be some noisy links that carry no human editorial endorsement about semantic relationships. To effectively capture such regularity, this paper proposes latent linkage semantic kernels (LLSKs) by first introducing the linkage kernels to model the local and global dependency structure of a link graph and then applying the singular value decomposition (SVD) in the kernel-induced space. For the computational efficiency on large datasets, we also develop a block-based algorithm for LLSKs. A kernel-based contextual dependency network (KCDN) model is then presented to exploit the dependencies in a network of objects for collective classification. We provide experimental results demonstrating that the KCDN model, together with LLSKs, demonstrates relatively high robustness on the datasets with the complex link regularity, and the block-based computation method can scale well with varying sizes of the problem.  相似文献   

13.
基于综合性评估的无线链路质量分类预测机制   总被引:2,自引:0,他引:2  
在无线传感器网络的应用中,对无线链路质量进行有效地评估和预测是网络协议设计中的一个基础性问题,特别是对于提高数据的传输可靠性.从刻画无线链路质量的多维角度出发,基于模糊逻辑设计了一个综合性链路质量指标(fuzzy-logic based link quality index,FLI),体现了无线链路的可靠性、波动性和丢包突发性对于链路数据传输可靠性的影响.然后基于FLI准则,利用贝叶斯网络设计了一种对无线链路质量进行分类预测的机制.通过3个实际无线传感器网络研究平台的链路数据集进行实验分析和对比,该机制中的分类预测器的平均预测精度约为85%.相比于4C预测器,在保证平均预测精度的同时,克服了其预测精度在分类界限处的畸变下滑现象,使预测精度的分布均匀化.  相似文献   

14.
在基于Web的电子商务数据挖掘过程中,如何从大量的商品交易记录中发掘出有用的信息是目前研究的主要课题,通过对目前网络交易的商品名称信息的特征进行分析,使用自定义的网页抓取工具获取在线商品交易的信息,分词处理后使用潜在语义分析方法对数据集的类别进行分析,实现了一个商品类别分类算法.从划分结果来看,该算法能较好地清除冗余信息,有效地区分不同类别的商品.  相似文献   

15.
基于Rough集潜在语义索引的Web文档分类   总被引:5,自引:0,他引:5  
Rough集(粗糙集)埋论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。  相似文献   

16.
Our overall research goal is providing hypertext functionality through the WWW to hypertext-unaware information systems with minimal or no changes to the information systems. Information systems dynamically generate their contents and thus require some mapping mechanism to automatically map the generated contents to hypertext constructs (nodes, links, and link markers) instead of hypertext links being hard-coded over static contents. No systematic approach exists, however, for building mapping routines to create useful links that give users direct access to the ISs' primary functionality, give access to metainformation about IS objects, and enable annotation and ad hoc (user-declared) linking. This paper contributes a procedure for analyzing ISs and building mapping routines that supplement information systems with hypertext support. This paper also contributes an eXtensible Markup Language (XML) DTD that declares a set of elements and attributes for representing mapped information in a human-readable, machine-readable, structured, and semantic way. We implemented a prototype to demonstrate the feasibility of using XML to represent mapped information.  相似文献   

17.
王文祥  高庆  许可  张世琨 《软件学报》2023,34(4):1594-1612
软件崩溃是一种严重的软件缺陷,可导致软件终止运行.因此,对软件崩溃的测试在软件迭代的过程中极为重要.近年来,模糊测试技术(如AFL)由于可以自动化生成大量的测试输入来触发软件崩溃,被广泛用于软件测试中.然而,通过该技术产生的导致软件崩溃的测试输入中,大部分崩溃的触发原因都是重复的,因此软件开发人员需要对测试输入进行分类,带来了许多冗余工作.目前,测试输入分类已经有很多自动化方法,主要包括基于程序修复的分类算法和基于软件崩溃信息的分类算法.前者通过对程序在语义上进行分析,在运行时通过在程序中替换修复模板后重新运行测试输入,进而对输入分类.因为此方法需要人为地对于软件崩溃编写修复模板,所以其分类的效率与修复模板的质量存在很大联系;且由于需要先修复崩溃、再对崩溃做分类,影响了软件崩溃的修复效率.采用后者的思想,提出了一种轻量而高效的利用软件崩溃信息的测试输入分类算法CICELY.其在软件崩溃点堆栈信息分类的算法基础上,在分析软件崩溃点堆栈时引入了动态链接库信息,通过区分系统动态链接库与用户动态链接库,结合用户代码位置信息,得到用户关注的函数集合,以在分类时以用户函数为基准对崩溃进行界定.最后...  相似文献   

18.
分类是网络数据挖掘中的重要研究课题之一.协作分类利用网络节点之间的依赖关系对相互链接的节点集合进行组合分类,其精度高于传统的分类方法,受到广泛关注,并被应用于文档分类、蛋白质结构预测、图像处理和社会网络分析等众多领域.提出一种结合特征选择和链接过滤的主动协作分类方法,算法首先基于最小冗余-最大相关方法选择重要的属性,并建立隐式链接;之后过滤初始链接得到显式链接,最后集成隐式和显式链接形成新的网络结构,再应用协作分类方法实现分类.在3个公共数据集上将该方法分别与典型的传统分类方法、协作分类方法进行对比,结果表明该方法能获得较高的分类精度,对稀疏标记的网络其优势更加明显.  相似文献   

19.
齐银凤  舒阳  唐宏 《遥感信息》2015,(1):26-32,50
通过引入文本检索算法中的无限潜Dirichlet分配(infinite Latent Dirichlet Allocation,即iLDA)模型,对遥感影像进行建模以获取地物的统计分布及其共生关系,从而实现遥感影像非监督分类。首先,将遥感影像有重叠地划分成一组大小相等的影像块(文集)。其次,以iLDA为基础,构建"像元"(视觉词)、"影像块"(文档)和"地物类"(主题)之间的条件概率关系,并采用Block-Gibbs抽样的方法来估计模型参数,从而构建基于BlockGibbs抽样的iLDA遥感影像非监督分类模型(Block-Gibbs based iLDA,即BG-iLDA)。最后,通过对BG-iLDA模型的逼近求解实现高分辨率遥感影像的非监督分类。实验结果表明,本文提出的基于BG-iLDA的面向对象非监督分类方法相对传统的K-means等算法精度更高,更能有效区分"同谱异物"的地物。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号