共查询到10条相似文献,搜索用时 15 毫秒
1.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法. 相似文献
2.
3.
基于网络资源与用户行为信息的领域术语提取 总被引:1,自引:0,他引:1
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果. 相似文献
4.
支持向量机在网页信息分类中的应用研究 总被引:4,自引:0,他引:4
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率. 相似文献
5.
6.
网页信息抽取及其自动文本分类的实现 总被引:3,自引:1,他引:2
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息.文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题.为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法.该方法可以提高网页正文提取及其自动文本分类的效率.实验证明,该方法是可行的. 相似文献
7.
基于自动分类的搜索引擎过滤系统 总被引:2,自引:0,他引:2
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。 相似文献
8.
针对网页自动分类中存在的类边界模糊、语料不均匀等引起的分类不确定性问题,提出了贝叶斯网络自动分类融合模型和融合算法,该模型和算法基于网页上多种信息进行融合,并采用不同的与处理方法分别对多种信息进行处理,将处理后的信息输入到贝叶斯网络融合中心进行融合推理,得到最终的分类结果。同时,为了降低贝叶斯网络推理时间复杂度,提出了改进的贝叶斯网络图推理算法。实验结果表明,改进后的融合模型和融合算法能有效解决网页自动分类中的不确定性问题,并能提高网页自动分类的准确率和查全率。 相似文献
9.
基于集成学习的钓鱼网页深度检测系统 总被引:1,自引:0,他引:1
网络钓鱼是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法目的.提出了基于集成学习的钓鱼网页深度检测方法,采用网页渲染来应对常见的页面伪装手段,提取渲染后网页的URL信息特征、链接信息特征以及页面文本特征,利用集成学习的方法,针对不同的特征信息构造并训练不同的基础分类器模型,最后利用分类集成策略综合多个基础分类器生成最终的结果.针对PhishTank钓鱼网页的检测实验表明,本文提出的检测方法具有较好的准确率与召回率. 相似文献
10.
在文本分类中,单分器具有某些缺点,如分类模型对样本具有敏感性,并且其分类精度难以提高.本文以朴素贝叶斯为基分类器,利用bagging与boosting技术提出了两种组合分类算法,并将其用于网页文本的自动分类,结果证明组合分类系统提高了分类准确率. 相似文献