首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

2.
郭晓  蒋宗礼 《现代电子技术》2010,33(22):54-56,63
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。  相似文献   

3.
卫莉莉  王煜 《电子世界》2012,(21):80-81
本文以机械领域挖掘机为主题,介绍了一种面向领域的Web文本采集与分类系统实现方法,将专业词库与特征选择相结合,逐步筛选和更新主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;采用基于内容分析的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本;根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类。  相似文献   

4.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

5.
王泽 《通讯世界》2016,(1):225-226
文本分类在数据库和搜索引擎的应用较为广泛,SVM是文本分类算法中的重要算法,适用于多种分类问题,能够解决传统算法中的弊端.本文对支持向量机和支持向量机算法做出具体的介绍,对该算法在文本分类中的应用具体指标进行探讨,旨在为我国的文本分类方式的进步和发展提供理论帮助.  相似文献   

6.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

7.
基于Rough集约简算法的中文文本自动分类系统   总被引:7,自引:0,他引:7  
现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。  相似文献   

8.
针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.  相似文献   

9.
在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方法比单独依赖网页内容信息的分类在效果上有所提高。  相似文献   

10.
文中采用网页代码的静态文本特征分析的方法,讨论并分析网页静态链接安全相关性的技术研究.首先根据当前网站木马分析研究的现状及存在的问题,提出了网页静态链接关系分析模型,并描述了网页链接文本安全相关性的分析算法;然后对模型及算法进行了算法的数学表示,并给出算法实现的数据结构.最后通过对实验结果的分析,验证了该算法的可靠性和合理性.  相似文献   

11.
文中讨论了基于模式分类的算法,通过常规的体检参数对骨质疏松情况进行预测和识别.由于常规体检参数和骨质疏松诊断结果之间的线性相关度小、参数方差大等问题,基于线性分类边界模型得到的分类器误差大,文中利用数据和骨质疏松之间的非线性关联特性,使用高斯核函数将原始训练数据映射到核空间进行分类,较好地实现了用体检参数预测骨质疏松.此外文中给出了利用多个分类器的分类结果进行组合方法,使得不同分类器分类结果相互矛盾时能够输出唯一的诊断结论.  相似文献   

12.
文本分类中改进型互信息特征选择的研究   总被引:5,自引:2,他引:3  
互信息是文本分类中常用的特征选择方法.提出了一种新的基于互信息的特征选择方法.首先分析了特征选择影响文本分类精度的因素,将这些因素组合起来表征特征对于分类的强弱,并用公式直观地表示由组合因素计算出的特征值,根据这些值得大小选择对分类影响大的特征.最后理论证明了其可行性,并通过实验证明了该方法在提高分类精度方面比传统方法提高了10%.  相似文献   

13.
商机数据是当地招投标网站发布的公告数据.针对商机数据复杂、信息孤岛和管理困难等问题,提出了一种针对商机数据属性的分类方法.采用面向数据体系架构思想,构建一个基于数据注册中心的自动注册模型,实现数据的自动注册和入库;再结合传统机器学习的文本分类方法,将注册表分类处理,得到结果表和目录库.实验结果表明,采用此方法,商机数据...  相似文献   

14.
鲁明羽  沈抖  郭崇慧  陆玉昌 《电子学报》2006,34(8):1475-1480
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.  相似文献   

15.
Small‐screen mobile terminals have difficulty accessing existing Web resources designed for large‐screen devices. This paper presents an adaptive transformation method based on webpage semantic features to solve this problem. According to the text density and link density features of the webpages, the webpages are divided into two types: index and content. Our method uses an index‐based webpage transformation algorithm and a content‐based webpage transformation algorithm. Experiment results demonstrate that our adaptive transformation method is not dependent on specific software and webpage templates, and it is capable of enhancing Web content adaptation on small‐screen terminals.  相似文献   

16.
针对现有空域错误隐藏算法对复杂纹理恢复精度不高的问题,提出了一种基于张量投票的错误隐藏算法,利用张量投票提取的结构信息改善复杂纹理区域的恢复效果,并在此基础上结合传统算法提出了改进的空域错误隐藏算法,即首先对丢失宏块分类,然后根据丢失宏块的类型选取合适的隐藏算法。实验表明,该算法有效地提高了恢复精度,避免了边缘错乱现象,尤其在纹理较复杂的区域,能够使隐藏图像的主客观质量有较大提高。  相似文献   

17.
信息系统安全等级保护是提高系统安全保障能力和水平,维护国家安全、社会稳定和公共利益,保障和促进信息化建设健康发展的基本制度。核电是新兴的清洁能源,开展核电信息系统安全等级保护工作意义重大。通过对国家和电力行业有关开展信息系统安全等级保护定级工作指示的介绍,重点对信息系统安全等级保护定级流程、定级对象与侵害程度、安全保护等级的确定,以及核电信息系统备案流程、系统等级变更工作进行说明,并以核电生产控制系统定级为例加以说明,供各行业参考。  相似文献   

18.
李慧  施荣华 《信息技术》2007,31(12):73-76
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。  相似文献   

19.
针对目前手指静脉识别由于训练样本不足引起图像识别率低的问题,提出基于线性回归分类(linear regression classification,LRC)与多样本扩充的指静脉识别方法。首先,利用矩阵变换生成原始图像的镜像,训练原始图像与镜像,增加指静脉图像中包含的有用信息;然后,基于LRC对测试和训练样本进行分类;最后,通过计算偏差得到最终分类结果,求出识别率。此外,设计了一种指静脉采集装置收集得到自建指静脉数据库。实验结果表明:所提算法在自建指静脉数据库、山东大学指静脉数据库、马来西亚理工大学指静脉数据库上的识别率分别达到98.93%、98.89%、99.67%,最低等误率为2.3888%。实验结果与其他传统和流行算法相比具有明显优势,拥有良好的实际应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号