首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

2.
成彦衡  黄宇 《电子设计工程》2023,(6):105-108+113
面对当前方法受到数据稀疏性影响,导致敏感信息过滤效果差的问题,提出了基于K近邻算法的网络敏感信息过滤方法。以K近邻算法中用到的评分实际数据稀疏度为评判依据,对网络敏感信息进行分类,避免了过滤过程受数据稀疏性的影响。构造敏感信息决策树,在树节点上添加敏感关键词,利用K近邻分类算法计算特征值方差矩阵的权重和累积权重。将计算结果添加到反敏感信息库中,引入时间和主题相关度变量参数计算相似度,通过查找网络上的敏感素材,筛选符合条件的敏感信息。由实验结果可知,该方法平均绝对误差和标准化平均绝对误差与其他方法相比数值最小,分别为0.19和0.20,说明其网络敏感信息过滤效果较好。  相似文献   

3.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

4.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

5.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

6.
刘敏娜 《现代电子技术》2012,35(11):186-187,191
为了能够实现对信息检索中的文本分类策略,采用了空间模型算法,做了实验文档测试,获得了各自的权重文档搜索结果,得到在检索过程中,向量空间模型根据文档之间的相似度,计算哪个文档最符合用户输入的关键字的结论,具有信息检索中文本相似度根据权值大小分类显示的特点。  相似文献   

7.
个性化服务中用户兴趣聚类算法研究   总被引:2,自引:0,他引:2  
李春妍  王勇 《信息技术》2007,(10):77-80
讨论了个性化服务中用户兴趣建模对聚类算法的要求,指出经典聚类算法应用于用户兴趣聚类时的不足。在基于图论的K近邻聚类算法的基础上进行改进,提出一种基于相似度的聚类算法。实验证明,与K近邻算法相比,该算法能够显著提高聚类质量,有效区分孤立点,适用于用户兴趣聚类。  相似文献   

8.
传统固定资产分类查询技术在应用过程中,易出现通信冗余问题,导致分类查询计算开销较大。因此,设计基于智能盘点平台的电力企业固定资产分类查询方法。优化RFID标签数据存储格式,规范RFID标签数据,建立无线接收器和数据通信网络结构,优化查询通信方式,减少冗余。结合SVM分类和K近邻算法,对不同的资产分类情况选择不同算法,计算K近邻算法中的欧氏距离,实现固定资产分类查询。实验结果表明:分类维度偏大时,所设计的分类查询技术在智能盘点平台和用户端的计算开销均小于传统方法。  相似文献   

9.
作为一种非参数的分类算法,K近邻(KNN)算法简单有效并且易于实现。但传统的KNN算法认为所有的近邻样本贡献相等,这就使得算法容易受到噪声的干扰,同时对于大的数据集,KNN的计算代价非常大。针对上述问题,该文提出了一种新的基于距离加权的模板约简K近邻算法(TWKNN)。利用模板约简技术,将训练集中远离分类边界的样本去掉,同时按照各个近邻与待测样本的距离为K个近邻赋予不同的权值,增强了算法的鲁棒性。实验结果表明,该方法可以有效地减少训练样本数目,同时还能保持传统KNN的分类精度。  相似文献   

10.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

11.
基于BP神经网络的Web页面分类算法   总被引:3,自引:0,他引:3  
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。  相似文献   

12.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

13.
Web objects are the entities retrieved from websites by users to compose the web pages. Therefore, exploring the relationships among web objects has theoretical and practical significance for many important applications, such as content recommendation, web page classification, and network security. In this paper, we propose a graph model named Bipartite Request Dependency Graph (BRDG) to investigate the relationships among web objects. To build the BRDG from massive network traffic data, we design and implement a parallel algorithm by leveraging the MapReduce programming model. Based on the study of a number of BRDGs derived from real wireless network traffic datasets, we find that the BRDG is large, sparse and complex, implying that it is very hard to derive the structural characteristics of the BRDG. Towards this end, we propose a co-clustering algorithm to decompose and extract coherent co-clusters from the BRDG. The co-clustering results of the experimental dataset reveal a number of interesting and interpretable connectivity structural patterns among web objects, which are useful for more comprehensive understanding of web page architecture and provide valuable data for e-commerce, social networking, search engine, etc.  相似文献   

14.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

15.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

16.
网页布局的优良是决定高校门户网站是否美观的一个重要因素,合理的布局不仅能够将网页中的文本、图片等内容完美并直观地呈现给高校门户网站浏览者,而且能够合理地安排网页空间,优化网页的显示效果和提高网页的下载速度,从而给用户良好的浏览体验.  相似文献   

17.
钓鱼网站每年在电子商务、通信、银行等领域给用户造成极大损失,成功有效的防范钓鱼网站成为一项艰巨任务。本文通过对实际数据的分析,提取了URL相关特点、网页文本内容2方面特征描述网页,然后对不同特征构建相应分类器,根据增量学习思想优化各分类器,提升算法在线学习能力。最后采用分类集成的方法综合各个分类器的预测结果,达到对钓鱼网站在线智能检测的目标。实验表明,集成分类具有良好的在线学习能力和泛化能力。  相似文献   

18.
基于图的Co-Training网页分类   总被引:1,自引:0,他引:1  
侯翠琴  焦李成 《电子学报》2009,37(10):2173-2180
 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithm for web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes 分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号