首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 122 毫秒
1.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

2.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

3.
提出了一种自学习的轻量级网页分类方法SLW.SLW首次引入了访问关系的概念,使其具有反馈和自学习的特点.SLW从已有的恶意网页集合出发,自动发现可信度低的用户和对应的访问关系,从而进一步利用低可信度用户对其他网页的访问关系来发现未知的恶意网址集合.实验结果表明,在相同数据集上,相比于传统检测方法,SLW方法可以显著提高恶意网页检测效果,大幅降低平均检测时间.  相似文献   

4.
实现了一个中文网页采集、过滤和分类系统.文中从网页预处理、特征选择、分类器模型等方面介绍了该系统的具体解决方案.实验结果表明,该分类系统取得了令人满意的分类效果.  相似文献   

5.
详细介绍了一种快速的中文网页分类系统的设计与实现,通过解析出网页的主要内容、网页的Title、网页的Meta标签内容和指向该网页的父网页上的锚文本,并根据这些信息用VSM法将网页分类。实验结果表明,本文的方法可以使中文网页分类性能速度得到大的提高且能保持较高的准确率。  相似文献   

6.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

7.
基于统计与代码特征分析的网页木马检测模型   总被引:1,自引:0,他引:1  
采用传统的基于特征码比对的方式检测网页木马比较困难,为此提出了一种基于统计与代码特征分析的网页木马检测模型。采用内部特征与外部特征结合,并利用统计学的方法进行综合分析,最终判别待检测网页是否有网页木马。实验表明,该方法可以有效地检测网页木马,提高检测效率和精度,对未知及变形网页木马有一定的检测能力。  相似文献   

8.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

9.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

10.
一种基于混沌粒子群算法的网页分类规则抽取方法   总被引:1,自引:1,他引:0  
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,提出了基于混沌粒子群算法的分类规则抽取方法.该算法采用实数编码,令特征类别作为粒子的恒定属性,适应度函数从支持度、置信度和覆盖度三个不同的侧面评价规则的优劣,利用混沌特性提高种群的多样性和粒子搜索的遍历性,兼顾全局寻优和局部寻优,改变了基本粒子群在分类初期做大量无效工作、算法效率比较低的状况,简化了知识系统的处理过程,实验表明网页分类的查全率和查准率整体得到了提高.  相似文献   

11.
网页设计中JSP和ASP技术的应用   总被引:2,自引:1,他引:1  
石国河 《通信技术》2010,43(2):98-100,104
随着互联网逐渐走进人们的生活,网页制作业越来越受到青睐。相对于静态网页,动态网页以数据库技术为基础,可以大大降低网站维护的工作量,采用动态网页技术的网站可以实现更多的功能。JSP和ASP可以说是当今制作网页的两种流行技术。对这两种技术的特点以及网页制作中如何运用这些技术作了详细的讨论,最后比较了这两种技术的异同。  相似文献   

12.
Because protein is a primary element responsible for biological or biochemical roles in living bodies, protein function is the core and basis information for biomedical studies. However, recent advances in bio technologies have created an explosive increase in the amount of published literature; therefore, biomedical researchers have a hard time finding needed protein function information. In this paper, a classification system for biomedical literature providing protein function evidence is proposed. Note that, despite our best efforts, we have been unable to find previous studies on the proposed issue. To classify papers based on protein function evidence, we should consider whether the main claim of a paper is to assert a protein function. We, therefore, propose two novel features — protein and assertion. Our experimental results show a classification performance with 71.89% precision, 90.0% recall, and a 79.94% F‐measure. In addition, to verify the usefulness of the proposed classification system, two case study applications are investigated — information retrieval for protein function and automatic summarization for protein function text. It is shown that the proposed classification system can be successfully applied to these applications.  相似文献   

13.
该文通过对文摘句的选择问题进行分析,提出了一种文摘句优选方法,相对于传统的逐个添加句子生成文摘的方法,该文提出的方法是在一定范围内逐个删除句子生成文摘。该方法分两阶段进行句子选择,第1阶段获取候选文摘句子集合,采用了直接获取算法和基于冗余信息处理的获取算法。第2阶段逐步删除句子,分别以不同特征项作为衡量句子对候选文摘句子集合的贡献,提出了文摘句优选算法。以DUC2004为实验语料,通过经句子选择后生成文摘的ROUGE得分,验证了句子选择在文摘生成过程中的必要性,与基于冗余信息处理的句子选择方法比较,验证了该文提出算法的有效性。  相似文献   

14.
Making sense of ever-growing amount of visual data available on the web is difficult, especially when considered in an unsupervised manner. As a step towards this goal, this study tackles a relatively less explored topic of generating structured summaries of large photo collections. Our framework relies on the notion of a story graph which captures the main narratives in the data and their relationships based on their visual, textual and spatio-temporal features. Its output is a directed graph with a set of possibly intersecting paths. Our proposed approach identifies coherent visual storylines and exploits sub-modularity to select a subset of these lines which covers the general narrative at most. Our experimental analysis reveals that extracted story graphs allow for obtaining better results when utilized as priors for photo album summarization. Moreover, our user studies show that our approach delivers better performance on next image prediction and coverage tasks than the state-of-the-art.  相似文献   

15.
全极化合成孔径雷达(PolSAR)图像蕴含更丰富的散射信息,具有更多的可用特征。如何使用这些特征是极化SAR图像分类中非常重要的一步,但是目前尚未对此提出非常明确的准则。为了能够有效地解决上述问题,该文提出一种基于特征加权集成的极化SAR图像分类算法。该算法采用0-1矩阵分解集成方法对包括不同特征的数据集进行学习获得相应加权系数,并通过对每个特征集获得的预测结果进行加权集成来提高极化SAR图像分类性能。首先,输入极化SAR数据,获得极化特征作为原始特征集,并对其进行随机抽取获得不同的特征子集;然后,使用0-1矩阵集成算法得到每个特征值相对应的加权系数;最后,通过对各个特征子集的预测结果进行集成得到最终极化SAR图像分类结果。实测L波段和C波段极化数据的实验结果表明,该算法可以有效地提高极化SAR图像分类的准确度。  相似文献   

16.
是快速获取视频关键信息的有效途径,现有的视频摘要方法通常计算复杂度高,在计算资源受限的场景下难以实际应用。为此,提出了一种高效的顾及方向信息的时空联合监控视频摘要方法。该方法首先采用水平切片获得目标时空运动轨迹;其次去除时空轨迹背景并计算直线轨迹斜率,依据目标时空轨迹斜率完成目标运动方向判定;然后检测采样域运动片段以确定目标在视频中的时序位置;最后依据目标时序位置及其运动方向自适应构建视频摘要。实验结果表明,所提方法的帧平均处理时间(average frame processing time,AFPT)达到了0.374 s,明显优于对比方法,且所生成的视频摘要简洁高效、用户体验好。  相似文献   

17.
针对传统集成学习方法直接应用于单类分类器效果不理想的问题,该文首先证明了集成学习方法能够提升单类分类器的性能,同时证明了若基分类器集不经选择会导致集成后性能下降;接着指出了经典集成方法直接应用于单类分类器集成时存在基分类器多样性严重不足的问题,并提出了一种能够提高多样性的基单类分类器混合生成策略;最后从集成损失构成的角度拆分集成单类分类器的损失函数,针对性地构造了集成单类分类器修剪策略并提出一种基于混合多样性生成和修剪的单类分类器集成算法,简称为PHD-EOC。在UCI标准数据集和恶意程序行为检测数据集上的实验结果表明,PHD-EOC算法兼顾多样性与单类分类性能,在各种单类分类器评价指标上均较经典集成学习方法有更好的表现,并降低了决策阶段的时间复杂度。  相似文献   

18.
随着网络的迅速发展,如何快速浏览大量视频已成为一个重要问题,视频摘要技术就是解决这个问题的关键所在。介绍了视频摘要技术的基本概念和静态图像摘要的主要形式,并提出了一种基于图像聚类与挖掘的视频摘要方法。  相似文献   

19.
为了快速获取网络文本中主题内容和情感信息,提出了文本情感文摘的概念,同时提出了一种基于条件随机场模型的情感文摘提取方法.首先提取文本中的句子长度、提示词以及情感词语作为基本特征,同时应用浅层狄利赫雷分配的主题模型,分析文本潜在主题信息,提取主题特征,将这两类特征同时应用到条件随机场模型中,从而获取文本的情感文摘.实验结果表明,该方法细腻刻画了文本的主题信息,同时考虑了文本主题的情感色彩,文摘提取效果较理想,能满足用户的实际需要.  相似文献   

20.
冀中  樊帅飞 《电子学报》2017,45(5):1035-1043
视频摘要技术作为一种快速感知视频内容的方式得到了广泛的关注.现有基于图模型的视频摘要方法将视频帧作为顶点,通过边表示两个顶点之间的关系,但并不能很好地捕获视频帧之间的复杂关系.为了克服该缺点,本文提出了一种基于超图排序算法的静态视频摘要方法(Hyper-Graph Ranking based Video Summarization,HGRVS).HGRVS方法首先通过构建视频超图模型,将任意多个有内在关联的视频帧使用一条超边连接;然后提出一种基于超图排序的视频帧分类算法将视频帧按内容分类;最后通过求解提出的一种优化函数来生成静态视频摘要.在Open Video Project和YouTube两个数据集上的大量主观与客观实验验证了所提HGRVS算法的优良性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号