首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取.该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本.实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%.本算法对于包含过多短文本的网页抽取的准确度还有待提高.  相似文献   

2.
面向不良文本信息的中文网页分类方法   总被引:1,自引:0,他引:1  
结合Internet不良文本信息的特点,运用贝叶斯理论设计了一种面向该类信息的网页分类方法,该方法兼顾分类效率与分类精度,对特征项选取以及权重计算的方法进行了优化,降低了分类特征维数,简化了分类过程的处理.实验数据表明,该方法保持了良好的性能,提高了效率.  相似文献   

3.
详细介绍了一种快速的中文网页分类系统的设计与实现,通过解析出网页的主要内容、网页的Title、网页的Meta标签内容和指向该网页的父网页上的锚文本,并根据这些信息用VSM法将网页分类。实验结果表明,本文的方法可以使中文网页分类性能速度得到大的提高且能保持较高的准确率。  相似文献   

4.
李志强  王玉玫 《信息技术》2022,(1):80-83,89
文中研究对于中文的新闻文本分类过程中如何进行文本特征提取的问题.新闻文本数据是嵌在各种网页中的,因为其句子较长,来源广泛,内容驳杂的特点,传统特征提取方法不能达到很好的效果.文中提出一种新的分类能力指数用于特征选择,并对TF-IDF算法做出改进用于加权计算.经实验验证,文中改进算法比原特征选择、权重计算算法有更高的准确...  相似文献   

5.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

6.
基于特征元素和关联规则的图象分类方法   总被引:3,自引:0,他引:3  
李勍  章毓晋 《电子学报》2002,30(9):1262-1265
图象分类是搜索引擎中的重要模块.本文提出了一种基于特征元素的图象分类方法.特征元素与特征向量相比能够根据人的主观感知来提取图象的视觉特征.与传统的基于特征向量的图象分类方法不同,本文提出的图象分类方法不计算特征空间中特征向量之间的距离,而是通过关联规则挖掘发现图象的特征元素与图象所属类别之间的联系.本文实现了该分类算法并将其与一种基于特征向量的图象分类方法NFL相比较.实验的结果证实了所提方法的优越性.  相似文献   

7.
针对个性化网络广告中网页与广告匹配的问题,通过将基于关键词扩展的语义分析技术引入到协同过滤系统中,提出一种基于协同过滤与语义分析结合的个性化网络广告投放方法(CFKE)。该方法首先提取网页与广告文本的关键词,并对关键词扩展同义词;然后,计算网页扩展词与广告扩展词的相似度,并与扩展词的权重进行拟合抽取,得到网页与广告最终的相似度,将三维模型降维成二维模型;最后,再利用协同过滤方法进行匹配。仿真表明,与其他算法相比,该算法不仅具有较高的准确度,同时具有较好的系统响应能力。  相似文献   

8.
网页分类存在着新词多、特征维数高的问题,提出了一种新的网页分类方法。首先利用桥本体对分类领域本体进行集成,建立多本体语义标注模型,对文本特征进行降维。在此基础上,对不同类标号的关健词进行聚类,解决新词无法识别的问题,同时考虑网页标签的不同权重,用改进的SVM模型对中文网页进行分类。实验结果表明,上述方’法改进了传统SVM分类器的性能。  相似文献   

9.
针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.  相似文献   

10.
李慧  施荣华 《信息技术》2007,31(12):73-76
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。  相似文献   

11.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

12.
Many HTML pages are generated by software programs by querying some underlying databases and then filling in a template with the data. In these situations the metainformation about the data structure is lost, so automated software programs cannot process these data in such powerful manners as information from databases. We propose a set of novel techniques for detecting structured records in a web page and extracting the data values that constitute them. Our method needs only an input page. It starts by identifying the data region of interest in the page. Then it is partitioned into records by using a clustering method that groups similar subtrees in the DOM tree of the page. Finally, the attributes of the data records are extracted by using a method based on multiple string alignment. We have tested our techniques with a high number of real web sources, obtaining high precision and recall values.  相似文献   

13.
尤文杰  李瑞芬 《移动信息》2024,46(1):236-239
文中探讨了基于HTML/CSS的响应式网页设计框架,该框架将网页设计分为内容层、布局层和样式层,并强调了模块化设计和媒体查询的重要性。文中首先介绍了响应式网页设计的核心概念与原则,强调了流体布局、媒体查询等关键技术在实现响应式设计中的作用。随后,提出了一个分层结构的实现框架,将网页分为内容层、布局层和样式层,使得网页设计更具可管理性与灵活性。在模块化设计方面,将页面拆解为独立的模块,提高了代码的重用性与可维护性。最后,通过媒体查询技术,实现了根据设备特性应用不同CSS规则,在不同屏幕尺寸下提供最佳用户体验的目的。  相似文献   

14.
PC与IPTV影音服务选单——数位汇流技术开发   总被引:1,自引:0,他引:1  
这里以页面分割及HTML的〈DIV〉标签技术,通过PC及IPTV的设备判断,汇流PC及IPTV影音选单的页面呈现,以达到一次制作多平台播放的效果,让数位内容有更多平台露出的机会,以加速及强化数位内容产业的发展。此汇流技术已成功地运用在台湾的数位典藏计画,将台湾发展多年的珍贵的数位影音典藏,能在Internet网路的PC族群及中华电信的IPTV服务(MOD)两大平台,展现其精致的内容,发挥数位内容的亲近度。  相似文献   

15.
The content-ignorant clustering method takes advantages in time complexity and space com-plexity than the content based methods. In this paper, the authors introduce a unified expanding method for content-ignorant web page clustering by mining the “click-through” log, which tries to solve the problem that the “click-through” log is sparse. The relationship between two nodes which have been expanded is also defined and optimized. Analysis and experiment show that the performance of the new method has improved, by the comparison with the standard content-ignorant method. The new method can also work without it-erative clustering.  相似文献   

16.
动态网页是指网页能依据不同的情况做出动态的响应。在对基于模板的动态网页设计问题进行分析的基础上,使用JSP这种动态网页技术,并使用Struts模板标签,说明模板技术是如何将网页所要实现的功能和网页中的图形、文字等的布局进行分离的,并把模板库思想动态网页相结合,最终将页面按照整体各部分的功能类型分类,总结归纳出多个不同的页面模板,组成一种小型应用系统的常用模板库。  相似文献   

17.
随着互联网的快速发展,网络日益成为人们查找有用数据的重要手段.由于WWW上的信息很多存储在HTML 页面上,网页分类就显得十分必要.利用各种开源软件,详细设计并实现了一个中文网页分类模型,同时利用元搜索技术实现数据采集,有效地提高了采集的广度和深度.在进行中文分词时利用了专业词库,此方法提高了分词的准确率,在建立VSM时提出了一种基于相似度曲线的网页特征抽取方法,此方法能有效解决特征提取的高维问题,并对提高特征区分度,缩小运算量具有良好的效果.  相似文献   

18.
李剑 《电子科技》2012,25(1):105-107
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。  相似文献   

19.
基于网页分块的个性化信息采集的研究与设计   总被引:8,自引:0,他引:8  
个性化Web信息采集是信息检索领域内一个将采集技术与过滤方法结合的新兴方向.也是信息处理技术中的一个研究热点。文章分析了个性化Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计了基于网页分块的个性化Web信息采集系统。  相似文献   

20.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号