共查询到10条相似文献,搜索用时 15 毫秒
1.
2.
一种基于节点密度分割和标签传播的Web页面挖掘方法 总被引:1,自引:0,他引:1
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 相似文献
3.
聚焦爬虫技术
聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性.
基于链接评价的爬行策略,主要是以Web页面作为半结构化文档,其中拥有很多结构信息可用于评价链接重要性.还有一个是利用Web结构来评价链接价值的方法,也就是HITS法,通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序. 相似文献
4.
提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。 相似文献
5.
6.
何文涛 《计算机应用与软件》2009,26(10):125-126
JSP页面常需使用自定义标签来满足特定的业务逻辑,而自定义标签的核心就是标签处理程序和标签额外信息(TEI)类.Web容器装填、运行JSP页面的servlet类, 进而servlet类会实例化和调用标签处理程序,然而软件理论未涉及标签额外信息类如何在Web容器内运行.通过写出标签处理程序和它的TEI类,观察Web容器的运行日志,给出了容器内创建标签处理程序实例和相应TEI类实例的顺序,阐明了TEI类中的方法在Web容器中的调用顺序和软件人员需注意的运行特点. 相似文献
7.
为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法.根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法.实验结果表明了批量提取信息方法的可行性与有效性. 相似文献
8.
基于本体的Web页面聚类研究 总被引:4,自引:1,他引:3
提出了一个基于本体的Web页面聚类系统原型,通过构建一个简单的搜索引擎并对结果进行聚类,大大节省用户发现所需信息的时间.同时将领域本体引入聚类系统中,提高了聚类效率和增强了聚类结果的可解释性. 相似文献
9.
10.
孙莉娜 《数字社区&智能家居》2006,(26)
面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。 相似文献