期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵涓涓陈俊杰李元俊《计算机工程》2010,36(3):1-3

针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。相似文献

2.

一种基于节点密度分割和标签传播的Web页面挖掘方法 总被引：1，自引：0，他引：1

张乃洲曹薇李石君《计算机学报》2015,38(2)

获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 相似文献

3.

详解4种类型的爬虫技术

傅一平《计算机与网络》2021,47(6):37-38

聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性. 基于链接评价的爬行策略,主要是以Web页面作为半结构化文档,其中拥有很多结构信息可用于评价链接重要性.还有一个是利用Web结构来评价链接价值的方法,也就是HITS法,通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序. 相似文献

4.

PageCluster:一种Web页面层次聚类方法

吴萍宋瀚涛姜峰《计算机工程与应用》2004,40(29):84-86

提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。相似文献

5.

基于页面内容和站点结构的页面聚类挖掘算法 总被引：16，自引：0，他引：16

杨怡玲管旭东尤晋元《软件学报》2002,13(3):467-469

提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高. 相似文献

6.

TEI类在Web容器内的运行研究

何文涛《计算机应用与软件》2009,26(10):125-126

JSP页面常需使用自定义标签来满足特定的业务逻辑,而自定义标签的核心就是标签处理程序和标签额外信息(TEI)类.Web容器装填、运行JSP页面的servlet类, 进而servlet类会实例化和调用标签处理程序,然而软件理论未涉及标签额外信息类如何在Web容器内运行.通过写出标签处理程序和它的TEI类,观察Web容器的运行日志,给出了容器内创建标签处理程序实例和相应TEI类实例的顺序,阐明了TEI类中的方法在Web容器中的调用顺序和软件人员需注意的运行特点. 相似文献

7.

利用JTidy和XML实现Web数据信息的批量提取

刘钊夏何明昕《计算机工程与设计》2010,31(6)

为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法.根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法.实验结果表明了批量提取信息方法的可行性与有效性. 相似文献

8.

基于本体的Web页面聚类研究 总被引：4，自引：1，他引：3

谢红薇颜小林余雪丽《计算机科学》2008,35(9):153-155

提出了一个基于本体的Web页面聚类系统原型,通过构建一个简单的搜索引擎并对结果进行聚类,大大节省用户发现所需信息的时间.同时将领域本体引入聚类系统中,提高了聚类效率和增强了聚类结果的可解释性. 相似文献

9.

基于状态迁移的Web应用功能测试用例生成方法

张绍康王曙燕孙家泽《计算机应用》2014,34(6):1779-1782

针对Web应用测试方法错误覆盖率低的问题,提出了一种基于状态迁移的Web应用功能测试用例生成方法。该方法通过构造页面状态迁移图、事件迁移表和导航迁移表对Web应用的链接关系进行表示。基于页面状态迁移图生成的页面状态迁移树生成测试路径,根据等价类划分原则,提出了一种测试用例覆盖准则,结合事件迁移表和导航迁移表中的信息记录构造测试用例。典型案例实验结果表明,该方法有效地表示了Web应用中页面间的链接关系,提高了测试用例的错误检测率。相似文献

10.

基于超链接信息的Web文本聚类方法研究

孙莉娜《数字社区&智能家居》2006,(26)

面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。相似文献