首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。  相似文献   

2.
利用传统的搜索引擎寻找信息,返回的页面结果集查准率低且信息冗余,基于Web结构挖掘技术的HITS算法可以提高页面搜索的有效性.在深入分析HITS算法及其相关改进算法的基础上,提出一种基于相似度值的向量空间投影HITS算法.该算法在超链接结构分析的基础上结合页面文本内容,能较好地消除HITS算法存在的主题偏移现象,且不增加顿外的系统开销.  相似文献   

3.
一种改进的基于本体的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。  相似文献   

4.
PageRank算法对页面评价太过客观,对不同重要程度的网页被授予相同的权重,并且在排序时,一些旧的页面经常出现在Web检索结果的前面,而新加入的高质量页面用户很难找到.针对Pagerank算法存在的这些缺陷,引入时间维加权概念,开发出TimedWPR算法,同时保证了两种页面的排序优化.该算法采用服务器反馈回来的网页修改时间表示网页年龄,并在此基础上对网络的组织结构和链接质量以及时间序列进行挖掘,从而克服现有Web超链接分析中的不足.  相似文献   

5.
基于Web页面链接和标签的聚类方法   总被引:1,自引:0,他引:1  
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进.  相似文献   

6.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

7.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

8.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

9.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

10.
面向Web的信息收集工具的设计与开发   总被引:8,自引:1,他引:8  
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。  相似文献   

11.
Web搜索中的数据挖掘技术研究   总被引:4,自引:0,他引:4  
WWW已经成为世界上是大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研究热点。Web挖掘也已经成为数据挖掘中相对成熟的一个分支。本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述。文章首先对目前流行的Web内容挖掘方面的常用技术进行了研究分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型。接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用户使用挖掘相结合,应用于开发智能型搜索引擎的趋势。  相似文献   

12.
Web站点的超链结构挖掘   总被引:11,自引:0,他引:11  
WWW是一个由成千上万个分布在世界各地的Web站点组成的全球信息系统,每个Web站点又是一个由许多Web页构成的信息(子)系统。由于一个文档作者可以通过超链把自己的文档与任意一个已知的Web页链接起来,而一个 Web站点上的信息资源又通常是由许多人共同提供的, 因此 Web站点内的超链链接通常是五花八门、各种各样的,它们可以有各种含义和用途。文章分析了WWW系统中超链的使用特征和规律,提出了一个划分超链类型、挖掘站点结构的方法,初步探讨了它在信息收集和查询等方面的应用。  相似文献   

13.
Web结构分析算法HITS的改进及应用   总被引:4,自引:0,他引:4  
李昕  朱永胜  武港山 《计算机工程》2005,31(6):40-42,83
在网络环境下,传统检索技术不可避免地存在种种不足,而超链分析技术可以直接或间接地解决这些问题.该文在介绍网络结构的基础上,描述了已有的HITS算法及其改进策略,并提出了该算法的简单实现架构.HITS算法着眼于挖掘超链间的潜在语义关系,有助于在更深层次上挖掘Web中蕴含的语义信息.  相似文献   

14.
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集,避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。  相似文献   

15.
给出了为主题精选算法(如HITS)构造Web邻域图的方法和实用系统。该系统基于Web搜索引擎(AltaVista),使用额外的Visual C 软件模块构造一个查询特定的邻域图,并将图节点和边信息存储于数据库中以供超链分析使用。Web环境的实验表明该邻域图构造方法是可行的,邻域图构造系统是可靠的。  相似文献   

16.
基于嵌入式Web的发射机远程监控系统   总被引:2,自引:0,他引:2  
为了保证广播电视节目的安全稳定播出,需要对广播电视发射机运行状态进行远程监测和控制。基于Web的广播电视发射机远程监控具有很强的适应性和开放性,符合现代远程监控系统的要求。讨论了基于Web服务器的广播电视发射机远程监控的2种方案,给出了基于嵌入式Web的广播电视发射机远程监控系统体系结构和系统功能,介绍了以SX52BD微处理器为核心的嵌入式Web服务器的软硬件设计与实现。针对系统功能的要求,着重对软件设计进行了分析,并提出利用Java Applet和Socket技术在Web页面上实现监控计算机与嵌入式Web服务器进行动态交互的具体方法。系统应用于某电视发射台发射机的远程监控,试运行效果良好。  相似文献   

17.
在传统网络电视直播系统的基础上,提出了一种基于P2P流媒体的在线直播系统架构,它针对流媒体传输要求带宽高、延迟小、实时性强等特点,采用P2P模型中的混合模型,实现了一种动态自适应的区域自治机制.对P2P网络中的信息源进行实时动态分配,极大地提高了各节点间信息传输速率,并且采用RTP、RTSP等流式传输协议,使整个P2P网络的信息传输稳定性、安全性都有一定的保障.  相似文献   

18.
用SQUID架构本地信息代理服务器   总被引:1,自引:0,他引:1  
仿照电视广播里的插播模式,我们设想了一个活动的代理中心结构作为支持本地信息高效传送的手段,当网页通过与内容服务器协作的动态代理服务器被取回的时候,当地信息将基于需要灵活地被插入到网页中。本文介绍了用Squid—based架构的代理服务器上的信息传送的设计和各种功能,这种方案的操作对于网页客户与内容提供商来说完全透明的,是切实可行的。  相似文献   

19.
This study investigates the impact of hyperlink affordance, psychological reactance, perceived loss of freedom, perceived business tie between sites, and trust in source site, on trust in target site. Hyperlink affordance represents the extent that the Web encourages users’ behavior. Perceived loss of freedom is based on psychological reactance, which refers to the extent that users react to hyperlink affordance. In order to examine the research model, this study used 305 responses from Korean users to conduct three experiments: (1) evaluate trust transfer from the online source Web site to another online target site (Experiment 1), (2) evaluate trust transfer from an online site to an offline target site (Experiment 2), and (3) evaluate trust transfer from an offline site to an online target site (Experiment 3). Trust is transferred from source to target site in the test results of all three models. The hyperlink affordance affects trust transfer in the test results of Experiment 1. Perceived loss of freedom based on psychological reactance negatively affects trust transfer in the test results of Experiments 2 and 3, which decreases the effect of hyperlink affordances on trust transfer. The perceived business tie between sites affects trust transfer in the test results of Experiment 3. The study provides insights into the application of trust transfer in various settings of source and target site in online and offline business.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号