首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

2.
语义Web服务匹配策略研究   总被引:2,自引:1,他引:1  
张慧明  唐慧佳 《计算机应用》2010,30(4):1083-1085
通过OWL-s来对Web服务进行逻辑化描述,将语义Web与Web服务相结合成语义Web服务,使得可以基于Web服务的语义信息来查找和匹配所需的Web服务。在单个Web服务参数语义匹配度确定基础上,提出了一种新的确定整个Web服务的匹配策略,并完成了具体的实现。相比UDDI基于关键字的匹配,使用语义信息匹配Web服务更能满足用户的潜在需求。  相似文献   

3.
从不同方面对语义Web服务发现相关技术进行综述。阐述了语义Web服务的基本概念和特点,总结和分析了语义服务发现的基础——语义服务描述语言,重点从单服务匹配和服务组合匹配两个方面对语义Web服务发现的关键问题——语义Web服务匹配近年来的研究,进行了全面的总结和讨论,并指出了语义Web服务发现研究领域的挑战和未来的研究方向。  相似文献   

4.
Web服务组合研究是Web服务领域一个研究热点。本文利用0WL-S语言对Web服务进行描述,提高Web服务的机器可理解性,并利用语义信息进行Web服务组合操作。文中提出一个在JXTA环境中实现Web服务组合的模型,在其上实现了一个基于语义的Web服务组合方法,并通过一个简单的实例说明语义Web服务组合的具体过程。  相似文献   

5.
讨论基于特定任务本体的地理信息Web服务自动组合问题.通过特定任务本体概念间的语义关系对Web服务进行匹配,给出了服务组合执行匹配度的定义及计算表达式,详细地探讨了地理信息Web服务自动组合算法推导步骤,能够满足用户在已有的Web服务中自动地找出能满足需要的所有服务组合方案,并通过服务组合执行匹配度的比较,求解出最佳服务组合方案.该研究对人机之间、机器和机器之间的语义理解具有一定的实用价值.  相似文献   

6.
统一描述发现集成协议(UDDI)提供了Web服务的信息注册查找规范,解决了Web服务的描述、发布以及查找问题。然而采用UDDI建立的Web服务在服务查找时会受关键词匹配的严重影响,缺乏对语义信息的支持。因此在服务匹配时不能搜索到用不同术语描述的相关信息,从而造成了服务查全率查准率低。语义Web服务技术以信息服务智能化、自动化、高效性为目标,通过本体(Ontology)来描述资源的语义信息,它能够有效的解决上述问题。本文在分析了语义Web服务和UDDI技术规范的基础上。设计实现了一种基于UDDI的语义WEB服务的发布及发现机制。  相似文献   

7.
统一描述发现集成协议(UDDI)提供了Web服务的信息注册查找规范,解决了Web服务的描述、发布以及查找问题。然而采用UDDI建立的Web服务在服务查找时会受关键词匹配的严重影响,缺乏对语义信息的支持。因此在服务匹配时不能搜索到用不同术语描述的相关信息,从而造成了服务查全率查准率低。语义Web服务技术以信息服务智能化、自动化、高效性为目标,通过本体(Ontology)来描述资源的语义信息,它能够有效的解决上述问题。本文在分析了语义Web服务和UDDI技术规范的基础上,设计实现了一种基于UDDI的语义WEB服务的发布及发现机制。  相似文献   

8.
提出了基于语义Web的技术。首先要定义一个服务本体,服务提供者通过服务本体描述服务信息,并以语义Web的形式来发布。用户可以定义查询条件来查询自己所需要的服务。查询条件可以多种形式定义,如语义Web形式和三元组形式。这需要有一个算法来处理用户查询,能够处理语义信息并进行推理,对用户的查询和所提供的服务进行匹配,并返回查询结果。文章研究了语义Web的推理机制,并提出了一种用于快速和准确的服务发现的匹配算法。  相似文献   

9.
基于语义相似度的Web服务发现研究   总被引:1,自引:0,他引:1  
Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要。文中在分析现有相关研究的基础上,给出了一种基于语义相似度的Web服务发现方法。该方法充分利用服务中存在的语义信息,针对服务请求和广告服务中描述的功能进行匹配,并通过语义相似度来衡量两者匹配的程度。文中具体给出了服务间语义相似度的计算方法并通过示例说明了服务匹配的过程。  相似文献   

10.
基于深度优先搜索的Web服务合成算法   总被引:1,自引:0,他引:1  
本文通过提取Web服务的语义信息,研究了语义Web服务合成问题。Web服务合成的关键是对候选Web服务的输入输出数据关系进行建模,以及有效地利用这些已有的数据依赖关系实现服务合成请求。通过构建Web服务的依赖图,提出了一种基于图论中深度优先搜索的Web服务合成算法,以获取满足特定要求的Web服务。  相似文献   

11.
缪霖  邱会中 《计算机工程》2010,36(13):76-78
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含“正文”的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。  相似文献   

12.
一种改进的基于本体的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。  相似文献   

13.
基于K-近邻算法的网页自动分类系统的研究及实现   总被引:2,自引:0,他引:2  
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。  相似文献   

14.
树和模板的文献信息提取方法研究*   总被引:1,自引:0,他引:1  
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。  相似文献   

15.
基于遗传算法的专业元搜索引擎   总被引:1,自引:0,他引:1  
赵大明  鱼滨 《计算机工程》2009,35(21):192-194
元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元搜索引擎,在充分挖掘网页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能力。  相似文献   

16.
17.
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。  相似文献   

18.
一种基于锚文本的并行检索策略   总被引:1,自引:0,他引:1       下载免费PDF全文
高珊  何婷婷  胡文敏 《计算机工程》2008,34(19):30-31,3
进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。  相似文献   

19.
基于FFT的网页正文提取算法研究与实现   总被引:2,自引:2,他引:0       下载免费PDF全文
主要研究“正文式”网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对“正文式”网页的有效信息进行提取。  相似文献   

20.
Web挖掘研究   总被引:289,自引:4,他引:285  
因特网目前是一个巨大,分布广泛,全球性的信息服务中心,它涉及新闻,广告,消费信息,金融管理,教育,政府,电子商务和许多其它信息服务,Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,Web挖掘就是从Web活动中抽取感兴趣的潜在有用模式和隐藏的信息,对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘,多层次Web数据仓库方法以及W eb,Log挖掘等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号