首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

2.
张智  顾韵华 《信息技术》2011,(5):108-111
针对Deep Web的查询需求,提出了一种基于K-近邻算法的Deep Web数据源的自动分类方法。该算法在对Deep Web网页进行表单特征提取及规范化的基础上,基于距离对Deep Web网页所属的目标主题进行判定。实验结果表明:基于K-近邻分类算法可以较有效地进行DeepWeb数据源的自动分类,并得到较高的查全率和查准率。  相似文献   

3.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

4.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

5.
随着互联网的快速发展,Web数据挖掘已经成为当今热门的研究主题。本文介绍了Web数据挖掘的基本概念、Web数据的特点及其Web数据挖掘分类,并对Web数据挖掘技术的研究进行讨论。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

6.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。  相似文献   

7.
针对海量文本邮件的挖掘过滤需要更大的存储空间、以及更强的计算能力,提出一种基于Hadoop云计算平台的垃圾邮件过滤方法.其思想:把相对孤立的数据集合并成易于云平台处理的大文件集合;依据评估函数构建文本向量,将邮件转换为结构化的描述;基于MapReduce分布式编程模型改进SVM算法,利用集群整体的计算能力求解最优平面.实验表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而提升较快.  相似文献   

8.
随着Web网络和无线传感器网络的不断发展,大数据的出现对数据查询和处理产生了挑战。研究了MapReduce框架下移动对象的并行Skyline计算问题,采用基于角度划分的方法解决负载平衡问题,并提出了一种过滤策略进行剪枝提高计算效率,在此基础上分别实现了静态Skyline算法和基于事件跟踪的MR-Track算法。最后通过对比实验验证了算法的有效性。  相似文献   

9.
陈尧妃  倪应华 《现代电子技术》2007,30(2):133-134,137
针对Web挖掘中异构数据源和半结构化的特点,提出基于XML个性化Web挖掘框架模型实现用户兴趣数据的挖掘。分析模型的工作流程,重点讨论实现该模型的关键技术:XML文档统一模型、Web内容预处理模块和Web内容挖掘模块。  相似文献   

10.
汤琛  王攀 《电信快报》2009,(12):42-45
网页自动分类是Web数据挖掘中的一个重要研究方向,也是搜索引擎前期的准备工作。文章介绍了一种利用搜索引擎原理构建从网页URL到行为类别映射关系的分类系统.该系统结合爬虫原理和网页自动分类技术实现了根据网页URL来判断用户行为的类别功能。实验表明该分类系统具有较高的分类质量和较强的适应能力。  相似文献   

11.
云计算关键技术分析研究   总被引:6,自引:3,他引:3  
李瑛  胡新炜 《现代电子技术》2012,35(14):65-67,72
针对云计算概念的多种技术组合特征,对其框架模型进行分析,研究面向服务的体系架构(SOA)的主要功能,服务抽象是面向服务模式中的主要设计原则;研究平台虚拟化、网络虚拟化、数据库虚拟化的不同特征和作用,强调数据中心虚拟化是所有虚拟化技术的整合;研究Web关键技术在云计算中的作用特征。明确了结论,即云计算中面向服务的体系架构使网络应用可以满足按需获取,虚拟化使应用与底层的基础设施相互分离,Web技术使云计算中信息内容的合作成为可能,在线社区交互简单易行。  相似文献   

12.
面向云计算中虚拟化技术的等级保护要求研究   总被引:1,自引:0,他引:1  
虚拟化技术是云计算的关键核心技术,在支撑云计算体系的同时,其本身的安全性也是人们关注的焦点。文中对虚拟化技术进行简单的介绍,分析虚拟化技术给信息系统带来的新的威胁和风险,在信息系统等级保护的框架下针对云计算中的虚拟化系统提出新的控制点和增强要求,为云计算系统的等级保护做出有益的探索。  相似文献   

13.
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。  相似文献   

14.
重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。  相似文献   

15.
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成一个巨大的全球信息仓库。在海量数据空间中快速、准确地获取用户所需成为Web检索系统研究的焦点。将一种全新的网页自动分类技术引入WWW信息抽取领域,解决网上信息有效获取的问题。获取网站分类体系,设计的Web信息自动归类算法,可通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使用户快捷准确地从WWW上获取所需信息。  相似文献   

16.
扩展的Deep Web质量估计模型研究   总被引:1,自引:1,他引:0  
Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度.  相似文献   

17.
MapReduce模型的调度及容错机制研究   总被引:1,自引:0,他引:1  
MapReduce是一种并行编程模型,可以用来处理和生成大量数据集。它的调度以及容错机制是模型的重要一部分。通过对MapReduce模型的执行过程进行分析,提取得到其上面的调度以及容错模型。并将P2P模型中常用的调度思想使用于MapReduce调度模型上,对原来的调度机制和容错机制做一定的修改。  相似文献   

18.
After a comprehensive literature review and analysis, a unified cloud computing framework is proposed, which comprises MapReduce, a vertual machine, Hadoop distributed file system (HDFS), Hbase, Hadoop, and virtualization. This study also compares Microsoft, Trend Micro, and the proposed unified cloud computing architecture to show that the proposed unified framework of the cloud computing service model is comprehensive and appropriate for the current complexities of businesses. The findings of this study can contribute to the knowledge for academics and practitioners to understand, assess, and analyze a cloud computing service application.  相似文献   

19.
黄志兰  樊勇兵  陈楠  何晓武 《电信科学》2016,32(11):112-118
云计算的规模化发展对数据中心网络提出了新的挑战,要求应用SDN技术对数据中心网络进行虚拟化,以满足多租户环境下灵活调整的动态网络需求,overlay SDN是实现数据中心网络虚拟化的核心技术。研究了overlay SDN网络虚拟化的关键技术,提出了商业overlay SDN存在的兼容性问题,分析了overlay SDN 实现异构兼容的主要方法,并提出了基于开源和白盒交换机实现异构兼容的overlay SDN架构。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号