首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的Deep Web数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率.  相似文献   

2.
《软件》2016,(9):94-97
随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为基础的网络爬虫提出了新的挑战。本文利用Web Driver实现了一个定向网络爬虫,该爬虫能够自动采集指定网页数据,支持Ajax等动态技术,能够对简单验证码进行识别,并绕过爬虫检测。利用该爬虫对全国企业信用信息系统进行爬取,取得了良好效果。  相似文献   

3.
随着Web的飞速发展,Deep Web中蕴藏着海量高质量数据,如何高效地提取这些数据极具挑战。由于Deep Web的动态性,其数据经常处于频繁更新的状态,而用户总是希望获得最新鲜的内容。为此,论文在分析Deep Web数据变化特性的基础上,建立一个Deep Web数据生成模型,然后,提出一种强化学习的Deep Web数据提取方法。实验表明,该方法具有较好的数据提取效率,可有效提高Deep Web数据集成服务质量。  相似文献   

4.
随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。  相似文献   

5.
一种基于特征符号的网页主题信息抽取方法   总被引:1,自引:0,他引:1  
王舒  朱敏  张明  牛颢  赵瑜 《计算机应用研究》2009,26(12):4539-4541
随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性。通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。  相似文献   

6.
随着大数据时代的到来,对网络信息的时效性进行评价已成为当今研究的热点。将以Web新闻作为研究对象,对大数据环境下的Web信息提取和中文分词处理等技术进行研究,并在此基础上,提出一种基于Web语义信息提取的网络信息时效性评价算法。实验结果将充分体现算法实现的有效性,既可引导网络用户关注更有价值的 Web信息,也可帮助网站管理者构建一个时效性更高的网站。  相似文献   

7.
崔元  张琢 《计算机科学》2017,44(Z11):448-452
针对直接从大型网络日志中提取网络事件困难的问题,提出了基于大规模网络日志的模板提取方法。该方法可将海量的、原始的网络日志主动转换为日志模板,从而为了解网络事件的根因和预防网络故障的发生提供重要的前期准备。首先分析日志的结构,将日志中的词划分为模板词和参数词两类;然后从3个不同的角度切入,分别对日志进行模板提取研究;最后使用互联网公司中的实际生产数据,采用Rand_index方法来评估3种提取方法的准确有效性。结果表明,在从服务集群中收集来的4种不同消息类型中,基于标签识别树模型提取到的日志模板的平均准确率达到99.57%,高于基于统计模板提取模型和基于在线提取模板模型的准确率。  相似文献   

8.
综合社会行动者兴趣和网络拓扑的社区发现方法   总被引:2,自引:0,他引:2  
随着Web2.0技术的发展,大规模在线社会网络数据的获取成为了可能,这激发了众多研究者对社会网络的研究热情.近年来,社区发现成为社会网络领域的研究热点.研究了社会网络社区发现问题,提出了综合社会行动者兴趣和社会网络拓扑结构的社区发现方法.对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果.在Flickr真实社会网络数据集上的测试表明,提出的方法比单纯基于兴趣聚类的方法在有效性上有较大的提高.  相似文献   

9.
随着互联网普及率的不断提高和大众媒介的网络化,网络媒体逐渐成为使用率最高的网络应用.媒介的互动性和网络的海量性导致了网络评论的大量出现,使得网络评论主流观点的自动提取以及不同源数据的对比分析格外具有意义.针对以上问题展开研究,主要有两点贡献:第一,提出了一种自动提取网络评论主流观点的方法,该方法克服网络评论的复杂性和海量性,通过"Web评论观点鉴别"和"主流观点描述"两个核心部分的处理,自动提取出某一主题下评论的主流观点,并针对每个主流观点,使用关键词和代表性评论对其进行描述;第二,利用该方法对来自不同数据源的网络评论进行对比分析,给出了不同数据源的网络评论特点及差异.  相似文献   

10.
Web媒体被公认为继报纸、广播、电视之后的"第四媒体"。而Web2.0的迅速普及,又使当今的Web媒体呈现了一种"自媒体"形式,即每个用户既是信息的接受者,也是信息发布者和信息转发者,因此,在当今的Web上形成了在线社会网络。研究表明在线社会网络呈现出一种很强的"模块性"("社区性"),因此,在在线社会网络中,社区发现一直是一个研究热点,即如何设计算法以发现大规模社会网络中的社区结构。文章提出了一种基于拉普拉斯矩阵的在线社会网络社区发现算法,该算法将在线社会网络转换成以拉普拉斯矩阵形式表现,通过计算该矩阵的谱并利用其性质发现社会网络上的社区结构。文章同时针对人造数据集与真实数据集进行了实验,实验结果表明本算法能够有效的发现社会网络中的社区结构。  相似文献   

11.
针对现有Web社会关系评估方法准确率较低的问题,提出一种结合网页与语句共现的Web社会关系评估方法。根据人名对在Web中的网页共现和页面内语句共现情况,综合评估2个人之间社会关系的强弱,设计相应的关系评估函数。实验结果表明,该评估方法能准确地度量Web社会关系的强弱,并且在度量关系权重时,语句共现比网页共现对评估结果的准确性起到更重要的决定作用。  相似文献   

12.
基于Web社会网络的个性化Web信息推荐模型   总被引:3,自引:0,他引:3  
陈君  唐雁 《计算机科学》2006,33(4):185-187
随着Web信息量的快速增长,个性化的Web信息推荐系统扮演着越来越重要的角色。目前,大多数Web信息推荐系统存在着个性化程度不高,时用户历史数据依赖性高,系统不具备开放性,用户偏好“走样”概率高的问题。针对这四个方面的问题,本文提出了一种新的、采用语义web技术、基于Web社会网络的个性化Web信息推荐模型,详细分析了用户偏好的获取,Web社会网络的生成以及待过滤Web信息的采集。并且,利用从实际中采集的真实数据进行了实验,证明了模型的可行性和有效性。  相似文献   

13.
社会化媒体提供了海量的、大尺度的异质网络数据,如何对网络数据进行分类是一个亟待解决的新问题。基于潜在社会维模型,提出利用流形学习中的拉普拉斯特征映射算法进行社会维抽取。实验表明,在精确匹配率、微平均、宏平均等性能指标上,均优于基于模块度最大化的原有社会维模型。该算法能更好地获取用户的隐性联系,从而更好地分析网络用户行为。  相似文献   

14.
陈霞 《软件工程》2021,(5):56-58,46
文章基于区块链技术的大数据安全机制和社会安全机制,开发一种在多部委联合监管下的区块链社会运行机制,在合理、合法、合规的前提下,使其可以在数据加密共享过程中获得充足的社会算力资源支持.通过社会调查可知,革新后受到全面市场秩序监管的国内区块链方案,可以在调动社会算力的工作中得到推动驱动力,所以区块链项目可以在国内有效监管下...  相似文献   

15.
针对传统社会网络隐私保护技术对大规模社会网络数据处理效率较低的问题,提出一种分布式结点分裂匿名社会网络隐私保护算法(Distributed-Vertex Splitting Social Network Privacy Preserving,D-VSSP)。D-VSSP算法利用MapReduce和Pregel-like分布式计算模型处理社会网络图数据。首先基于MapReduce分布式计算模型对大图中的结点的标签信息进行标签平凡化、标签平凡化分组和精确分组处理;然后基于Pregel-like的消息传递机制,选举结点分裂,进行分布式结点分裂匿名。实验结果表明,在 对大规模社会网络数据的处理效率上, D-VSSP算法优于传统算法。  相似文献   

16.
张宇  刘燕兵  熊刚  贾焰  刘萍  郭莉 《软件学报》2014,25(9):1937-1952
对包含亿万个节点和边的图数据进行高效、紧凑的表示和压缩,是大规模图数据分析处理的基础.图数据压缩技术可以有效地降低图数据的存储空间,同时支持在压缩形式的图数据上进行快速访问.通过深入分析该技术的发展现状,将该技术分为基于传统存储结构的压缩技术、网页图压缩技术、社交网络图压缩技术、面向特定查询的图压缩技术4类.分别对每类技术详细分析了其代表方法并比较了它们之间的性能差异.最后对该技术进行了总结和展望.  相似文献   

17.
Expertise Oriented Search (EOS) aims at providing comprehensive expertise analysis on data from distributed sources. It is useful in many application domains, for example, finding experts on a given topic, detecting the confliction of interest between researchers, and assigning reviewers to proposals. In this paper, we present the design and implementation of our expertise oriented search system, Arnetminer (). Arnetminer has gathered and integrated information about a half-million computer science researchers from the Web, including their profiles and publications. Moreover, Arnetminer constructs a social network among these researchers through their co-authorship, and utilizes this network information as well as the individual profiles to facilitate expertise oriented search tasks. In particular, the co-authorship information is used both in ranking the expertise of individual researchers for a given topic and in searching for associations between researchers. We have conducted initial experiments on Arnetminer. Our results demonstrate that the proposed relevancy propagation expert finding method outperforms the method that only uses person local information, and the proposed two-stage association search on a large-scale social network is order of magnitude faster than the baseline method.  相似文献   

18.
李慧  胡云  施珺 《计算机应用》2013,33(11):3067-3070
针对传统协同过滤推荐算法的数据稀疏性及恶意评分等问题,提出了一种融合信任度与矩阵分解技术实现社会网络推荐的方法。首先通过计算节点的声望值与偏见值发现网络中的不可信节点,并将其评分权重进行弱化。然后将用户-评分矩阵与信任度矩阵相结合,实现社会网络环境下的协同推荐。实验表明,相对于传统的协同过滤算法,该算法可以消减虚假评分或恶意评分给推荐系统带来的负面影响,有效地缓解数据稀疏性与冷启动问题,显著提高推荐系统的推荐质量。  相似文献   

19.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

20.
采用大数据处理技术和并行计算方法进行融合社交网络的用户行为特征的挖掘,实现社交网络智能推荐,提出一种基于用户行为挖掘的融合社交网络推荐模型。采用关联规则分布模型进行融合社交网络的用户行为特征检测,提取融合社交网络的用户行为的本体信息和关联规则项,构建社交网络的联合推荐的模糊决策模型,计算融合社交网络用户行为的联合信息熵特征值,采用模糊C均值聚类方法对提取的特征量进行分类识别,根据分类识别结果实现用户行为挖掘和融合社交网络的自适应推荐。仿真结果表明,采用该方法进行融合社交网络的用户行为特征挖掘的查准率较高,推荐的置信度水平较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号