共查询到20条相似文献,搜索用时 187 毫秒
1.
网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的Deep Web数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率. 相似文献
2.
3.
随着Web的飞速发展,Deep Web中蕴藏着海量高质量数据,如何高效地提取这些数据极具挑战。由于Deep Web的动态性,其数据经常处于频繁更新的状态,而用户总是希望获得最新鲜的内容。为此,论文在分析Deep Web数据变化特性的基础上,建立一个Deep Web数据生成模型,然后,提出一种强化学习的Deep Web数据提取方法。实验表明,该方法具有较好的数据提取效率,可有效提高Deep Web数据集成服务质量。 相似文献
4.
随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。 相似文献
5.
一种基于特征符号的网页主题信息抽取方法 总被引:1,自引:0,他引:1
随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性。通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。 相似文献
6.
7.
针对直接从大型网络日志中提取网络事件困难的问题,提出了基于大规模网络日志的模板提取方法。该方法可将海量的、原始的网络日志主动转换为日志模板,从而为了解网络事件的根因和预防网络故障的发生提供重要的前期准备。首先分析日志的结构,将日志中的词划分为模板词和参数词两类;然后从3个不同的角度切入,分别对日志进行模板提取研究;最后使用互联网公司中的实际生产数据,采用Rand_index方法来评估3种提取方法的准确有效性。结果表明,在从服务集群中收集来的4种不同消息类型中,基于标签识别树模型提取到的日志模板的平均准确率达到99.57%,高于基于统计模板提取模型和基于在线提取模板模型的准确率。 相似文献
8.
综合社会行动者兴趣和网络拓扑的社区发现方法 总被引:2,自引:0,他引:2
随着Web2.0技术的发展,大规模在线社会网络数据的获取成为了可能,这激发了众多研究者对社会网络的研究热情.近年来,社区发现成为社会网络领域的研究热点.研究了社会网络社区发现问题,提出了综合社会行动者兴趣和社会网络拓扑结构的社区发现方法.对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果.在Flickr真实社会网络数据集上的测试表明,提出的方法比单纯基于兴趣聚类的方法在有效性上有较大的提高. 相似文献
9.
随着互联网普及率的不断提高和大众媒介的网络化,网络媒体逐渐成为使用率最高的网络应用.媒介的互动性和网络的海量性导致了网络评论的大量出现,使得网络评论主流观点的自动提取以及不同源数据的对比分析格外具有意义.针对以上问题展开研究,主要有两点贡献:第一,提出了一种自动提取网络评论主流观点的方法,该方法克服网络评论的复杂性和海量性,通过"Web评论观点鉴别"和"主流观点描述"两个核心部分的处理,自动提取出某一主题下评论的主流观点,并针对每个主流观点,使用关键词和代表性评论对其进行描述;第二,利用该方法对来自不同数据源的网络评论进行对比分析,给出了不同数据源的网络评论特点及差异. 相似文献
10.
Web媒体被公认为继报纸、广播、电视之后的"第四媒体"。而Web2.0的迅速普及,又使当今的Web媒体呈现了一种"自媒体"形式,即每个用户既是信息的接受者,也是信息发布者和信息转发者,因此,在当今的Web上形成了在线社会网络。研究表明在线社会网络呈现出一种很强的"模块性"("社区性"),因此,在在线社会网络中,社区发现一直是一个研究热点,即如何设计算法以发现大规模社会网络中的社区结构。文章提出了一种基于拉普拉斯矩阵的在线社会网络社区发现算法,该算法将在线社会网络转换成以拉普拉斯矩阵形式表现,通过计算该矩阵的谱并利用其性质发现社会网络上的社区结构。文章同时针对人造数据集与真实数据集进行了实验,实验结果表明本算法能够有效的发现社会网络中的社区结构。 相似文献
11.
12.
基于Web社会网络的个性化Web信息推荐模型 总被引:3,自引:0,他引:3
随着Web信息量的快速增长,个性化的Web信息推荐系统扮演着越来越重要的角色。目前,大多数Web信息推荐系统存在着个性化程度不高,时用户历史数据依赖性高,系统不具备开放性,用户偏好“走样”概率高的问题。针对这四个方面的问题,本文提出了一种新的、采用语义web技术、基于Web社会网络的个性化Web信息推荐模型,详细分析了用户偏好的获取,Web社会网络的生成以及待过滤Web信息的采集。并且,利用从实际中采集的真实数据进行了实验,证明了模型的可行性和有效性。 相似文献
13.
14.
文章基于区块链技术的大数据安全机制和社会安全机制,开发一种在多部委联合监管下的区块链社会运行机制,在合理、合法、合规的前提下,使其可以在数据加密共享过程中获得充足的社会算力资源支持.通过社会调查可知,革新后受到全面市场秩序监管的国内区块链方案,可以在调动社会算力的工作中得到推动驱动力,所以区块链项目可以在国内有效监管下... 相似文献
15.
针对传统社会网络隐私保护技术对大规模社会网络数据处理效率较低的问题,提出一种分布式结点分裂匿名社会网络隐私保护算法(Distributed-Vertex Splitting Social Network Privacy Preserving,D-VSSP)。D-VSSP算法利用MapReduce和Pregel-like分布式计算模型处理社会网络图数据。首先基于MapReduce分布式计算模型对大图中的结点的标签信息进行标签平凡化、标签平凡化分组和精确分组处理;然后基于Pregel-like的消息传递机制,选举结点分裂,进行分布式结点分裂匿名。实验结果表明,在 对大规模社会网络数据的处理效率上, D-VSSP算法优于传统算法。 相似文献
16.
17.
Juanzi LI Jie TANG Jing ZHANG Qiong LUO Yunhao LIU Mingcai HONG 《Frontiers of Computer Science in China》2008,2(1):94-105
Expertise Oriented Search (EOS) aims at providing comprehensive expertise analysis on data from distributed sources. It is
useful in many application domains, for example, finding experts on a given topic, detecting the confliction of interest between
researchers, and assigning reviewers to proposals. In this paper, we present the design and implementation of our expertise
oriented search system, Arnetminer (). Arnetminer has gathered and integrated information about a half-million computer science researchers from the Web, including
their profiles and publications. Moreover, Arnetminer constructs a social network among these researchers through their co-authorship,
and utilizes this network information as well as the individual profiles to facilitate expertise oriented search tasks. In
particular, the co-authorship information is used both in ranking the expertise of individual researchers for a given topic
and in searching for associations between researchers. We have conducted initial experiments on Arnetminer. Our results demonstrate
that the proposed relevancy propagation expert finding method outperforms the method that only uses person local information,
and the proposed two-stage association search on a large-scale social network is order of magnitude faster than the baseline
method. 相似文献
18.
19.
基于集成学习和二维关联边条件随机场的Web数据语义标注方法 总被引:2,自引:0,他引:2
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要. 相似文献
20.
采用大数据处理技术和并行计算方法进行融合社交网络的用户行为特征的挖掘,实现社交网络智能推荐,提出一种基于用户行为挖掘的融合社交网络推荐模型。采用关联规则分布模型进行融合社交网络的用户行为特征检测,提取融合社交网络的用户行为的本体信息和关联规则项,构建社交网络的联合推荐的模糊决策模型,计算融合社交网络用户行为的联合信息熵特征值,采用模糊C均值聚类方法对提取的特征量进行分类识别,根据分类识别结果实现用户行为挖掘和融合社交网络的自适应推荐。仿真结果表明,采用该方法进行融合社交网络的用户行为特征挖掘的查准率较高,推荐的置信度水平较高。 相似文献