排序方式: 共有76条查询结果,搜索用时 15 毫秒
1.
图被广泛用来建模在社交网络、语义网、计算生物学和软件分析中的应用.可达性查询是图数据上的一种基础查询.当前,针对图上的可达性查询已经提出了一些索引算法,但是它们不能灵活地扩展到大的图数据.因此,提出了一种索引方法RIAIL(reachability index augmented by interval labeling).RIAIL将结点的标记信息表示成四元组.前两个元素是区间标记,编码生成树的可达性信息,后两个元素编码非树边的可达性信息.RIAIL查询时只需索引且索引创建代价小.最后,通过大量真实和人工生成数据集上的实验说明,RIAIL能够高效地处理可达性查询,并且可以简单地扩展到大的图数据. 相似文献
2.
一种基于语义及统计分析的Deep Web实体识别机制 总被引:1,自引:0,他引:1
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. 相似文献
3.
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角... 相似文献
4.
多人在线战术竞技(MOBA)游戏是当前世界最流行的电子游戏类型之一,该类游戏涉及的知识领域相当复杂.随着电子竞技产业的飞速发展,数据分析对MOBA游戏的影响也越来越大,在对该类游戏的实时局势进行评价时,一般是选择过程变量作为指标,例如经济差、经验差,但目前缺少趋势预测的相关研究.针对该问题,提出一种基于序列到序列结构的MOBA游戏趋势预测模型(MOBA-Trend).在预处理阶段,针对该类游戏数据的特点,设计一种数据缩放算法体现数据间的重要度,并使用低通滤波器消除数据噪声;之后将双方阵容与历史战斗信息作为输入特征,构建带有注意力机制的序列模型,同时预测经济差、经验差;最后将模型应用于Dota 2,构建并发布相关数据集.实验结果表明,所提出的模型能够有效地预测序列的变化趋势. 相似文献
5.
随着移动设备的日益普及,积累了大量的用户签到兴趣点数据,用户签到的信息使下一兴趣点推荐成为近年来研究的热点问题.下一兴趣点推荐的准确性主要受到两方面的制约:一方面,签到数据稀疏性问题.当前研究者通过引入兴趣点的地理相关性或社交网络中的朋友评价信息来改善数据稀疏问题,但并不是所有兴趣点之间都存在强地理相关性,且社交网络中只存在少量用户对签到的兴趣点发表评论.另一方面,基于深度学习训练兴趣点签到序列存在梯度消失的问题.针对这些问题,提出融合区域与朋友影响的用户下一兴趣点推荐模型.首先,将兴趣点区域信息融入用户签到兴趣点序列中;其次,使用带有残差连接的神经网络模型对序列进行嵌入,避免梯度消失,提高模型收敛性;最后,融合朋友访问的兴趣点信息进行下一兴趣点推荐,进一步提高兴趣点推荐的准确性.实验数据表明,与其他推荐模型相比,提出的模型具有较高准确性. 相似文献
6.
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性. 相似文献
7.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式. 相似文献
8.
9.
10.
支持Web深层数据库网格的部分关键技术的研究 总被引:1,自引:1,他引:0
当前,深层Web数据库数量急剧增加,然而其知识并没有得到有效的利用.本文提出将特定的深层Web数据库应用于网格环境中的思想,并针对支持深层Web数据库网格的部分关键技术进行研究,主要包括:(1)深层Web数据库元信息定义模型与模式抽取模型的研究;(2)多层次的模式匹配模型和自协调模型研究;(3)基于属性松弛的Web数据库查询与集成模型研究;(4)多目标函数代价模型和面向局部性的自适应优化调度模型研究.研发成果将为构建深层Web数据库网格提供良好的支持,就像网格的概念所定义的一样,为用户提供统一的接口,可按需为消费者提供集成的深层Web数据知识.其具有广阔的应用前景. 相似文献