排序方式: 共有74条查询结果,搜索用时 15 毫秒
51.
生物医学文本蕴含着丰富的探索价值,其为生物医学工作者进行研究提供了宝贵的领域知识.充分且高效地利用海量的生物医学文献,并从中发现重要的隐藏信息、获取专业领域知识,对生物医学研究具有重要的意义.生物医学实体链接是对生物医学文本中的命名实体进行识别,并将表示该实体的某些字符串映射到生物医学领域知识库中对应概念.生物医学实体链接任务通常面临两个主要的挑战:(1)自然语言描述的歧义性.(2)自然语言文本与生物医学知识库的异构性.传统的方法基于特征选择或规则发现,依赖于手动选择特征或定义规则,处理分阶段模型中也可能出现误差传播.因此,本工作提出了一种深度学习和知识库相结合的实体链接方法,通过深度挖掘自然语言文本的隐藏特征,及其与知识库概念图间结构的相似性,将生物医学实体识别与实体-概念对齐两个任务进行联合式处理.该方法旨在通过标准的生物医学知识库,自动获取生物医学实体的语义信息,挖掘生物医学实体之间的语义关系.实验表明,该方法在实体识别与对齐方面取得了较好的效果,显著提高了任务的精确性,在实体链接核心任务上取得了超过10%的性能提升. 相似文献
52.
MapReduce集群中最大收益问题的研究 总被引:2,自引:0,他引:2
MapReduce是目前最为流行的用于大数据分析的并行系统之一.许多企业已经搭建了自己的MapReduce集群,为广大用户提供计算服务.用户可以向集群提交具有完成时限要求的MapReduce作业,若作业被按时完成,则企业可以获得一定的收益.针对这种应用场景,该文首次提出了MapReduce集群中的最大收益问题.为有效地解决该问题,首先提出了一种基于序列的任务调度策略(简称为SEQ策略),并证明了在处理具有完成时限约束的作业时SEQ策略存在优势.基于SEQ策略,该文提出了最大收益的调度算法(Scheduling Algorithm for Maximum Benefit,简称AMB算法),该算法可以快速地确定可接收作业,并给出有效的执行方案,以达到最大化收益的目的.另外,针对在实际应用中的某些异常情况(如节点宕机),该文也设计了有效的超时处理策略,进一步增加了算法的实用性.最后,通过大量的实验验证了该文所提出算法的有效性. 相似文献
53.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现. 相似文献
54.
随着互联网的普及和不断发展,用户通过多个社交网络进行社交活动,使用社交网络带来的丰富内容和服务.通过识别出不同社网上的同一用户,可以有助于进行用户推荐、行为分析、影响力最大化,因而显得尤为重要.已有方法主要基于用户的结构特征和属性特征来识别匹配用户,大多仅考虑局部结构,并且受已知匹配用户数量的限制.基于此,本文提出了一种基于全视角特征结合众包的跨社交网络用户识别方法(OCSA).首先,利用众包来提高已知匹配用户的数量,接着,应用全视角特征评价用户的相似度,以提升用户匹配的准确性,最后,利用两阶段的迭代式匹配方法完成用户识别工作.实验结果表明该文提出的算法可显著提高用户识别的召回率和准确率,并解决了已知匹配用户数量不足时的识别问题. 相似文献
55.
随着比特币、以太币等一系列加密货币的兴起,其底层的区块链技术受到越来越广泛的关注.区块链有防篡改、去中心化的特性.以太坊利用区块链技术来构建新一代去中心化的应用平台.BigchainDB将区块链技术与传统的分布式数据库相结合,利用基于联盟投票的共识机制改进传统Pow机制中的节点全复制问题,提高了系统的扩展性与吞吐率.但是现有的区块链系统存储的信息大都是固定格式的交易信息,虽然在每个交易里有数据字段,但是现有的区块链系统并不能经由链上对交易内的数据字段的具体细节进行直接查询.如果想要查询数据字段的具体细节,只能先根据交易的哈希值进行查询,得到该交易的完整信息,然后再检索该交易内的数据信息.数据可操作性低,不具备传统数据库的查询功能.首先提出一种区块链数据库系统框架,将区块链技术应用于分布式数据管理;其次提出一种基于哈希指针的不可篡改索引,根据该索引快速检索区块内数据,以此实现区块链的查询;最后,通过实验测试数据库的读写性能,实验结果表明,所提出的不可篡改索引在保证不可篡改的同时具有较好的读写性能. 相似文献
56.
由于云服务具有灵活性、通用性和低成本等特性,将数据交由云服务器管理变得日益普遍。然而,云服务器不是完全可信的,因此将加密数据交由云服务器管理并支持加密搜索成为了当前研究的热点问题之一。加密虽然能够很好地保护数据隐私安全,但是会掩盖数据本身的语义信息,加大搜索难度。文中面向加密云数据提出了一种支持多关键字的安全语义搜索解决方案,其核心思想是基于主题模型获取文档的主题向量和主题的词分布向量,通过计算查询关键字与各个主题的语义相似度生成查询向量,支持在同一向量空间内评价查询向量与文档主题向量的相似度;提出了基于EMD并结合词嵌入计算查询向量与主题相似度的方法,提升了查询关键词与主题之间语义相似度的准确性;为支持高效语义搜索,构建了主题向量索引树,并采用"贪婪搜索"算法优化关键字搜索。理论分析和实验结果表明:所提解决方案可实现安全的多关键字语义排序搜索,并且大大提高了搜索效率。 相似文献
57.
目前,基于图神经网络的社交推荐方法主要对社交信息和交互信息的显式关系和隐式关系进行联合建模,以缓解冷启动问题.尽管这些方法较好地聚合了社交关系和交互关系,但忽略了高阶隐式关系并非对每个用户都有相同的影响,并且监督学习的方法容易受到流行度偏差的影响.此外,这些方法主要聚焦用户和项目之间的协作关系,没有充分利用项目之间的相似关系.因此,文中提出了一种融入多影响力与偏好的图对比学习社交推荐算法(SocGCL).一方面,引入节点间(用户和项目)融合机制和图间融合机制,并考虑了项目之间的相似关系.节点间融合机制区分图内不同节点对目标节点的不同影响;图间融合机制聚合多种图的节点嵌入表示.另一方面,通过添加随机噪声进行跨层图对比学习,有效缓解了社交推荐的冷启动问题和流行度偏差.在两个真实数据集上进行实验,结果表明,SocGCL优于其他基线方法,有效提高了社交推荐的性能. 相似文献
58.
数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性。已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性。针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(time-centered collective entity resolution,T-CER)。T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(time-based clustering,T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果。在真实数据集上的大量实验结果表明了T-CER的可行性和有效性。 相似文献
59.
对于AI与数据库优化问题,现有技术均须改动数据库底层,影响研究成果的应用且缺乏可扩展性. 提出一种非嵌入数据库的学习式查询优化方法. 在基数估计阶段,使用多模型的方法,对特定的子查询建立神经网络,独立训练不同的子模型,解决需要训练集过多且可扩展性差的问题;在连接优化阶段,应用基于代价的强化学习方法,提高查询优化性能. 针对每个查询,从基数估计到连接排序的优化过程都在数据库外执行,按照得到的优化策略对查询重写,并将重写结果返回到数据库中,通过设置参数使该查询按照指定的计划执行. 在包含8个表的数据集上进行实验验证,与未进行优化的查询进行比较,非嵌入数据库的优化方法具有良好的优化效果. 相似文献
60.
基于元结构(如元路径或元图)的网络嵌入方法,能够有效地利用异构网络结构.但与元路径相比,元图能够捕获更加复杂的结构信息,更能提升异构信息网中相似节点匹配的准确性.然而,现有的基于元图的嵌入方法具有如下局限:大多由专家指定元图类型,在大型复杂网络的应用环境中并不适用;虽然融合了多个元图进行嵌入,但并未考虑元图权重的差异性;部分模型利用用户的期望语义关系生成可以保留特定语义的元图组合,但这类模型过分依赖元图选择和用于监督学习的样本,缺乏通用性.基于此,提出一种多元图融合的异构网络嵌入方法,该方法包括2部分:第1部分是元图发现,目的是挖掘代表当前网络结构和语义特征的重要元图;第2部分是基于多元图融合的节点嵌入,主要内容是提出了一种基于元图的通用节点相似度度量方法,同时利用神经网络嵌入节点的元图特征.实验结果表明,与其他网络嵌入方法相比,提出的方法具有较高的准确性和效率. 相似文献