共查询到18条相似文献,搜索用时 76 毫秒
1.
随着社交网络和文献索引网络等大规模互联多类异质信息网络的浮现,为相似搜索提出许多挑战,其中相似性度量是关键问题之一。现有适用于同构网络的相似度量方法没有考虑网络多个路径的不同语义。本文提出一种新的基于元路径的相似性度量方法,可以在异构网络中搜索相同类型的对象。元路径是由在不同对象类型中定义的一系列关系所组成的路径,可以为网络中相似搜索引擎提供共同的基础。在真实数据集上的实验表明,与无序相似性衡量方法相比,本文提出的方法支持快速路径相似性查询,可广泛地应用于社交网络和电子商务领域。 相似文献
2.
现有的相似性搜索算法通常没有考虑时间因素,为此,提出一种异构信息网中基于元路径的动态相似性搜索算法PDSim。PDSim算法首先计算给定元路径下实体的链接矩阵,得到实体之间的元路径实例数比值,同时基于建立时间的不同,计算其时间差异度;在此基础上针对给定的元路径,获得异构信息网中动态相似性的度量。在多个相似性搜索实例中,PDSim能够捕获到实体随时间变化而产生的兴趣的变化;应用于聚类时,相对于PathSim和PCRW方法,其标准互信息聚类精度可以提高0.17%~9.24%。实验结果表明,PDSim方法与传统的基于链接的相似性搜索算法相比,显著提高了异构信息网中动态相似性搜索的效率和用户满意度,是一种研究实体随时间而发生动态变化的相似性搜索方法。 相似文献
3.
利用大数据分析、深度学习等新一代信息技术,通过掌握学生的兴趣、爱好、生活习惯等,提高人才培养质量已成为当前重要的科学研究问题.寻找具有相似生活习惯的学生对于心理状况及学业状况预警都有着积极的作用.已有的相似生活习惯学生搜索算法无法解释学生之间相似的原因,并且无法拓展性地融合更多数据源.为此提出了基于校园行为信息网络的生活习惯相似学生搜索算法SCALE(similar campus lifestyle miner).SCALE算法通过带约束的元路径计算相似度.SCALE不仅能保留原始数据中的相似语义,同时可以在此基础上拓展性地融合更多数据源.进一步对算法各部分解耦,为SCALE算法设计了并行化策略以提高执行效率.通过真实校园环境数据集上的实验,验证了SCALE算法的有效性和执行效率. 相似文献
4.
人类基因组计划的成果推动生物信息学研究的发展.基于疾病表型相似性策略寻找功能上存在联系的致病基因,称作\"表型相似基因\",具有重要的研究价值和广阔的应用前景,成为一个新兴的研究热点.然而,生物医学领域尚没有利用计算机方法开展基于\"基因-疾病-表型\"关系网络的表型相似基因搜索研究.对此,利用疾病公开数据库构建了包含基因、疾病、表型这三类异构类型节点的疾病信息网络,并设计了基于疾病信息网络的相似基因搜索算法gSim-Miner.针对疾病表型数据的特点,设计了剪枝策略提高算法效率.通过在真实数据上的实验,验证了疾病信息网络对搜索表型相似基因的适用性,以及gSim-Miner算法的有效性,执行效率和可扩展性. 相似文献
5.
实际的网络化数据往往包含多种类型的对象和关系,采用异质信息网络可以更好地对其建模,因此异质信息网络分析逐渐成为数据挖掘的研究热点。虽然同质信息网络中的社团发现已经被深入研究,但是异质信息网络中的社团发现还很少被研究。该文研究异质信息网络中的社团发现问题,提出了一个新的社团发现算法框架HCD(heterogeneous community detection)。该框架由两部分组成: 基于单条元路径的社团发现算法HCD_sgl和融合多条元路径的社团发现算法HCD_all。HCD_sgl首先确定在给定元路径下所有节点的初始标签,再利用改进的标签传递算法进行最终的社团发现;HCD_all是在HCD_sgl的基础上将基于多条元路径的社团发现结果进行融合。通过在真实数据集和人工数据集上的实验验证了HCD算法的有效性。 相似文献
6.
社区是信息网络的重要属性, 社区搜索旨在寻找满足用户给定条件的节点集合, 是信息网络分析的重要研究内容. 异质信息网络由于包含更加全面、丰富的结构和语义信息, 所以异质信息网络的社区搜索近年来受到人们的广泛关注. 针对现有异质信息网络的社区搜索方法难以满足复杂条件社区搜索要求的不足, 定义了复杂条件社区搜索问题, 提出了考虑非对称元路径、受限元路径和禁止节点约束的搜索算法. 3种算法分别通过元路径补全策略、调整带标签的批量搜索策略和拆分复杂搜索条件的方式搜索社区, 同时针对禁止节点约束的搜索算法设计了基于剪枝策略和近似策略的优化算法以提高搜索效率. 在真实数据集上进行了大量实验, 实验结果证明了所提算法的有效性和高效性. 相似文献
7.
8.
为了更好地适应语义特征建模系统的需要,使CAD/CAID系统能够在特征中封装更多更复杂的语义,提高传统特征建模系统的效率,提出了一种基于特征语义的模型表示法。这种表示法通过特征语义来构建特征外形的各个表面,用细胞元模型来管理特征的各种元素,采用“面的完整性验证”代替传统的约束求解来验证用户操作的有效性。因此这种表示法不仅可以有效地表示产品模型的复杂语义,还可以大大提高语义特征建模系统的性能。实验表明,这种表示法有更强的实用性和适应性。 相似文献
9.
现有的各种多元时间序列相似性搜索方法难以准确高效地完成搜索任务。提出了一种基于特征点分段的多元时间序列相似性搜索算法,提取所定义的用于分段的特征点,分段后将原时间序列转化为模式序列,该模式序列能够很好地保留原序列的全局形状特征,再用分层匹配的方法进行相似性搜索。实验结果表明,该方法能够有效刻画序列的全局形状特征,通过分层匹配保留局部的相似性,同时提高搜索准确率。 相似文献
10.
语义相似性测度方法研究综述 总被引:1,自引:0,他引:1
语义相似性测度是信息检索中的关键技术.回顾了基于距离的、基于信息内容的、综合了距离和信息内容的、基于图的语义相似性测度算法,认为基于图的语义相似性测度算法是今后研究的方向. 相似文献
11.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。 相似文献
12.
针对当前《知网》的词语语义描述与人们对词汇的主观认知之间存在诸多不匹配的问题,在充分利用丰富的网络知识的背景下,提出了一种融合《知网》和搜索引擎的词汇语义相似度计算方法。首先,考虑了词语与词语义原之间的包含关系,利用改进的概念相似度计算方法得到初步的词语语义相似度结果;然后,利用基于搜索引擎的相关性双重检测算法和点互信息法得出进一步的语义相似度结果;最后,设计了拟合函数并利用批量梯度下降法学习权值参数,融合前两步的相似度计算结果。实验结果表明,与单纯的基于《知网》和基于搜索引擎的改进方法相比,融合方法的斯皮尔曼系数和皮尔逊系数均提升了5%,同时提升了具体词语义描述与人们对词汇的主观认知之间的匹配度,验证了将网络知识背景融入到概念相似度计算方法中能有效提高中文词汇语义相似度的计算性能。 相似文献
13.
为了提高Web信息检索的准确率,提出一种基于语义网的高效信息查询方法。首先从本体库中提取目标资源与查询关键字之间的语义路径,通过分析语义路径所包含的属性的权重和识别能力,分别计算每个语义路径的权重;然后,根据资源与查询关键字之间的语义路径的权重、数量和特异性,分别计算每个资源与各关键字之间的语义相关性,并结合关键字的涵盖范围和识别能力综合计算每个资源与关键字集之间的语义相关性;最后,以该相关性为依据对所有资源进行排序和输出。实验结果表明,与OntoLook、tf*idf和TMSubtree三种语义网查询算法相比,基于语义网的高效信息查询方法的平均正确率分别提高了69.0、25.0和21.0个百分点;平均召回率分别提高了77.1、28.3和24.3个百分点;平均F测度值分别提高了72.4、26.4和22.4个百分点。实验结果表明:该方法不仅能够有效提升语义查询的准确率,而且对隐性信息也有很好的查询效果。 相似文献
14.
现有P2P信息共享系统存在仅支持粗粒度、弱语义共享以及系统效率低等局限性,限制了其更大规模、更高层次的应用。基于资源相似节点通过信息聚类聚集在同一主题域,实现节点资源有序组织的思想,提出了一种基于语义覆盖网的P2P信息共享系统,建立由资源层、信息服务中心层、语义覆盖网络层和应用层四个层次组成的系统框架结构,并阐述了系统流程。分析表明,该系统有效优化了网络性能,可扩展性好,可以胜任不同的网络规模。 相似文献
15.
影响力最大化是研究如何在社会网络中寻找小部分最具影响力的节点作为信息扩散源,使信息在网络中传播范围最大的问题.已有相关研究大多只是针对同质信息网络,但现实中的社会网络是包含了多种对象类型和对象之间多种关系类型的异质网络,因此提出了基于元路径的邻接信息熵(MPAIE)模型,以及基于元图的邻接信息熵(MGAIE)模型来模拟异质信息网络中的社会影响.通过设置元路径或元图,该方法可以灵活地整合异质网络中的结构和语义信息,对节点的影响力做出度量,并在两个真实数据集上验证了MPAIE及MGAIE模型的有效性. 相似文献
16.
随着异构网络的信息量与日俱增,如何准确地帮助用户获取所需要的信息已成为一个热门问题。相似性搜索在网络搜索中得到了广泛的应用。基于元路径的相似性搜索能更好地表达异构网络所包含的语义。但是现有的大多数该类方法存在路径选择数多导致计算量大的问题。根据用户导向去预测元路径以缓解上述问题成为一个重要的研究方向。这类方法需要用户在搜索的同时提供结果样例作为导向,据此预测与用户搜索相关的元路径。目前,相关研究主要是针对异构网络中的同类型结点。利用图的结构信息建立语义预测算法,计算各候选路径与用户搜索的匹配概率,然后选择概率最大的路径。实验表明,提出的算法能够实现对同类型和不同类型结点间语义的预测,具有较好的性能和有效性。并为如何在多语义环境下获得相似性结果提供了具体的实现方法。 相似文献
17.
信息检索中语义相似度算法研究 总被引:1,自引:0,他引:1
为提高信息检索的查全率与查准率,提出一种改进的本体语义相似度计算方法。该方法在语义距离的计算中加入了深度、密度、类型三种权重因子,并且综合考虑语义重合度、概念的属性对相似度的影响。通过实验分析,该方法比传统计算方法更加准确、有效。 相似文献
18.
基于概率信息内容的FCA概念相似度计算方法依赖于语料库中概念的频次信息,这种方法仅使用出现概率作为信息内容度量指标计算FCA概念相似度,其计算结果的准确率不高.针对上述问题提出一种基于语义信息内容的FCA概念相似度计算方法,该方法利用本体中概念间的上下位语义关系度量信息内容,以进一步提高概念一般/具体程度的度量精度;然后在本体派生的ISA层次结构上计算语义信息内容相似度,从而避免基于概率信息内容的方法对语料库的依赖;最后把语义信息内容相似度作为度量FCA概念相似度的依据,并给出了通过构造带权二部图提高相似度计算效率的方法.实验结果表明使用基于语义信息内容的方法能够在不牺牲时间性能的前提下有效提高FCA概念相似度计算结果的准确率. 相似文献