首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.  相似文献   

2.
针对文件中存在字符属性和数值属性特点的数据,提出一种基于B+树的2层混合索引结构。在索引创建过程中,将文件中的数据根据其类型进行分类,第1层是为数据属性建立B+树索引结构,第2层是根据不同的数据类型建立不同的索引结构。实验结果表明,该索引结构能实现跨数据范围的检索,提高索引的创建速度和空间利用率。  相似文献   

3.
随着计算机网络的迅猛发展和大数据时代的到来,数据越来越频繁地呈现出多属性异构的特点.这种包含多种不同类型属性的大数据流称为异构大数据流(Heterogeneous Big Data Streams).在面向大规模数据在线监测分析的应用中,通常需要在异构大数据流上注册大规模监测规则.因此,对于每一个数据流元组,必须用最小的计算开销满足所有的规则.同时,由于大数据流上监测规则集异常庞大,提高规则监测的性能是大规模数据流在线监测的关键.基于此,该文提出一种层次化的索引结构H-Tree及其在线规则匹配算法.具体的,H-Tree将大数据流上的属性集划分为离散型属性和连续型属性.基于不同的属性集,构建两层索引结构:在第1层,通过改进的红黑树对离散型谓词构建触发索引;在第2层,通过量化连续型谓词构建多维索引结构.H-Tree的在线规则匹配算法利用关联关系表对两层索引的监测结果进行融合过滤.实验分析表明,与经典的R+方法相比较,H-Tree通过层次化的索引结构,在不降低准确度的前提下,显著提升了大数据流的监测效率.  相似文献   

4.
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题.  相似文献   

5.
杨良怀  卢晨曦  范玉雷  朱镇洋  潘建 《软件学报》2021,32(11):3576-3595
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.  相似文献   

6.
B+树是目前数据库管理系统在单属性上广泛使用的一种索引,但它在处理由多属性组成的复合索引时效率很低。为此,该文在B+树的基础上提出了一种考虑属性逻辑层次关系的HB+树及其操作算法。该树采用了分类串行解析各属性的方法,可以很好地解决复合索引问题;并具有层次分类清楚、结点小且结构简单等优点。文中还对HB+树的时空性能进行了分析。  相似文献   

7.
通过以关系名的同义关键字作为模式信息的索引键以及垂直分区关系元组,设计了用结构化重叠网络索引模式和数据的方法.基于这两级索引,提出了支持多属性复杂查询的算法.定性分析和比较表明,该方法比相关工作更接近P2P数据管理的理想目标.  相似文献   

8.
高效的元数据索引是提高海量存储系统性能的重要手段.针对现有元数据管理方法存在的时间与空间开销大和性能不稳定等问题,我们设计了基于属性分频的元数据索引算法.依据元数据中属性被访问的频率等因素,分解元数据分别存储到高频元数据属性集和低频元数据属性集中,使用KD-tree建立高频元数据属性集的索引,满足多条件混合查询高频元数据属性的要求;使用人工免疫算法建立低频元数据属性集的索引,在保持较高查询性能的同时,避免大量额外的存储空间.实现了算法的原型系统,使用两个真实数据集进行了测试与分析,结果表明基于属性分频元数据索引算法具有时间与空间开销小、适应能力强的特性.  相似文献   

9.
从范式优化、索引优化、及查询优化探讨数据库优化设计的方法。在逻辑设计阶段,根据范式优化的要求设计数据库逻辑结构,权衡利弊选出折衷的方案;在数据库物理设计阶段,根据索引优化中的要求在有关属性或属性的组合上建立索引,以优化数据库物理结构;在数据库查询阶段,优化数据查询语句,提高SQL语句的执行效率。  相似文献   

10.
针对当前无线传感器网络中数据查询通信开销大而带宽资源有限的问题,提出了一种基于局部聚类的数据存储模型.该模型通过将整个网络按地理位置划分区域,采用局部数据聚集存储,避免了将同种数据发送至一个存储点存储所造成的巨大通信开销,从而均衡通信带宽.在数据存储模型之上,提出了一种基于空间索引的数据查询方法(SIQ).在SIQ中只利用存储节点构建成索引的叶子节点,与利用所有节点建成的索引相比,其维护的节点数量少,索引的构建成本降低.同时SIQ采用数据属性为空间索引内容,有效地对监测数据进行多维属性的范围查询.仿真结果表明,与较成熟的DD算法和GHT算法相比,SIQ方法能克服泛洪查询所引起的高通信复杂度.  相似文献   

11.
针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。  相似文献   

12.
Personal name disambiguation is an important task in social network extraction, evaluation and integration of ontologies, information retrieval, cross‐document coreference resolution and word sense disambiguation. We propose an unsupervised method to automatically annotate people with ambiguous names on the Web using automatically extracted keywords. Given an ambiguous personal name, first, we download text snippets for the given name from a Web search engine. We then represent each instance of the ambiguous name by a term‐entity model (TEM), a model that we propose to represent the Web appearance of an individual. A TEM of a person captures named entities and attribute values that are useful to disambiguate that person from his or her namesakes (i.e., different people who share the same name). We then use group average agglomerative clustering to identify the instances of an ambiguous name that belong to the same person. Ideally, each cluster must represent a different namesake. However, in practice it is not possible to know the number of namesakes for a given ambiguous personal name in advance. To circumvent this problem, we propose a novel normalized cuts‐based cluster stopping criterion to determine the different people on the Web for a given ambiguous name. Finally, we annotate each person with an ambiguous name using keywords selected from the clusters. We evaluate the proposed method on a data set of over 2500 documents covering 200 different people for 20 ambiguous names. Experimental results show that the proposed method outperforms numerous baselines and previously proposed name disambiguation methods. Moreover, the extracted keywords reduce ambiguity of a name in an information retrieval task, which underscores the usefulness of the proposed method in real‐world scenarios.  相似文献   

13.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。  相似文献   

14.
重名问题在Web人物搜索过程中是很普遍的现象.研究了Web人名消歧相关问题,提取与待消歧人名相关的不同特征集,运用向量空间模型构造人物实体的组合特征,最后通过层次聚类算法将相似度高的文档优先聚类,由此实现人名消歧.在WePS数据集上的实验结果表明,提出的方法具有良好的消歧效果.  相似文献   

15.
研究客户重名消解问题。针对以往重名消解方法如文本聚类的方法需考虑大量无用词汇并需要人工设定阈值以及类别数量,而基于信息抽取的人物相关属性相似度方法对于人物信息的抽取具有依赖性,提出了一种改进的重名消解算法。该算法首先对具有相同标志的客户进行属性匹配,合并匹配成功的标志;然后进行链接分析,对客户合作网的结构进行分析,将具有相同标志并与同一个代理人实体合作的客户归为一个客户实体,并把具有相同合作对的信息加以分析合并;最后通过原子团簇分析法进行聚类分析。仿真实验结果表明,所提改进算法对中文字符串的匹配处理进行了优化,执行效率高,适合于以大量数据为特征的保险领域的重名消解。  相似文献   

16.
传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。  相似文献   

17.
人名歧义是一种实体身份模糊的现象。在数字资源日益丰富的环境下,人名歧义现象为数据检索带来了很多不确定性,降低了数据检索的准确度。文章运用人名实体的个人信息特征和作者文献话题等特征,采用多特征的融合方法充分挖掘与实体相关联的信息,实现人名消歧。实验使用爬取的某数据库文献数据,进行了人名消歧特征的选取和参数的确定等实验,结果表明提出的方法具有较好的性能。  相似文献   

18.
词义消歧是一项具有挑战性的自然语言处理难题。作为词义消歧中的一种优秀的半监督消歧算法,遗传蚁群词义消歧算法能快速进行全文词义消歧。该算法采用了一种局部上下文的图模型来表示语义关系,以此进行词义消歧。然而,在消歧过程中却丢失了全局语义信息,出现了消歧结果冲突的问题,导致算法精度降低。因此, 提出了一种基于全局领域和短期记忆因子改进的图模型来表示语义以解决这个问题。该图模型引入了全局领域信息,增强了图对全局语义信息的处理能力。同时根据人的短期记忆原理,在模型中引入了短期记忆因子,增强了语义间的线性关系,避免了消歧结果冲突对词义消歧的影响。大量实验结果表明:与经典词义消歧算法相比,所提的改进图模型提高了词义消歧的精度。  相似文献   

19.
针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别。在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果。通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38%,84.73%,85.55%,相较于基线模型BiLSTM-CRF,F1值提升了12.61%。  相似文献   

20.
基于支持向量机分类和语义信息的中文跨文本指代消解   总被引:2,自引:0,他引:2  
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号