首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 11 毫秒
1.
结构化和半结构化数据的统一集成和访问是目前Web数据访问中急需解决的问题。文章提出了一种半结构化数据表示模型———层次数据图(HDG),给出了结构化数据向HDG的转换方法,并就不同结构HDG的统一集成问题进行了探究。  相似文献   

2.
针对现有报表缓存方法在内存消耗和访问速度上相冲突的问题,提出一种结构化数据缓存方法,把具有行列结构的报表数据分块存储到文件中。以文件形式存储的数据被划分为索引区和数据区,通过数据分块算法和写操作将报表数据缓存入文件。在读取报表数据时根据索引区可以直接定位到所在的块,在块中快速查找所需要的数据,从而在内存消耗和访问速度上达到优化。  相似文献   

3.
周典瑞  周莲英 《计算机应用》2013,33(8):2208-2211
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。  相似文献   

4.
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。  相似文献   

5.
Extracting Web Data Using Instance-Based Learning   总被引:1,自引:0,他引:1  
This paper studies structured data extraction from Web pages. Existing approaches to data extraction include wrapper induction and automated methods. In this paper, we propose an instance-based learning method, which performs extraction by comparing each new instance to be extracted with labeled instances. The key advantage of our method is that it does not require an initial set of labeled pages to learn extraction rules as in wrapper induction. Instead, the algorithm is able to start extraction from a single labeled instance. Only when a new instance cannot be extracted does it need labeling. This avoids unnecessary page labeling, which solves a major problem with inductive learning (or wrapper induction), i.e., the set of labeled instances may not be representative of all other instances. The instance-based approach is very natural because structured data on the Web usually follow some fixed templates. Pages of the same template usually can be extracted based on a single page instance of the template. A novel technique is proposed to match a new instance with a manually labeled instance and in the process to extract the required data items from the new instance. The technique is also very efficient. Experimental results based on 1,200 pages from 24 diverse Web sites demonstrate the effectiveness of the method. It also outperforms the state-of-the-art existing systems significantly.  相似文献   

6.
基于P2P技术的文件共享系统是目前P2P技术的一个重要研究领域.论文针对一种特殊的P2P文件共享系统,即系统中的每个节点是可控存储的,提出一种新颖的基于时延统计信息的结构化方案,在此基础上,提出了一种区域自治的数据部署算法.本文最后通过理论和试验分析,证明了该结构化方案和数据部署算法是合理高效的并且具有很好的可扩展性.  相似文献   

7.
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。  相似文献   

8.
动态数据记录存储结构的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
在新兴的数据库应用领域中,出现了许多不确定,不完全的动态数据记录,这就要求数据库管理系统能够存储长度可变或格式可变的数据记录,有的场合需求存储记录属性内嵌复杂对象的数据信息。本文首先对传统的记录存储结构进行分析,进而设计出适宜于存储不确定、不完全信息的存储数据结构。  相似文献   

9.
Kernels and Distances for Structured Data   总被引:4,自引:2,他引:4  
Gärtner  Thomas  Lloyd  John W.  Flach  Peter A. 《Machine Learning》2004,57(3):205-232
This paper brings together two strands of machine learning of increasing importance: kernel methods and highly structured data. We propose a general method for constructing a kernel following the syntactic structure of the data, as defined by its type signature in a higher-order logic. Our main theoretical result is the positive definiteness of any kernel thus defined. We report encouraging experimental results on a range of real-world data sets. By converting our kernel to a distance pseudo-metric for 1-nearest neighbour, we were able to improve the best accuracy from the literature on the Diterpene data set by more than 10%.  相似文献   

10.
结构化数据核函数综述   总被引:1,自引:0,他引:1       下载免费PDF全文
梅玲  张亚丽 《计算机工程》2010,36(23):199-201
核函数是处理非线性问题的新方法,而对于字符串、图像和蛋白质等无法直接输入且具有一定结构信息的数据,则需用结构化数据核函数解决。基于此,对核函数进行初步探讨,描述了句法驱动核、模型驱动核和组合核3种基本的结构化数据核函数,对结构化核函数的应用进行分析归纳总结。  相似文献   

11.
刘伟  严华梁  肖建国  曾建勋 《软件学报》2010,21(12):3220-3236
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.  相似文献   

12.
CAPE--数据流上的基于频繁模式的分类算法   总被引:3,自引:0,他引:3  
近年来涌现出很多数据流的应用,比如网络日志、传感器网络等.数据流的数据量无限、数据分布变化等特性使得传统的挖掘算法不能很好地解决这些问题.针对上述问题提出了一种数据流上的基于频繁模式的分类算法——CAPE(classification using frequent pattern).CAPE通过数据流中的频繁模式进行分类,在压缩数据的同时保存了数据中的分类信息.实验证明,这种算法比其他算法有更高的准确性.并且CAPE可以很好地处理训练集包含大量缺失取值的应用.  相似文献   

13.
涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。  相似文献   

14.
ReDE:一个基于正则表达式的生物数据抽取方法   总被引:4,自引:0,他引:4  
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量.基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护.该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库.  相似文献   

15.
基于优先队列的增量式重复记录识别   总被引:3,自引:0,他引:3  
介绍了优先队列方法(Priority Queue Strategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(Incremental PQS),最后给出了实验结果。  相似文献   

16.
杨舟  卓林  赵朋朋  崔志明 《计算机工程》2010,36(23):262-265
提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。  相似文献   

17.
一种面向非平衡数据的邻居词特征选择方法   总被引:1,自引:0,他引:1  
在非平衡数据情况下,由于传统特征选择方法,如信息增益(Information Gain,IG)和相关系数(Correlation Coefficient,CC),或者不考虑负特征对分类的作用,或者不能显式地均衡正负特征比例,导致特征选择的结果下降.本文提出一种新的特征选择方法(Positive-Negative feature selection,PN),用于邻居词的选择,实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比,考虑了负特征;和IG特征选择方法相比,从特征t出现在正(负)训练文本的文本数占所有出现特征t的训练文本数比例的角度,分别显式地均衡了正特征和负特征的比例.通过计算特征t后面所跟的不同(非)领域概念个数占总(非)领域概念个数比值分别考察正、负特征t的重要性,解决了IG特征选择方法正特征偏置问题.实验结果表明,本文提出的PN特征选择方法优越于IG特征选择方法和CC特征选择.  相似文献   

18.
在所有的问题场景中运行所有可能的解决方案时,没有哪一种解决方案的性能始终优于其他选项.这个事实促使人们使用定制的方法,即可以根据特定的问题输入自动预测可行的算法.在主流的预测方法几乎都依赖人工设计特征的情况下,近些年来深度学习开始被用于问题实例特征的自动化提取.算法预测数据集的特殊性导致最终输入训练模型的样本与标签存在...  相似文献   

19.
本文提出了一种使用二叉树组织多维数据的数据结构,在这种结构下提出了一个区域搜索算法,确定空间中给定点的区域内所有在给定数据集中的点,搜索效率与维数无关,算法的平均时间复杂性为O(logn),为了保证算法的效率,提出了一种平衡树操作算法。  相似文献   

20.
蔡军  胡洋揆  张毅  尹春林 《机器人》2018,40(4):510-517
针对DBN(深度置信网络)脑电信号识别率不高的问题,提出了多频带频域深度置信网络(multi-band FDBN)算法进行特征提取.不同频带存在个体性差异,它们对于分类结果的贡献不完全相同,本文利用带通滤波器将原始的脑电信号分成多个频段,再采用FFT(快速傅里叶变换)将时域信号转换为频域信号并作归一化处理,最后将每个频段的频域数据输入DBN进行训练识别.线下实验证明,相比FDBN(频域深度置信网络)算法,多频带FDBN的平均准确率提高了3.25%,且标准差更小,鲁棒性更好.最后,在智能轮椅平台上,利用多频带FDBN算法基于左右手运动想象脑电信号控制轮椅完成了"8"字形路径,证明了该算法在脑电信号特征提取中的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号