首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
正则表达式与XML配置文件相结合的数据提取   总被引:1,自引:0,他引:1  
针对特定搜索引擎的实际需求,需要从网站中提取有效的数据作为它的数据源.本文通过对网页内部结构的分析,利用正则表达式与XML配置文件相结合的方法,建立了基于特定网页的框架和规则的数据内容提取方法,并加以实现.该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取.  相似文献   

2.
近年来,深度学习在事件检测领域取得了长足进展。但是,现有方法通常受制于事件检测标注数据的规模和训练阶段的不稳定性。针对上述问题,本文提出了基于语言学扰动的事件检测数据增强方法,从语法和语义两个角度生成伪数据来提升事件检测的性能。为了有效的利用生成的伪数据,该文探索了数据增加和多实例学习两个训练策略。在KBP 2017事件检测数据集上的实验验证了我们方法的有效性。此外,在人工构造的少量ACE2005数据集上的实验结果证明该文方法可以大幅度提升小数据情况下的模型学习性能。  相似文献   

3.
数据质量规则是检测数据库质量的关键。为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路。该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性。与相关研究相比,降低挖掘算法的时间复杂度,提高检错率。用实验证明该方法的有效性和正确性。  相似文献   

4.
基于业务规则的错误数据清理方法   总被引:4,自引:1,他引:3  
针对数据源中出现的错误数据,分析了业务规则在错误数据清理中的重要作用,提出了一种基于业务规则的错误数据检测方法,并研究了如何采用业务规则来检测这些错误数据。最后,以一个实例介绍了该方法的应用。  相似文献   

5.
在三维地图中添加环境语义信息,可以有助于移动机器人更快更精确地进行初始及移动状态时的定位定向。论文提出一种基于RGB-D相机的三维语义地图构建方法,首先,使用语义分割深度学习模型提取RGB图像中的语义信息,通过相邻的多帧图像数据关联去除误识别数据。然后与深度图像进行数据关联生成带有语义标签的点云数据,最后通过增量融合的方法构建周围环境的三维语义地图。基于ScanNet(v2)数据集的对比实验,论文方法可以有效地提高数据关联准确率,为基于3D地图导航提供具有丰富语义信息的导引地图。  相似文献   

6.
研究关联数据的自动语义融合方法,提高关联数据的语义融合程度.利用传统算法进行数据的自动语义融合,往往只能针对同一知识单元的数据进行融合,假设待融合数据为不同知识单元、不同属性的关联数据,则数据间的语义融合很难实现.为此,提出基于概念关联性和重要性度量算法的关联数据的自动语义融合方法.针对关联数据的自动语义进行关联度计算,为避免对高端语义判别错误,采用语义概念相关性进行语义筛选,获取概念的被选择概率,根据改进方法步骤实现关联数据自动语义的进一步融合.实验结果表明,利用改进算法进行关联数据的自动语义融合,能够有效的获取语义关联度值以及相关性自动语义概念选择,从而实现关联数据的自动语义融合,提高了自动语义的融合程度,具有极大的优越性.  相似文献   

7.
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。  相似文献   

8.
为挖掘视频中丰富的语义信息,提出基于负样本精简概念格规则的语义概念检测方法.分析基于概念格的语义分析系统,考虑训练数据中负样本的信息,提出利用负样本精简的语义规则提取算法,将其应用于视频语义检测.先将视频镜头的低层特征映射到低层语义特征,再利用该算法生成语义分类规则,进行视频语义概念检测.实验结果表明,该方法是有效可行...  相似文献   

9.
基于深度学习的三维数据分析理解方法研究综述   总被引:1,自引:0,他引:1  
基于深度学习的三维数据分析理解是数字几何领域的一个研究热点.不同于基于深度学习的图像分析理解,基于深度学习的三维数据分析理解需要解决的首要问题是数据表达的多样性.相较于规则的二维图像,三维数据有离散表达和连续表达的方法,目前基于深度学习的相关工作多基于三维数据的离散表示,不同的三维数据表达方法与不同的数字几何处理任务对深度学习网络的要求也不同.本文首先汇总了常用的三维数据集与特定任务的评价指标,并分析了三维模型特征描述符.然后从特定任务出发,就不同的三维数据表达方式,对现有的基于深度学习的三维数据分析理解网络进行综述,对各类方法进行对比分析,并从三维数据表达方法的角度进一步汇总现有工作.最后基于国内外研究现状,讨论了亟待解决的挑战性问题,展望了未来发展的趋势.  相似文献   

10.
图像情感分析是机器视觉领域热点问题,然而情感判断主观性较强,仅分析完整图像难以准确刻画图像中情感语义,且高质量图像情感数据不足.为此,提出联合多头数据增强与多粒度语义挖掘的图像情感分析模型M2.首先,设计多头数据增强方法,基于自动数据增强与主动样本精选策略构建递进式数据增强模型,从“质”与“量”两个角度提升数据集;其次,引入情感区域检测模型完成情感区域增强,深入挖掘图像中情感语义强烈的局部区域,进而联合局部区域与整幅图像构建多粒度图像;然后,基于深度互学习框架及局部区域完成模型预训练,充分挖掘异构SENet网络之间互补的情感语义,并以迁移学习方式指导多粒度图像情感分析;最后,设计自适应特征融合模块,融合异构SENet特征以完成多粒度语义挖掘,实现图像情感分析.在Twitter I和FI数据集上验证M2模型,其准确率分别达到90.97%和81.14%,优于主流基线. M2拥有泛化性更强的数据增强策略,可以为其训练提供坚实的数据基础,且对应的实证分析效果较好,模型具备一定的实用价值.  相似文献   

11.
闭环检测是同步定位与建图(simultaneous localization and mapping,SLAM)中的一个重要组成部分,用于减少移动机器人在位置估计和构建环境地图时产生的累计误差。传统方法采用人工设计的特征,但在外界环境中容易受到光照、天气和视点变化等因素所带来的影响。随着深度学习技术的发展,闭环检测得到广泛的探索,且在复杂环境中基于深度学习的闭环检测具有较强的鲁棒性。通过梳理闭环检测的背景和发展现状,从基于深度卷积神经网络、自动编码器和语义信息三个方面,对目前视觉SLAM(visual-SLAM,V-SLAM)闭环检测方法的基本原理、算法特点进行了对比分析,并从视觉应用层面上总结了三类方法所适用的场景,最后讨论了闭环检测未来在自然环境变化、多移动目标和实时动态三个方面所存在的挑战和研究展望。  相似文献   

12.
政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。  相似文献   

13.
反讽是一种复杂的语言现象,被广泛应用于社交媒体中。如何让计算机具有识别反讽的能力,成为了自然语言处理研究领域的热门研究内容之一。该文针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题,提出了基于多语义融合的反讽识别方法。该方法采用ELMo从大规模反讽文本中训练得到领域词嵌入表示,并融合基于词性和基于风格信息的语义表示,使用双向长短时记忆网络和卷积神经网络进行反讽识别。实验结果表明,所提出模型能够从多个维度提取反讽文本的潜在语义特征,在公开数据集IAC上的实验性能有显著提升。  相似文献   

14.
逻辑程序设计语言具有很强的逻辑推理能力,将逻辑程序规则与数据库耦合在一起,可以扩充原有的关系数据库完整性约束规则.本文初步探讨了用逻辑程序实现关系数据库完整性约束的实现方法,该方法可以解决语义上逻辑错误的约束.  相似文献   

15.
近年来,随着人工智能的发展与智能设备的普及,人机智能对话技术得到了广泛的关注。口语语义理解是口语对话系统中的一项重要任务,而口语意图检测是口语语义理解中的关键环节。由于多轮对话中存在语义缺失、框架表示以及意图转换等复杂的语言现象,因此面向多轮对话的意图检测任务十分具有挑战性。为了解决上述难题,文中提出了基于门控机制的信息共享网络,充分利用了多轮对话中的上下文信息来提升检测性能。具体而言,首先结合字音特征构建当前轮文本和上下文文本的初始表示,以减小语音识别错误对语义表示的影响;其次,使用基于层级化注意力机制的语义编码器得到当前轮和上下文文本的深层语义表示,包含由字到句再到多轮文本的多级语义信息;最后,通过在多任务学习框架中引入门控机制来构建基于门控机制的信息共享网络,使用上下文语义信息辅助当前轮文本的意图检测。实验结果表明,所提方法能够高效地利用上下文信息来提升口语意图检测效果,在全国知识图谱与语义计算大会(CCKS2018)技术评测任务2的数据集上达到了88.1%的准确率(Acc值)和88.0%的综合正确率(F1值),相比于已有的方法显著提升了性能。  相似文献   

16.
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。  相似文献   

17.
To facilitate data access, integration and analysis tasks, standardised markup languages are commonly used for communicating data from multiple sources. However, one issue with the use of standardised markup languages is that they generally fail to capture the constraints that are imposed on data contents. As such, semantic validation of data encoded in these languages becomes difficult. In this paper, we focus on one such language, the Water Data Transfer Format (WDTF), and present an approach for validation of WDTF data contents. We show that by using Semantic Web technologies, we can express those constraints not captured by WDTF and check their consistency with respect to data through a query reduction technique that allows existing reasoners to be used for data validation. Finally, we report on an experimental study of our approach and discuss some common errors that we found in data as exposed by the study.  相似文献   

18.
Traditional data-driven energy consumption forecasting models, including machine learning and deep learning methods, showed outstanding performance in terms of forecasting accuracy and efficiency. The superior performances are based on enough training data samples. Moreover, the derived forecasting model is only applicable to the training dataset and usually is applied to specific household. In real-world smart city development, a centralized forecasting model is required to model and forecasting energy consumption patterns for multiple households, whereas the traditional data-driven forecasting approaches may become invalid. A consistent model is demanded in this scenario modeling multiple households’ energy consumption patterns. Additionally, privacy issues are also highly concerned in such scenarios. Accurate energy consumption forecasting with privacy preservations becomes a key point for the state-of-art research. In this study, we adopt an innovative privacy-preserving structure that combines deep learning and federated learning. Under the premise of guaranteeing forecasting accuracy and privacy preservation, this structure can achieve the forecasting of various household energy consumption with a consistent model that simultaneously forecast multiple household energy consumption data by transmission control protocol.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号