首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 107 毫秒
1.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

2.
数据仓库数据更新的研究及基于Oracle数据库的开发与应用   总被引:8,自引:0,他引:8  
陆剑峰  张浩 《计算机工程与应用》2004,40(26):168-170,211
数据抽取和数据更新是数据仓库设计和运行过程中一个重要的问题,论文研究了数据增量更新中如何确定数据源新数据的问题,提出了几个基本的解决方法。论文重点介绍了利用Oracle的数据更改捕获机制(ChangeDataCap-ture)来解决数据增量更新的方法,并结合应用给出了开发实例。  相似文献   

3.
随着大数据增长速度提高、数据体量增大, 数据的冗余也将会越来越大, 传统的数据软件分析模型已经不能满足需要海量信息的处理和分析的需要, 如何从大数据里面抽取有效的信息, 对数据进行有效的分析和决策, 建立新的数据模型, 对数据进行分析和处理就显得尤为重要。采取了一种更适合大数据时代的数据抽取模型, 并给出了数据抽取的判定方法。此方法具有复杂度低, 易于实现, 具有良好的估计性能。  相似文献   

4.
基于约束的半结构化信息的抽取方法   总被引:1,自引:0,他引:1  
为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

5.
刘江宁  杨嵘  张剑 《软件学报》1996,7(10):621-625
数据抽取是表格图象处理中重要的一环.本文给出了一种基于锚点柔性匹配进行数据抽取的方法,并讨论了该方法中锚点查找、组织、定位、填写域定位参数确定及数据抽取过程的思想.  相似文献   

6.
对共享数据库系统的时态数据问题进行了研究。给出了该系统的时态数据模型,在此基础上定义了该时态数据的业务逻辑.描述了时态数据库查询的表示模式,最后详细介绍了如何通过快照和差异视图抽取时态数据。并给出了上述方法的应用场景。  相似文献   

7.
半结构化数据的模式抽取   总被引:1,自引:1,他引:1  
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。  相似文献   

8.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

9.
对共享数据库系统的时态数据问题进行了研究。给出了该系统的时态数据模型,在此基础上定义了该时态数据的业务逻辑,描述了时态数据库查询的表示模式,最后详细介绍了如何通过快照和差异视图抽取时态数据。并给出了上述方法的应用场景。  相似文献   

10.
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。  相似文献   

11.
对网络多个信息源跨库检索的结果进行Ontology建模,实现异构分布式数据源的数据抽取与合并.数据抽取首先将信息源的检索结果页面映射成有限标号树,其次应用抽取规则得到所需数据;给出按库合并算法,使得网络多数据源返回的结果得以高效合并.实验数据表明将Ontology建模应用于跨库检索结果处理有效而且正确,抽取准确率可以达到100%.  相似文献   

12.
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术.针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果.充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成.  相似文献   

13.
ReDE:一个基于正则表达式的生物数据抽取方法   总被引:4,自引:0,他引:4  
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据.充分利用这种依赖关系可降低维护工作量.基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护.该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库.  相似文献   

14.
分析了数据仓库中数据填充存在的问题,为了保持数据仓库数据的全面性、完整性和数据仓库的质量,提出了一种多数据源的数据填充方案,并介绍了这种填充方案的结构和各模块的功能,具体讨论了同质和异质数据库数据源的数据转换模式,对于非数据库数据源,给出了从文本数据源和Web页面数据源获取数据的填充方法。  相似文献   

15.
如何在信息量巨大的互联网上准确获取并长期跟踪用户关注的内容,是数据采集和挖掘的重要方面。探讨Web数据采集理论及其应用技术,给出一个半自动采集模型,设计基于旅游业数据的采集系统,验证数据半自动采集的可行性。  相似文献   

16.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

17.
面向港口停留区域识别的船舶停留轨迹提取方法   总被引:1,自引:0,他引:1  
针对港口停留区域识别时船舶轨迹大数据的精度低、稀疏、漂移等问题,提出了一种多约束条件下的船舶停留轨迹提取(MPTSSE)方法。首先,结合船舶轨迹数据特点,给出了用于停留区域识别与提取的停留段概念的定义;其次,建立了基于速度、时间差、停留时长、距离等多约束的轨迹停留段提取模型和并行化轨迹停留段提取算法;最后,基于Hadoop框架给出了船舶轨迹大数据集上的轨迹停留段提取算法实现。基于真实船舶轨迹数据的实验结果表明,与基于Stop/Move模型的轨迹停留提取方法相比,MPTSSE方法在三个港口泊位的提取中准确率提高了22%。MPTSSE方法能有效避免轨迹停留段误分割情况,同时在大规模船舶轨迹数据下具有较高的执行效率。  相似文献   

18.
智能医疗分布式数据提取受到数据节点数目的影响,为了提高智能医疗分布式数据提取算法的性能,提出了基于MongoDB数据库的智能医疗分布式数据提取算法。在引入MongoDB数据库集群结构的基础上,构建了分布式数据的自定义词库,同时提取出分布式数据的标本名,完成了智能医疗分布式数据的预处理;利用建立分布式数据动态簇的步骤,设计了分布式数据的成簇过程,建立了分布式数据动态簇,最后设计智能医疗分布式数据提取算法,实现了智能医疗分布式数据的提取。实验结果显示,与其他2种数据提取算法相比,基于MongoDB数据库的智能医疗分布式数据提取算法在网络生存期、算法能耗以及提取延时方面的性能更好。  相似文献   

19.
基于Web的快速信息抽取   总被引:7,自引:0,他引:7  
介绍了一种基于Web的信息抽取的快速实现方法,该方法将信息抽取划分为两个阶段,在每个阶段采用不同的数据模型,对于半结构和无结构的信息抽取都有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号