首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 390 毫秒

1.  一种无改写的正则表达式分析树构造算法  
   邓绪斌《计算机应用与软件》,2007年第24卷第12期
   数据抽取常用正则表达式(RE)来描述数据源.为实现可视化描述,需将RE转换成分析树.但现有基于改写的RE分析树构造方法会破坏数据对象的内在结构,不能用于数据抽取问题.提出了一种无改写的RE分析树构造算法.实验表明,该算法在时空间性能和实用性等方面优于现有RE分析树构造算法.    

2.  关系数据库设计中的数据依赖确定与语义分析  被引次数:3
   程录庆  张智光《计算机与现代化》,2008年第12期
   在关系数据库的设计中,数据依赖的确定是至关重要的,为保证数据的完整性,需要在数据库的设计、录入及维护全过程中保持数据依赖的一致性。数据依赖是关系数据间现实语义约束的一个反映,是属于语义范畴的,它的确定也是基于数据所蕴含的语义。本文结合实例,通过分析数据蕴含的语义,讨论确定关系数据的函数依赖和多值依赖的一般思路和方法,并分析了语义的强制与保持问题,对实际的关系数据库设计有理论参考价值。    

3.  VI-DE: DE-Wrapper的可视化编辑调试环境  
   李岱  邓绪斌  朱扬勇《计算机工程》,2006年第32卷第8期
   介绍了VI—DE,数据抽取工具DE-Wrapper的可视化编辑调试环境。DE—Wrapper使用扩展正则表达式(ERE)描述数据源结构,根据陵ERE构造数据抽取树(DE-树),然后根据DE-树生成相应的关系数据库模式,最后抽取数据。VI-DE整合了DE-Wrapper的工作流程。该工具首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE.树是否具有二义性,最后在样本数据七运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。VI—DE已用于构建国内第1个整合的生物信息存线数据仓库系统。    

4.  基于模型驱动元数据集成体系结构研究与设计  被引次数:3
   邵学军  施化吉  李星毅  赵曦滨《计算机工程与应用》,2006年第42卷第15期
   元数据及其管理是数据仓库和业务分析领域中的核心部分,也是成功建立信息供应链的关键。元数据管理依赖于软件体系结构来抽取、集成、存储和发布元数据。这样的体系结构通常以元数据存储库为核心。提出了一个基于CWM(CommonWarehouseMetamodel)元模型的元数据集成体系结构,并对体系结构中的相关组件和技术进行了简要介绍。    

5.  基于HTMLParser的Web信息抽取系统的设计与实现  被引次数:2
   李彦刚  魏海平  侯兴华《辽宁石油化工大学学报》,2006年第26卷第2期
   互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。    

6.  商品价格数据的两种WEB挖掘算法比较  被引次数:1
   王红艳  朱全银  严云洋  钱进《微电子学与计算机》,2011年第28卷第10期
   其他网络商店的商品实时价格是Web商店店主所关注的重要数据,Web数据挖掘使得这一需求变为现实.通过正则表达式算法与分词算法的比较研究,给出了基于正则表达式的商品价格抽取算法和基于分词的网站目录树抽取算法、HTML网页商品抽取算法与商品价格抽取算法.应用系统的实践表明,正则表达式算法的挖全率与正确率较低,而分词算法的挖全率与正确率都达到99%以上,完全满足应用需求,同时可以为商品的市场预测与分析提供依据.    

7.  正则表达式在Web信息抽取中的应用  被引次数:1
   胡军伟  秦奕青  张伟《北京机械工业学院学报》,2011年第6期
   针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。    

8.  基于Wikipedia的人名简历信息抽取  
   王全剑  李芳《计算机应用与软件》,2011年第28卷第7期
   实体关系抽取是目前信息抽取研究的热点.提出的简历信息抽取,就是从网页数据中抽取得到关于人的出身、学习教育、工作经历的三类不同关系元组(由两个实体和关系表示组成),从而整理出现实生活中人的简历信息.在基于句子分块(Chunk)和命名实体识别(NER)标记的抽取模式基础上,利用Wikipedia作为知识库,提出基于当前元组与关系表示集合语义相似度的关系判别算法对按照模式抽取得到的关系元组进行过滤和分类.实验结果表明抽取精度和F值对比基准方法上有了较大提高,并且实现了较高精度的简历信息类型分类.    

9.  RE-OEM:一种半结构化生物数据的信息抽取模型  被引次数:2
   曹顺良  刘杰  王健  刘念祖  李亦学《计算机应用研究》,2008年第25卷第9期
   在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型RE-OEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。    

10.  RE-OEM:一种半结构化生物数据的信息抽取模型*  
   曹顺良  刘杰  王健  刘念祖  李亦学《计算机应用研究》,2008年第25卷第9期
   在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型REOEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。    

11.  基于ODI的高校数据交换与共享平台的设计与实现  
   陈熙《计算机光盘软件与应用》,2014年第2期
   针对高校多业务系统异构数据库的情况,应用数据集成的方法,设计了数据抽取和共享应用架构,详细分析了Oracle数据整合工具(ODI)。本文再结合高校实际情况,用ODI作为主要工具建立了数据交换和共享平台,从而使异构数据库间的信息同步和共享。    

12.  基于Boost.Regex的网页信息抽取  
   吴鹏飞  马凤娟《电脑编程技巧与维护》,2009年第15期
   正则表达式是一种用于字符串模式匹配和替换的强有力工具。介绍了在vc++中如何配置Boost.Regex,实现基于正则表达式网页信息抽取类CHtmlcodelE.从而完成了网页信息高效抽取。    

13.  基于Web挖掘的化学物质信息提取应用研究  
   冯硕  李书琴  杨会君《计算机工程与设计》,2012年第33卷第8期
   针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义XML文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。    

14.  二维共轭正交偏最小二乘分析及图像识别应用  
   杨茂龙  孙权森  夏德深《计算机工程与应用》,2008年第44卷第29期
   偏最小二乘(PLS)是一种有效的图像特征抽取方法。不同于其他的多元数据分析方法,PLS综合了PCA与CCA的优点,抽取对样本具有最佳解释能力的成分。讨论了偏最小二乘法建模思想及非迭代算法、共轭正交算法和基于2D特征抽取时的算法原理和特点,以及PLS用于图像识别时类隶属矩阵的构造。在ORL与Yale人脸库上的实验结果表明用2DCOPLS抽取的特征进行图像识别的效果更好,更稳定。    

15.  基于数据库事务的不变式推导  
   曾虹驰  彭鑫  赵文耘《计算机科学》,2017年第44卷第11期
   作为数据处理和并发控制的基本单位,数据库事务被广泛应用于软件系统的业务逻辑中。通过收集运行时数据库事务中的数据,推导这些数据之间满足的不变式,建立相应的数据契约关系,是软件维护过程中对系统的内部状态进行监控的重要方法之一。目前,在不变式推导领域,主要的方法和工具都是基于代码进行分析的,缺少与基于数据分析相关的研究和成果。为了解决这一问题,首先提出了基于数据的推导代数等式形式的不变式的算法,然后设计并实现了基于数据库事务的不变式推导的原型工具,最后通过相关实验分析和验证了原型工具的有效性。实验结果表明,原型工具有良好的推导准确率和运行性能,能够弥补现有工具和方法在基于数据的分析领域的不足。    

16.  分布式大数据函数依赖发现  被引次数:1
   李卫榜  李战怀  陈群  姜涛  刘海龙  潘巍《计算机研究与发展》,2015年第52卷第2期
   在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.    

17.  基于特征相似度的科技论文元数据提取算法研究  被引次数:3
   钱建立  吴广茂  蒋路《微电子学与计算机》,2008年第25卷第8期
   通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元数据特征的元数据抽取算法,归纳出了论文元数据的7个形式特征和2个语义特征,定义了确定特征和排除特征,描述了特征相似度算法的6个步骤,给出了分别采用正则表达式方法和特征相似度方法的试验结果,测试表明,采用特征相似度方法的提取成功率从68%提高到了95%,达到了实用水平.    

18.  基于函数依赖的关系模式分解方法分析  被引次数:2
   海燕 皇甫中民《水利电力机械》,2005年第27卷第3期
   在数据库设计中,关系模式的规范化过程是通过对关系模式的分解来实现的。把低一级的关系模式分解为若干个高一级的关系模式,这种分解不是唯一的。逻辑数据库设计主要是以关系规范化理论为基础,分析关系模式中的数据依赖,通过投影分解,消除不合理的数据依赖。对基于函数依赖的关系模式的分解方法进行了分析。    

19.  基于语义的通用数据抽取方法  
   张建英  孙永洁  王秀坤《计算机科学》,2010年第37卷第3期
   关系数据库可以看作是元组以及外键关系构成的有向图。为便于数据复制以及共享,在进行数据抽取时,往往既要使语义上相关的数据一起抽取,又要使得抽取的数据尽量逻辑上独立。将多根树作为语义上相关、逻辑独立的数据集,给出了关系数据抽取方法并进行了实现。在Oracle中,使用TPC-C数据库结构对该方法进行了测试与分析,从而验证了算法的有效性和通用性。    

20.  基于CWM的关系数据库建模方法  被引次数:1
   朱婵  许龙飞  周锦煌《计算机系统应用》,2005年第14卷第3期
   对关系数据库进行建模的不同工具和产品都有其自己的元数据定义和格式,这使得它们之间的互操作非常困难。论文介绍了基于公共仓库元模型(CWM)的关系数据库建模方法,使用这种方法,数据库设计者能够通过标准的CWM格式来设计和创建数据库。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号