首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
论文元数据信息的自动抽取   总被引:16,自引:1,他引:16  
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。  相似文献   

2.
首先从元数据的属性和元数据的粒度两个角度对科技文献元数据进行了分析,在此基础上,从科技文献元数据自动抽取的理论研究和应用实践研究两个方面对国内外科技文献元数据自动抽取研究成果进行分析和综合,最后指出了现有研究的特点和存在的不足.  相似文献   

3.
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台.作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力.本文设计并实现了一种按照指定规则自动抽取的元数据方法.该方法能够按照多优先级规则匹配网页元数据.并按照两步抽取的方法进行精细化处理.针对不同的问题域使用不同规则抽取,不需对程序进行特定修改.实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值.  相似文献   

4.
本文提出一种利用网页文本结构聚类从而抽取参考文献元数据的方法,并利用期刊论文的自有格式和同一网站结构相似的特征提取期刊论文的其余元数据。该方法首先将网页期刊论文进行文本块的划分,再利用正则表达式和文本结构的特性实现元数据的自动抽取。实验数据证明了该方法的有效性。  相似文献   

5.
论文元数据信息的自由抽取   总被引:1,自引:1,他引:1  
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者,摘要和关键宇等元数据信息,在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。  相似文献   

6.
基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率.但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加.经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%.  相似文献   

7.
为了得到统一的数据形式以利于数据操作和处理,提出了采用基于元数据的模板定制技术以实现信息抽取的方法.该方法有效地实现对非结构化文本的信息提取,将抽取信息转换为统一的XML格式,然后将XML格式的信息集成到关系数据库中.本方法在某造船厂的企业信息化中得到成功应用,为解决企业的信息集成问题提供了一种面向Word文档的新方案.  相似文献   

8.
基于路径学习的信息自动抽取方法   总被引:7,自引:0,他引:7  
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 .  相似文献   

9.
计算机辅助甲骨文考释首先要解决的是以统一的数据形式来管理甲骨文信息,文中提出了一种基于XML语言的元数据抽取方法,提出了将抽取出的元数据存放到元数据库中,使用视图对元数据库进行动态地增加或删除,来弥补元数据抽取不全或错误的现象.同时通过XML Schema文档检测保存的元数据的语法格式,为以后映射到甲骨文语料库中做了语法的检测.该方法为甲骨文语料库的建设提出了一种新方案,也为后期语料信息语义化和专家系统推理打下了基础  相似文献   

10.
有效HTML文本信息抽取方法的研究*   总被引:5,自引:1,他引:4  
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。  相似文献   

11.
随着大量的科研论文以电子文档的形式出现, 为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要.在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取.该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取.实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高.  相似文献   

12.
目前,元数据管理存在这样的问题,各开发商使用不同的元模型来设计自己的数据仓库工具,而且对元数据的描述往往不一致,这样给数据集成带来很大的问题。使用一种基于模型驱动的方式,将元数据描述规范化,并运用基于模型驱动的公共仓库模型CWM(Common Warehouse Metamodel)来实现这一过程。该模型可以充分发挥软件的复用性,使系统有良好的通用性,从而提高系统开发效率。  相似文献   

13.
由于政府各职能部门独立的系统间缺乏统一的规划和标准,使得各部门间大量的异构数据难以共享,导致信息孤岛的产生。为了解决问题的同时有效整合现有资源、减少重复建设、降低政府投资成本,提出使用J2EE技术,基于元数据的电子政务发布系统,该系统有效解决了信息共享与发布难的问题。从总体框架、元数据库的设计出发,对系统的主要模块进行了分析和实现,最后对该系统进行详细深入的讨论。  相似文献   

14.
Automatic flower boundary extraction is an important part of flower image recognition and retrieval. Identifying a flower of interest or segmenting against the background is a difficult task. We proposed and developed a hybrid automatic flower boundary extraction method called IPSOAntK-means based on swarm intelligence techniques in this article. The method employs ant colony optimization, incremental particle swarm optimization (IPSO), and K-means algorithms and it is the first swarm-based technique in flower segmentation on color images. The parameters of the algorithm are tuned by iterated F-race and experiments are conducted over two different benchmark data sets: CAVIAR-Flower and Oxford 17 flowers data sets. In the CAVIAR-flower data set, IPSOAntK-means outperformed K-means with 96.4% accuracy on average over 600 colored flower images. Comparison results of the Oxford flower data set show that our method is one of the best flower segmentation methods in the literature.  相似文献   

15.
邵辉  李芳 《计算机应用与软件》2007,24(10):99-100,144
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.提出了一种新的基于树模型算法的动态网页信息抽取方法.它在已有算法和系统的基础上,进行了多方面的扩充.实验表明,这种基于树模型的抽取方法能够准确地定位和抽取动态网页信息.  相似文献   

16.
提出基于误差位和小数位的乘积有效数字自动提取方法。该方法由相乘数据的有效位数决定乘积的误差位数,再由乘积的总位数与其误差位数求出乘积的有效位数,进而提取其有效数字。考虑到乘积在计算机中溢出和非溢出两种情况,采用乘积的整数位数和小数位数来计算乘积的总位数,乘积的小数位数由相乘数据的小数位数求出,乘积的整数位数通过计数的方法得到。理论分析表明,在任意情况下,两个有效数字相乘,其积的误差位数与两数中位数较大的有效数字位数相同。实验结果表明,有效数字提取算法能对计算机存储范围内的乘积有效数字进行正确、完整、有效地提取,且满足大学物理实验数据自动处理的要求。  相似文献   

17.
商务智能中元数据管理模型研究   总被引:4,自引:0,他引:4  
随着数据仓库技术应用的不断深入,商务智能或者说数据仓库系统构成越来越复杂,所依托的信息系统也愈加多样、异质。我们知道,对这些来源多样的信息进行整合以提供商务分析,合理利用元数据是其关键。元数据管理在商务智能领域非常重要,特别对来自不同厂商的数据集成来说尤为关键,因大部分的商务智能应用都非常依赖元数据的构建。本文阐述了商务智能中元数据管理的各个部分,并详细分析了被OMG(对象管理小组)接受的公共仓库模型——CWM。同时,给出了CWM中元数据存储和管理的可能实现方式。  相似文献   

18.
面对互联网时代海量的图像数据,如何自动地提取物体成为一个热点问题,为此提出一种结合超像素、显著性和区域比较的自动目标提取算法。算法首先对图像进行超像素分割,得到若干子区域;其次采用显著性检测确定出目标的初始区域;最后在子区域和初始区域的基础上,结合空间信息和颜色特征,利用区域比较法分割出最终的目标物体。对比实验结果表明,该算法能够有效地提取出目标,具有一定的鲁棒性。  相似文献   

19.
一种基于小生境遗传算法的规则提取算法   总被引:2,自引:0,他引:2  
本文描述一种基于小生境遗传算法的规则提取算法,并从语言表述、规则编码、搜索 策略三个方面做了讨论和分析.相对于原有的一些方法,本算法拥有适应性好、收敛快速的 特点,所生成的规则简洁,易于理解.  相似文献   

20.
阐明了传统EJB声明型事务存在的缺陷,并对AOP分离横切关注的思想及其实现方法进行了深入分析,最后运用AOP并结合IOC模式与动态代理的使用,搭建了一个基于元数据的声明型事务框架.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号