共查询到15条相似文献,搜索用时 78 毫秒
1.
《计算机应用与软件》2017,(2)
正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出。在多种数据集上对算法进行测评。实验表明,该算法性能与准确度均优于常规的机器学习方法。尤其在较小规模训练集和跨数据集上依然有较好的效果。 相似文献
2.
3.
正则表达式是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字符串的机制。信息抽取的主要功能是从文本中抽取出特定的事实信息(factual information)。该文利用正则表示式快速匹配文本的特点,以抽取电子文档的主要信息为例,介绍了正则表达式理论以及在信息抽取中的应用。 相似文献
4.
论文元数据信息的自动抽取 总被引:16,自引:1,他引:16
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。 相似文献
5.
6.
7.
8.
基于知识的多数据源DSS的数据抽取技术研究 总被引:3,自引:0,他引:3
目前DSS的研究主要侧重于DSS的结构、解决问题的方法和模型库系统等方面,对多数据源情况下的DSS数据系统研究还不多,本文提出一种基于知识的多数据源DSS的数据抽取技术,通过各数据源属性的描述和数据转换检测规则的表示,由处理机实现对多数据源数据的抽取。 相似文献
9.
首先对正则表达式进行了整体描述,然后对客户端数据校验和服务器端数据校验的利弊进行了分析,最后给出了电子邮件地址的数据校验正则表达式,用于进行客户端的数据校验。 相似文献
10.
LIU Songye 《电脑编程技巧与维护》2008,(16)
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。 相似文献
11.
L-Tree Match: A New Data Extraction Model and Algorithm for Huge Text Stream with Noises 总被引:3,自引:1,他引:2 下载免费PDF全文
In this paper, a new method, named as L-tree match, is presented for extracting data from complex data sources. Firstly, based on data extraction logic presented in this work, a new data extraction model is constructed in which model components are structurally correlated via a generalized template. Secondly, a database-populating mechanism is built, along with some object-manipulating operations needed for flexible database design, to support data extraction from huge text stream. Thirdly, top-down and bottom-up strategies are combined to design a new extraction algorithm that can extract data from data sources with optional, unordered, nested, and/or noisy components. Lastly, this method is applied to extract accurate data from biological documents amounting to 100GB for the first online integrated biological data warehouse of China. 相似文献
12.
正则表达式是数据验证技术中功能最为强大的输入控制技术。传统的基于NFA的正则表达式引擎的匹配速度低。通过正则表达式与自动机等价的原理,研究了通过最小化的确定的有限自动机(DFA)来等价实现.NET中正则表达式的数据验证的机制,以期提高正则表达式的匹配速度。 相似文献
13.
YANG Cheng-ke 《数字社区&智能家居》2008,(29)
正则表达式是编译原理的核心理论之一,应用于各程序设计语言的编译系统中,以分析程序源代码中的各种记号。从程序设计的角度来看,正则表达式常常被用于设计模糊查询程序和数据匹配验证程序。 相似文献
14.
15.
正则表达式的Web数据提取研究 总被引:1,自引:0,他引:1
刘松业 《电脑编程技巧与维护》2008,(15):89-91
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。 相似文献