首页 | 本学科首页   官方微博 | 高级检索  
     

TML:一种通用高效的文本挖掘语言
引用本文:李佳静,李晓明,孟涛. TML:一种通用高效的文本挖掘语言[J]. 计算机研究与发展, 2015, 0(3): 553-560
作者姓名:李佳静  李晓明  孟涛
作者单位:1. 中国矿业大学 北京 机电与信息工程学院北京 100083; 南京网感至察信息科技有限公司南京 210014
2. 北京大学信息科学技术学院北京 100871
3. 南京网感至察信息科技有限公司南京 210014
基金项目:南京市321领军型科技创业人才计划基金项目2013年第2批;中央高校基本科研业务费专项资金项目(2009QJ15);国家“八六三”高技术研究发展计划基金项目(2013AA064303)
摘    要:实现了一种通用高效的文本挖掘编程语言,包括其编译器、运行虚拟机和图形开发环境。其工作方式是用户通过编写该语言的代码以定制抽取目标和抽取手段,然后将用户代码编译成字节码并进行优化,再将其与输入文本语义结构做匹配。该语言具有如下特点:1)提供了一种描述文本挖掘的范围、目标和手段的形式化方法,从而能通过编写该语言的代码来在不同应用领域做声明式文本挖掘;2)运行虚拟机以信息抽取技术为核心,高效地实现了多种常用文本挖掘技术,并将其组成一个文本分析流水线;3)通过一系列编译优化技术使得大量匹配指令能够充分并发执行,从而解决了该语言在处理海量规则和海量数据上的执行效率问题。实用案例说明了TML语言的描述能力以及它的实际应用情况。

关 键 词:文本挖掘  信息抽取  编程语言  编译器  虚拟机

TML:A General High-Performance Text Mining Language
Li Jiajing , Li Xiaoming , Meng Tao. TML:A General High-Performance Text Mining Language[J]. Journal of Computer Research and Development, 2015, 0(3): 553-560
Authors:Li Jiajing    Li Xiaoming    Meng Tao
Affiliation:Li Jiajing;Li Xiaoming;Meng Tao;School of Mechanical Electronic and Information Engineering,China University of Mining & Technology (Beijing);Nanjing Wangganzhicha Information Technology Ltd;School of Electronics Engineering and Computer Science,Peking University;
Abstract:
Keywords:text mining  information extraction  programming language  compiler  virtual machine
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号