基于Tika的复合文档文本信息抽取及其应用开发 |
| |
引用本文: | 吴鹏飞.基于Tika的复合文档文本信息抽取及其应用开发[J].电脑编程技巧与维护,2012(21):85-88. |
| |
作者姓名: | 吴鹏飞 |
| |
摘 要: | 介绍了开源复合文档文本信息抽取工具Apache Tika的应用环境、系统架构、功能函数和支持的文档格式,介绍一个开发应用实例为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。
|
关 键 词: | Tika 信息抽取 元数据 中文分词 复合文档 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|