共查询到19条相似文献,搜索用时 93 毫秒
1.
基于指挥信息系统的作战文书智能处理是未来指挥智能化的基础,采用自然语言处理的方法从非结构化作战文书中抽取出结构化的作战数据对于辅助指挥员决策有着重要意义。其中作战文书实体之间的语义关系是战场态势理解的基础,对于获取对抗双方中作战编成、部署位置、目标状态、指挥关系具有重要价值。针对作战文书实体关系抽取中传统方法人工构建特征不充分、军事领域中文分词不准确、输入与输出之间的相关性考虑不足等问题,笔者提出了基于深度学习的关系抽取方法。结合双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)神经网络对较长句子上下文的记忆能力、字向量(Character embedding)对汉字语义的表示能力和注意力机制(Attention Mechanism,Att)对输入与输出相关性的学习能力,构建了Character+Bi-LSTM+ Attention实体关系抽取模型。为验证方法的有效性,在学员训练文书语料集上进行了实验,实验结果表明,该方法抽取效果较传统方法有进一步提高。 相似文献
2.
3.
4.
吴鹏飞 《电脑编程技巧与维护》2012,(21):85-88
介绍了开源复合文档文本信息抽取工具Apache Tika的应用环境、系统架构、功能函数和支持的文档格式,介绍一个开发应用实例为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。 相似文献
5.
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。 相似文献
6.
7.
8.
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率。实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值。 相似文献
9.
答案抽取是开放领域问答系统中的关健部分,主要由检索结果句子的重排和最终候选实体的抽取构成.通过把依存分析到引入到这两个步骤中,并结合改进的关键词密度算法,增强了对句法和语义知识的利用和系统的鲁棒性,在实验中答案抽取的效果明显提高. 相似文献
10.
11.
中文文本中抽取特征信息的区域与技术 总被引:30,自引:3,他引:30
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言,本文的方法与结论都有一定的参考价值。 相似文献
12.
介绍文本文件信息隐藏的几种典型编码方法,并比较各种方法的信息隐藏量;分析Word文档的文件结构,提出一种通过字符缩放编码、字体RGB灰度编码、改变Word文本文档中字符下划线RGB灰度值来实现隐藏秘密信息的方法。理论分析和实验结果表明该方法能提高信息隐藏量。 相似文献
13.
一种基于信息熵的中文高频词抽取算法 总被引:9,自引:0,他引:9
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。 相似文献
14.
15.
YU Cheng-Jian 《数字社区&智能家居》2008,(12)
在Web页面常用到表格这种元素。本文提出一种根据表格语义来进行信息抽取方法。首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。 相似文献
16.
17.
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高. 相似文献
18.
基于文档实例的中文信息检索 总被引:2,自引:0,他引:2
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的. 相似文献