首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于指挥信息系统的作战文书智能处理是未来指挥智能化的基础,采用自然语言处理的方法从非结构化作战文书中抽取出结构化的作战数据对于辅助指挥员决策有着重要意义。其中作战文书实体之间的语义关系是战场态势理解的基础,对于获取对抗双方中作战编成、部署位置、目标状态、指挥关系具有重要价值。针对作战文书实体关系抽取中传统方法人工构建特征不充分、军事领域中文分词不准确、输入与输出之间的相关性考虑不足等问题,笔者提出了基于深度学习的关系抽取方法。结合双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)神经网络对较长句子上下文的记忆能力、字向量(Character embedding)对汉字语义的表示能力和注意力机制(Attention Mechanism,Att)对输入与输出相关性的学习能力,构建了Character+Bi-LSTM+ Attention实体关系抽取模型。为验证方法的有效性,在学员训练文书语料集上进行了实验,实验结果表明,该方法抽取效果较传统方法有进一步提高。  相似文献   

2.
文本信息抽取是处理海量文本数据的手段,事件信息抽取是其中最具挑战性的任务之一.提出了一种基于条件随机场的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场用于句子中谓词的语义角色标注.应用该方法对"职务变动"和"会见"两类事件的事件要素及其语义角色进行标注,在各自的测试集上分别获得了77.3%和74.2%的综合指标F值.  相似文献   

3.
一种基于角色匹配的事件抽取方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向,事件抽取模式的定义和获取是其中的一个关键问题。提出了一种基于动词论元结构层次模型,将事件元素与动词的语义角色相对应,在实体、词性、关键词层次对事件元素进行语义约束的事件抽取模式定义方法。另外,为减轻模式建设的代价,提出了一种从标注语料中自动归纳事件抽取模式的方法。在此基础上,以发布事件为实例构建了实验系统,实验结果表明该方法的F指数达到71.7%。  相似文献   

4.
介绍了开源复合文档文本信息抽取工具Apache Tika的应用环境、系统架构、功能函数和支持的文档格式,介绍一个开发应用实例为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。  相似文献   

5.
黄晨 《福建电脑》2009,25(6):45-46
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。  相似文献   

6.
谢方立  周国民  王健 《计算机科学》2016,43(Z11):31-34, 49
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示 该方法 在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。  相似文献   

7.
一种新的基于Ontology的信息抽取方法   总被引:12,自引:0,他引:12  
把语法分析和Ontology 结合起来,先利用领域Ontology里的概念、关系、关键字自动生成标注规则(Rule),然后对文章、句子的语法结构进行分析,再利用语法分析的结果和先前生成的标注规则一起对文档进行信息标注与抽取,最后把信息抽取的结果以记录的形式输出。  相似文献   

8.
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率。实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值。  相似文献   

9.
答案抽取是开放领域问答系统中的关健部分,主要由检索结果句子的重排和最终候选实体的抽取构成.通过把依存分析到引入到这两个步骤中,并结合改进的关键词密度算法,增强了对句法和语义知识的利用和系统的鲁棒性,在实验中答案抽取的效果明显提高.  相似文献   

10.
有效HTML文本信息抽取方法的研究*   总被引:4,自引:1,他引:4  
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。  相似文献   

11.
中文文本中抽取特征信息的区域与技术   总被引:30,自引:3,他引:30  
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言,本文的方法与结论都有一定的参考价值。  相似文献   

12.
李向辉  钟诚 《微机发展》2006,16(9):97-99
介绍文本文件信息隐藏的几种典型编码方法,并比较各种方法的信息隐藏量;分析Word文档的文件结构,提出一种通过字符缩放编码、字体RGB灰度编码、改变Word文本文档中字符下划线RGB灰度值来实现隐藏秘密信息的方法。理论分析和实验结果表明该方法能提高信息隐藏量。  相似文献   

13.
一种基于信息熵的中文高频词抽取算法   总被引:9,自引:0,他引:9  
任禾  曾隽芳 《中文信息学报》2006,20(5):42-43,90
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。  相似文献   

14.
半监督或无监督的事件抽取方法在目前依旧是一个具有挑战性的课题。针对中文本身在表述中存在的固有特点,该文提出一种基于双视图的事件抽取自举学习方法。该方法以少量种子为基础,从文档相关度与语义相似度两个视图出发,进行交互过滤筛选,不断抽取新的有效事件模板,为事件抽取服务。在ACE2005中文语料上的测试表明,和现有方法相比,该方法可以有效地提高中文信息事件抽取系统的性能。  相似文献   

15.
在Web页面常用到表格这种元素。本文提出一种根据表格语义来进行信息抽取方法。首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。  相似文献   

16.
随着大数据时代的到来,对网络信息的时效性进行评价已成为当今研究的热点。将以Web新闻作为研究对象,对大数据环境下的Web信息提取和中文分词处理等技术进行研究,并在此基础上,提出一种基于Web语义信息提取的网络信息时效性评价算法。实验结果将充分体现算法实现的有效性,既可引导网络用户关注更有价值的 Web信息,也可帮助网站管理者构建一个时效性更高的网站。  相似文献   

17.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

18.
基于文档实例的中文信息检索   总被引:2,自引:0,他引:2  
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的.  相似文献   

19.
李兵兵  王衍波  徐敏 《计算机工程》2011,37(5):155-157,160
研究ZIP文档的标准格式,提出一种基于ZIP文档格式的通用信息隐藏方法,通过删除ZIP文档中压缩源文件目录区的记录,修改ZIP文档的显示输出,达到隐藏信息的目的。提出一种基于Word 2007 ZIP文档格式的信息隐藏方法,通过替换压缩源文件数据区记录中本地文件头的扩展字段数据,以嵌入秘密信息。理论分析和实验结果表明,上述2种方法具有良好的隐蔽性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号