首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 118 毫秒
1.
传统的属性值对抽取方法通常应用于短文本,且仅限于抽取字符串属性。提出一种触发词与属性值对的联合抽取方法,不仅能够通过识别触发词确定长文本中的信息语句,从而确定二元语义属性的取值,而且能够考虑触发词、字符串属性和属性值的相互依赖关系,基于条件随机场构建联合标记模型,提高字符串属性值对的抽取性能。实验结果显示,与传统方法相比,所提出的方法能够抽取二元语义属性值对,并且对字符串属性的抽取准确率、召回率和F值分别提高15.3%、15.5%和15.5%,同时抽取所用平均时间降低76.29%。  相似文献   

2.
陈钊  李嘉 《计算机工程》2011,37(20):261-263
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。  相似文献   

3.
冯礼  李芳  盛焕烨 《计算机工程》2009,35(3):45-47,4
在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。  相似文献   

4.
正则表达式是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字符串的机制。信息抽取的主要功能是从文本中抽取出特定的事实信息(factual information)。该文利用正则表示式快速匹配文本的特点,以抽取电子文档的主要信息为例,介绍了正则表达式理论以及在信息抽取中的应用。  相似文献   

5.
实体关系抽取是信息抽取研究领域中的重要研究课题之一.针对已有方法在处理复杂文本上的不足,提出了复杂中文文本的实体关系抽取方法.结合中文文本的语法特征,提出了7条抽取关系特征序列的启发式规则,并采用语义序列核和KNN机器学习算法结合的方法来分类和标注关系的类型.通过对ACE评测定义下的两个子类的实体关系抽取,关系抽取的平均F值迭到了76%,明显高于传统的基于特征向量和最短依存路径核的方法.  相似文献   

6.
基于谓词切片的字符串测试数据自动生成   总被引:3,自引:0,他引:3  
字符串谓词使用相当普遍,如何实现字符串测试数据的自动生成是一个有待解决的问题,针对字符串谓词,讨论了路径Path上给定谓词的谓词切片的动态生成算法,以及基于谓词切片的字符串测试数据自动生成方法,并给出了字符串间距离的定义,利用程序DUC(Definithon-Use-Control)表达式,构造谓词的谓词切片,对任意的输入,通过执行谓词切片,获取谓词中变量的当前值,进而对谓词中变量的每一字符进行分支函数极小化,动态生成给定字符串谓词边界的ON-OFF测试点,实验表明,该方法是行之有效的。  相似文献   

7.
基于弱监督学习的产品特征抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
伍量  何中市  黄永文 《计算机工程》2009,35(13):199-201
产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量。采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本模式,利用文本模式来发现新的产品特征。实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。  相似文献   

8.
实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。  相似文献   

9.
定义抽取是从非结构化文本中自动识别定义句的任务,定义抽取问题可建模为句子中术语及相应定义的序列标注问题,并利用标注结果完成抽取任务。针对传统的定义抽取方法在抽取定义特征过程中费时且容易造成错误传播的不足,提出一个基于双向长短时记忆(BiLSTM)的序列标注神经网络模型,对输入文本进行自动化定义抽取。通过将原始数据输入到BiLSTM神经网络中,完成输入句的特征表示,并采用基于LSTM的解码器进行解码得到标注结果。在Wikipedia英文数据集上的实验结果表明,该方法的精确率、召回率和F1值分别为94.21%、90.10%和92.11%,有效提升了基准模型效果。  相似文献   

10.
采用术语定义模式和多特征的新术语及定义识别方法   总被引:1,自引:0,他引:1  
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%.  相似文献   

11.
Laguerre滤波器在抗噪语音识别特征提取中的应用   总被引:1,自引:0,他引:1  
为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理。在仔细研究FIR滤波器参数确定方法的基础上,叙述了Laguerre滤波器原理及参数计算方法,并给出了计算结果。孤立词、非特定人语音识别实验结果表明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降。  相似文献   

12.
基于小波的车牌汉字特征提取   总被引:15,自引:0,他引:15       下载免费PDF全文
车牌识别系统是智能交通不可或缺的一部分.在车牌识别系统中,车牌首位汉字的特征提取和识别是一个难点.为此,将小波的多分辨率特性应用于车牌汉字特征的提取,提出了一种直接从灰度图象提取车牌汉字特征的提取方法.该方法首先提取图象的小波矩和基于小波分解的区域密度特征,然后以识别率好坏为最优依据,进行特征分量排序和选择,最后把特征矢量送入BP神经网络进行字符识别.该方法避免了一些传统汉字特征提取方法需要对图象进行二值化操作而造成的汉字字符结构信息丢失.提取的特征有效地反映了车牌汉字的局部和全局特征.实验结果表明该特征提取方法可以得到比较好的识别效果.  相似文献   

13.
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。  相似文献   

14.
啤酒瓶字符的圆周投影特征提取与识别   总被引:1,自引:0,他引:1       下载免费PDF全文
针对已分割完成的啤酒瓶凸性字符,提出了一种基于圆周投影变换的图像特征提取方法。以质心为极点将笛卡尔坐标系变换为极坐标系,进行圆周投影计算,将二维的字符图像变换为一维投影。利用小波变换(WT)和离散余弦变换(DCT),提取不同字符的有效特征。通过相同、相似字符特征提取实验,表明该方法具有较好的抗噪声能力和分类性能。  相似文献   

15.
电子商务网站中,海量无序的用户评论可能导致消费者客户“迷失”其中,无法识别评论的可信和真假。针对这个问题,提出了一种根据用户评论的可信度对其重新排序的方法。首先,针对网站商品广告信息,关注在线用户评论内容是否和商品功能属性密切相关,设计了基于HTML脚本格式的购物网站中商品关键特征提取算法,给出了基于自然语言处理的用户评论特征词提取方法;然后,利用词语相似度来分析商品特征和用户评论内容之间的关联度,提出了购物客户评论的可信度计算方法;最后,通过实例分析,实现了大量购物客户评论的可信排序,使得用户无须浏览全部或者大部分之后就能判断哪些评价可以信任或者具有实际的参考价值,降低了信息搜索成本,提高了决策效率。  相似文献   

16.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

17.
该文是对现有的人脸性别识别方法的综述。文中分别介绍了主要的特征提取算法和分类方法,还对一些典型的性别分类方法进行了比较和评价,并在此基础上对人脸性别识别的研究进行了总结和展望。  相似文献   

18.
We compared the performance of an automatic speech recognition system using n-gram language models, HMM acoustic models, as well as combinations of the two, with the word recognition performance of human subjects who either had access to only acoustic information, had information only about local linguistic context, or had access to a combination of both. All speech recordings used were taken from Japanese narration and spontaneous speech corpora.Humans have difficulty recognizing isolated words taken out of context, especially when taken from spontaneous speech, partly due to word-boundary coarticulation. Our recognition performance improves dramatically when one or two preceding words are added. Short words in Japanese mainly consist of post-positional particles (i.e. wa, ga, wo, ni, etc.), which are function words located just after content words such as nouns and verbs. So the predictability of short words is very high within the context of the one or two preceding words, and thus recognition of short words is drastically improved. Providing even more context further improves human prediction performance under text-only conditions (without acoustic signals). It also improves speech recognition, but the improvement is relatively small.Recognition experiments using an automatic speech recognizer were conducted under conditions almost identical to the experiments with humans. The performance of the acoustic models without any language model, or with only a unigram language model, were greatly inferior to human recognition performance with no context. In contrast, prediction performance using a trigram language model was superior or comparable to human performance when given a preceding and a succeeding word. These results suggest that we must improve our acoustic models rather than our language models to make automatic speech recognizers comparable to humans in recognition performance under conditions where the recognizer has limited linguistic context.  相似文献   

19.
基于支持向量机的传真收件人识别方法   总被引:2,自引:0,他引:2  
在字符特征提取基础上,文章提出了应用支持向量机对传真收件人进行识别的方案,解决了传真收件人格式、表示方法多样性而导致的自动分发困难的问题。文中对四种常用的核函数分别进行了实验,选取了对传真收件人具有较高识别率的核函数,它有利于实现传真文件的自动分发。  相似文献   

20.
方应谦  王鲁 《中文信息学报》2000,14(2):26-30,,48,
汉字识别中,以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出总是与待识字结构相似的一个侯选字集合。这是使后级识别容易产生误识的主要原因。为克服字分类器的缺点,本文给出了以词为单位的词分类器设计的策略与方法,并实验验证了词分类器在分类率及分类速度方面均优于字分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号