首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 62 毫秒

1.  基于多分类SVM-KNN的实体关系抽取方法  
   刘绍毓  周杰  李弼程  席耀一  唐浩浩《数据采集与处理》,2015年第1期
   实体关系抽取是信息抽取领域的重要研究课题之一。传统的实体关系抽取研究注重于从实体对出现的上下文中提取词法和语义等特征,然后利用分类器(如SVM)进行实体关系抽取,但该类方法忽略了分类器对实体抽取性能的影响。针对SVM分类器对超平面附近样本分类正确率低的问题,本文设计了一种基于双投票机制的SVM模糊样本选择方法。在此基础上,对确定区域样本直接使用SVM分类器进行分类,并利用KNN算法对模糊区域样本进行二次分类。在SemEval-2010评测任务提供的实体关系抽取数据上进行实验,实验结果表明该方法能较大提高实体关系抽取的性能。    

2.  集成学习算法在实体关系抽取中的应用  
   董丽丽  高山  张翔《西安建筑科技大学学报(自然科学版)》,2011年第43卷第3期
   针对基于特征向量的实体关系抽取方法中分类算法分类精度的不足,提出了基于集成学习算法的实体关系抽取方法.该方法将实体特征组合并转化为特征向量,使用集成学习中的ADABoost.MH算法来构造实体关系抽取的分类器,弱分类器采用决策树进行构造,通过提高分类效果好的分类器的权重和分类错误样本权重的方式来提高分类的精度,从而实现实体关系类别的识别.该方法在对《人民日报》语料库的测试中,得到了比较好的效果.    

3.  基于元学习策略的分类器融合方法及应用  
   王浩畅  赵铁军  郑德权  于 浩《通信学报》,2007年第28卷第10期
   提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。    

4.  基于语义与SVM的中文实体关系抽取  
   毕海滨  黄宇光《福建电脑》,2013年第12期
   命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。    

5.  基于自扩展与最大熵的领域实体关系自动抽取  被引次数:2
   雷春雅  郭剑毅  余正涛  毛存礼  张少敏  黄甫《山东大学学报(工学版)》,2010年第40卷第5期
   实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。    

6.  基于句法语义特征的中文实体关系抽取  
   《中文信息学报》,2014年第6期
   实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。    

7.  基于特征组合的中文实体关系抽取  被引次数:2
   黄鑫  朱巧明  钱龙华  刘梅梅《微电子学与计算机》,2010年第27卷第4期
   结合中文关系抽取的要求,以ACE2005的中文语料为数据进行关系抽取实验.在抽取中文词法、实体、句法,语法基本特征后,提出采用特征组合方法,使用支持向量机的机器学习(SVM)方法,在上关系探测和关系大类上F值分别提高了1.36%和3.97%,达到72.77和61.03,并分析出各部分组合特征的贡献.实验数据表明词语和实体组合特征对中文关系抽取的作用较大.    

8.  基于核函数中文关系自动抽取系统的实现  被引次数:11
   刘克彬  李芳  刘磊  韩颖《计算机研究与发展》,2007年第44卷第8期
   实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统.    

9.  基于SVM和扩展条件随机场的Web实体活动抽取  
   张传岩  洪晓光  彭朝晖  李庆忠《软件学报》,2012年第23卷第10期
   在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.    

10.  基于特征选择的实体关系抽取*  
   毛小丽  何中市  邢欣来  刘莉《计算机应用研究》,2012年第29卷第2期
   提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。    

11.  基于Winnow算法的垃圾邮件过滤器研究  
   陈峰《计算机应用》,2009年第29卷第Z2期
   实现了基本的Winnow算法、Balanced Winnow算法和带反馈学习功能的Winnow算法,并将其成功地应用于大规模垃圾邮件过滤,分别在SEWM2007和SEWM2008数据集上对上述三个算法进行了对比实验.实验结果表明,Winnow算法及其变体在分类效果和效率上都优于Logiisfic算法.    

12.  基于片上系统的EFI安全机制研究  被引次数:1
   陈峰《计算机应用》,2009年第29卷第Z2期
   实现了基本的Winnow算法、Balanced Winnow算法和带反馈学习功能的Winnow算法,并将其成功地应用于大规模垃圾邮件过滤,分别在SEWM2007和SEWM2008数据集上对上述三个算法进行了对比实验.实验结果表明,Winnow算法及其变体在分类效果和效率上都优于Logiisfic算法.    

13.  一种电子邮件敏感信息检测算法  
   刘子豪  庄毅《计算机研究与发展》,2009年第46卷第Z1期
   针对目前电子邮件安全网关不能很好地支持敏感信息检测问题,深入研究了Winnow算法和Markov模型,在N-Gram语言模型的基础上,提出了一种邮件特征选择方法--Markov-Gram,该方法以句子为单位进行特征项的选取,不仅保留了更多的语义信息,而且可以有效地减少特征项的数目,解决"维度灾难"问题;提出一种Winnow算法训练过程中初始权重生成方法,该方法融入了电子邮件结构特点以及    

14.  基于 Deep Belief Nets 的中文名实体关系抽取  被引次数:2
   陈宇  郑德权  赵铁军《软件学报》,2012年第23卷第10期
   关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的语义关系.提出一种利用DBN(deepbelief nets)模型进行基于特征的实体关系抽取方法,该模型是由多层无监督的RBM(restricted Boltzmann machine)网络和一层有监督的BP(back-propagation)网络组成的神经网络分类器.RBM网络以确保特征向量映射达到最优,最后一层BP网络分类RBM网络的输出特征向量,从而训练实体关系分类器.在ACE04语料上进行的相关测试,一方面证明了字特征比词特征更适用于中文关系抽取任务;另一方面设计了3组不同的实验,分别使用正确的实体类别信息、通过实体类型分类器得到实体类型信息和不使用实体类型信息,用以比较实体类型信息对关系抽取效果的影响.实验结果表明,DBN非常适用于基于高维空间特征的信息抽取任务,获得的效果比SVM和反向传播网络更好.    

15.  基于CRF算法的汉语比较句识别和关系抽取*  被引次数:1
   黄高辉  姚天昉  刘全升《计算机应用研究》,2010年第27卷第6期
   比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。    

16.  生物医学文本中命名实体识别的智能化方法  
   王浩畅  赵铁军  刘延力  于浩《北京邮电大学学报》,2006年第29卷第Z2期
   介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型。根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征,全文特征及外部资源特征。各种类型特征的优化组合、识别结果的后处理包括缩写词识别和嵌套词识别以及边界校正等都提升了命名实体识别系统的性能。实验结果表明,通过上述策略的应用,系统取得了很好的识别结果。    

17.  生物医学文本中命名实体识别的智能化方法  
   王浩畅  赵铁军  刘延力  于浩《北京邮电大学学报》,2006年第29卷第22期
   介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型。根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征,全文特征及外部资源特征。各种类型特征的优化组合、识别结果的后处理包括缩写词识别和嵌套词识别以及边界校正等都提升了命名实体识别系统的性能。实验结果表明,通过上述策略的应用,系统取得了很好的识别结果。    

18.  基于子树特征的中文实体关系抽取  
   姚全珠  王美君  李如琼《计算机工程》,2012年第38卷第1期
   基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系抽取方法。利用子树挖掘和特征选择得到有效子树,并将其作为特征模板构造特征向量。在中文语料库上进行的实验结果表明,该方法具有较好的分类效果。    

19.  基于支持向量机与自扩展的实体关系抽取方法  
   戴晓勉  陈楚明  张永和  郑金《现代计算机》,2009年第7期
   提出一种基于支持向量机和自扩展的实体关系抽取方法,用于解决实体关系抽取研究中测试语料库缺乏的问题.采用自扩展方法自动学习未标注语料库,减少人工标注的时间;从标注语料中构造特征向量;支持向量机对特征向量进行学习,得到分类模型,实现实体关系的自动抽取.    

20.  基于图的半监督关系抽取  被引次数:4
   陈锦秀  姬东鸿《软件学报》,2008年第19卷第11期
   提出利用基于图的半监督学习算法,即标注传递算法,指导计算机从非结构化的文本中自动识别出实体之间的关系.该方法首先利用图策略来建立关系抽取的模型.在这个图模型中,各个有标签和未标签的样本被表示成图上的各个节点,而样本间的距离则作为图上各边的权重.然后,关系抽取的任务就转化成在这个图上估计出一个满足全局一致性假设的标注函数通过对ACE(automatic content extraction)语料库的评测,结果显示,当只有少量的标签样本时,采用该标注传递的方法可以获得比基于SVM(support vector machine)的有监督关系抽取更好的性能,同时也明显优于基于Bootstrapping的半监督关系抽取的方法.    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号