首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
研究面向文本的事件信息抽取工作,建立一个事件信息抽取系统。该系统首先过滤包含关键字的原始语料;然后采用层次聚类(Hierarchical,HCL)和最长公共子序列算法相结合的方法抽取事件信息,得到最初的模式;最后通过是否包含关键字进行模式获取,进而提取信息,最终得到事件要素。  相似文献   

2.
改进的基于核函数的模糊聚类算法   总被引:1,自引:0,他引:1  
孔攀  邓辉文  江欢  黄艳艳 《计算机应用》2008,28(9):2338-2340
针对传统模糊核聚类算法没有考虑各维特征对聚类的不同贡献程度,以及易陷入局部最优等缺点, 提出一种改进的模糊核聚类算法。该算法构造了一个简单有效的适应度函数,结合遗传算法全局搜索的优点,避免算法陷入局部最优。还为各维特征引入一个权系数,并利用ReliefF算法为特征加权。该算法比传统模糊核聚类算法有较大改进,实验结果表明了其有效性。  相似文献   

3.
重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。  相似文献   

4.
个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。  相似文献   

5.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。  相似文献   

6.
魏小梅  黄钰  陈波  姬东鸿 《计算机科学》2015,42(10):239-243
从生物文献中抽取生物事件对于生物领域的知识挖掘起着重要的作用,而事件触发词的识别是生物事件抽取的一个关键步骤。系统分别采用词汇及其上下文特征、短语标记特征、词聚类特征以及统计的词典特征构造不同的基于词级的CRF模型,用于生物事件触发词的标记。然后针对不同的触发词类型选择对应最优的标记模型,构造了一个混合CRF模型。在BioNLP 2009 ST语料库上进行了实验评估,结果表明提出的方法取得了很好的性能,为生物事件的抽取建立了良好的基础。  相似文献   

7.
为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题.在事件句的识别上,提出了基于SVM的有监督算法.对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角...  相似文献   

8.
一种跨语句汉语事件信息抽取方法   总被引:2,自引:0,他引:2  
姜吉发 《计算机工程》2005,31(2):27-29,66
提出了一种“知网”支持下的跨语句汉语事件信息抽取(1E)方法。该方法的基本思想是:从经过标注的描述某类事件的一个事件实例集合中,学习出事件的各个角色的特征义原集合和角色所属的语义类集合。然后,对于一个新的该类事件的实例句群,使用每个角色的特征义原集合来定位角色所在的单句,并通过该角色所属的语义类集合从定位后的单句中进行该角色的识别和抽取。实验表明,该方法能够完成从不同领域中对不同类别汉语事件的IE任务,并得到较高的抽全率和抽准率。  相似文献   

9.
非参数信息理论聚类( NIC)算法通过计算数据点与簇间的互信息来实现聚类,利用无参估计法计算集群平均熵,从而降低人为参与的成本,但该算法假定待分析样本的所有特征对分类具有相同的贡献,与目前已有的研究结果相悖。为此,提出一种特征加权的R-NIC算法,该算法考虑各维特征对模式分类的不同影响,使用ReliefF对特征进行加权变换,抑制冗余特征,加强有效特征,利用NIC算法在变换后的特征空间中进行聚类以提高聚类效果。在UCI数据集上的实验结果表明,该算法具有较高的聚类性能,聚类效果优于NIC算法。  相似文献   

10.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

11.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。  相似文献   

12.
事件抽取是信息抽取领域的研究热点。针对ACE事件抽取局限于当前单个句子而造成大量事件论元角色缺失的现象,提出了基于跨事件的缺失事件角色填充理论并实现了原型系统。系统分为缺失角色填充识别和缺失角色填充分类两个部分,识别部分用于判定缺失角色是否可被填充,分类部分用于从其它事件描述中选择合适的角色(实体)对可被填充的缺失角色进行填充。对ACE2005语料进行了后期标注,实验中两个阶段的F值分别达到72.97和74.68。  相似文献   

13.
事件抽取是信息抽取领域的一个重要研究方向。针对事件抽取获得的信息不完整、语义不明确、元素表达多样性及明显事件冗余等问题,提出基于统计的缺失数据填充算法,使丢失信息的事件完备化;同时提出基于规则和词典的事件元素规格化将不同表述的事件统一化,通过事件真伪辨别解决了语义不明确问题,修正抽取不正确的事件,并过滤掉明显冗余信息的事件。  相似文献   

14.
基于依存分析的事件识别   总被引:2,自引:1,他引:2  
事件抽取是信息抽取的重要组成部分,事件识别是事件抽取的基础,事件识别的效果直接影响了事件抽取的结果.基于机器学习的方法识别事件需要从词汇中发掘更多的特征.针对当前事件识别方法中存在的不足,提出了一种基于依存分析的事件识别方法.用依存分析发掘触发词与其它词之间的句法关系,以此为特征在SVM分类器上对事件进行分类,最终实现事件识别.实验表明,基于依存分析的事件识别优于传统的事件识别方法,而融合多特征的事件识别F值可提高到69.3%.  相似文献   

15.
在事件信息的抽取中,事件要素的提取是一个难点。现有的事件要素抽取主要是基于机器学习的方法,这类方法容易受到语料稀疏性的影响。该文提出一种基于事件本体的事件要素提取方法,该方法将事件要素推理分为两步: 一、通过事件要素词和事件指示词的位置关系来初步填充要素值,并将得出的置信度较高的事件作为种子事件;二、利用第一步得出的种子事件,查询事件本体中的事件类约束和基于事件非分类关系的推理规则,并对要素进行推理,进一步对事件要素进行填充和修正。实验结果表明,该方法能较好地提升事件要素提取的准确度。  相似文献   

16.
赵江江  秦兵 《电脑学习》2012,2(1):16-17,20
采用基于BootStrapping的方法实现中文事件元素抽取系统。其中,将事件元素抽取定义为一个模式匹配问题。针对这一问题,首先构建了初始种子集,然后创新性地引入了BootStrapping方法构建模板集,并使用模式匹配的方法进行事件元素抽取。在模板构造过程中,提出了基于BestMatch的模板泛化算法[1]。对任意两个事件实例模板[2]进行匹配,计算其匹配代价并泛化,提高了模板的覆盖能力。所实现的系统在ACE 2005语料测试中取得了不错结果。  相似文献   

17.
基于复杂事件处理机制的RFID数据流处理方法   总被引:1,自引:0,他引:1  
阴晓加  鞠时光  王英杰 《计算机应用》2009,29(10):2786-2790
射频识别(RFID)数据流处理技术中基于复杂事件处理机制(CEP)的方法受到业界广泛关注。针对射频识别数据的特点以及目前射频识别复杂事件处理方法的不足,通过扩展和改进高效模式匹配算法Rete,提出了复合事件处理方法ERD。该方法实现了事件检测机制与中间结果共享机制的有机统一,从而达到了提高系统整体检测效率的目的。仿真实验证明该方法具有较好的效果。  相似文献   

18.
高效的射频识别数据流层次复杂事件检测   总被引:1,自引:0,他引:1       下载免费PDF全文
为弥补当前射频识别事件检测方法性能方面的不足,提出一种高效的层次复杂事件检测方法。该方法以SASE的基本查询规划思路为基础,增加对层次复杂事件的支持,通过多级别的并行处理提高检测性能。实验结果证明,与传统的复杂事件检测方法相比,该方法具有更好的性能和灵活性。  相似文献   

19.
目前先进的事件论元抽取方法通常使用BERT模型作为编码器,但BERT巨大的参数量会降低效率,使模型无法在计算资源有限的设备中运行。提出一种新的事件论元抽取方法,将事件论元抽取教师模型蒸馏到2个不同的学生模型中,再对2个学生模型进行集成。构造使用BERT模型和图卷积神经网络的事件论元抽取教师模型,以及2个分别使用单层卷积神经网络和单层长短期记忆网络的学生模型。先通过均方误差损失函数对学生模型和教师模型的中间层向量进行知识蒸馏,再对分类层进行知识蒸馏,使用均方误差损失函数和交叉熵损失函数让学生模型学习教师模型分类层的知识和真实标签的知识。在此基础上,利用加权平均的方法对2个学生模型进行集成,从而提升事件论元抽取性能。使用ACE2005英文数据集进行实验,结果表明,与学生模型相比,该方法可使事件论元抽取F1值平均提升5.05个百分点,推理时间和参数量较教师模型减少90.85%和99.25%。  相似文献   

20.
面向事件的本体研究   总被引:7,自引:2,他引:7  
世界是物质的,物质的世界是运动的,运动是绝对的,静止是相对的.事件作为人类知识的单元,反映了事物的运动,受到了学术界多领域专家的高度重视.在研究面向事件的知识表示的基础上,给出了事件定义及其六元组的形式化表示,并提出了事件本体模型;最后,以基于事件本体的篇章理解为例,简要说明了篇章与句子的事件网络表示、生成及其应用.与传统本体相比,事件本体以更高粒度的事件作为知识表示单元,更符合客观实际,更便于计算机模拟大脑工作.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号