共查询到20条相似文献,搜索用时 265 毫秒
1.
2.
3.
4.
《计算机应用与软件》2016,(7)
个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。 相似文献
5.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。 相似文献
6.
7.
为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题.在事件句的识别上,提出了基于SVM的有监督算法.对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角... 相似文献
8.
一种跨语句汉语事件信息抽取方法 总被引:2,自引:0,他引:2
提出了一种“知网”支持下的跨语句汉语事件信息抽取(1E)方法。该方法的基本思想是:从经过标注的描述某类事件的一个事件实例集合中,学习出事件的各个角色的特征义原集合和角色所属的语义类集合。然后,对于一个新的该类事件的实例句群,使用每个角色的特征义原集合来定位角色所在的单句,并通过该角色所属的语义类集合从定位后的单句中进行该角色的识别和抽取。实验表明,该方法能够完成从不同领域中对不同类别汉语事件的IE任务,并得到较高的抽全率和抽准率。 相似文献
9.
非参数信息理论聚类( NIC)算法通过计算数据点与簇间的互信息来实现聚类,利用无参估计法计算集群平均熵,从而降低人为参与的成本,但该算法假定待分析样本的所有特征对分类具有相同的贡献,与目前已有的研究结果相悖。为此,提出一种特征加权的R-NIC算法,该算法考虑各维特征对模式分类的不同影响,使用ReliefF对特征进行加权变换,抑制冗余特征,加强有效特征,利用NIC算法在变换后的特征空间中进行聚类以提高聚类效果。在UCI数据集上的实验结果表明,该算法具有较高的聚类性能,聚类效果优于NIC算法。 相似文献
10.
一种特征加权的聚类算法框架 总被引:3,自引:0,他引:3
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性. 相似文献
11.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。 相似文献
12.
13.
事件抽取是信息抽取领域的一个重要研究方向。针对事件抽取获得的信息不完整、语义不明确、元素表达多样性及明显事件冗余等问题,提出基于统计的缺失数据填充算法,使丢失信息的事件完备化;同时提出基于规则和词典的事件元素规格化将不同表述的事件统一化,通过事件真伪辨别解决了语义不明确问题,修正抽取不正确的事件,并过滤掉明显冗余信息的事件。 相似文献
14.
15.
在事件信息的抽取中,事件要素的提取是一个难点。现有的事件要素抽取主要是基于机器学习的方法,这类方法容易受到语料稀疏性的影响。该文提出一种基于事件本体的事件要素提取方法,该方法将事件要素推理分为两步: 一、通过事件要素词和事件指示词的位置关系来初步填充要素值,并将得出的置信度较高的事件作为种子事件;二、利用第一步得出的种子事件,查询事件本体中的事件类约束和基于事件非分类关系的推理规则,并对要素进行推理,进一步对事件要素进行填充和修正。实验结果表明,该方法能较好地提升事件要素提取的准确度。 相似文献
16.
采用基于BootStrapping的方法实现中文事件元素抽取系统。其中,将事件元素抽取定义为一个模式匹配问题。针对这一问题,首先构建了初始种子集,然后创新性地引入了BootStrapping方法构建模板集,并使用模式匹配的方法进行事件元素抽取。在模板构造过程中,提出了基于BestMatch的模板泛化算法[1]。对任意两个事件实例模板[2]进行匹配,计算其匹配代价并泛化,提高了模板的覆盖能力。所实现的系统在ACE 2005语料测试中取得了不错结果。 相似文献
17.
18.
19.
目前先进的事件论元抽取方法通常使用BERT模型作为编码器,但BERT巨大的参数量会降低效率,使模型无法在计算资源有限的设备中运行。提出一种新的事件论元抽取方法,将事件论元抽取教师模型蒸馏到2个不同的学生模型中,再对2个学生模型进行集成。构造使用BERT模型和图卷积神经网络的事件论元抽取教师模型,以及2个分别使用单层卷积神经网络和单层长短期记忆网络的学生模型。先通过均方误差损失函数对学生模型和教师模型的中间层向量进行知识蒸馏,再对分类层进行知识蒸馏,使用均方误差损失函数和交叉熵损失函数让学生模型学习教师模型分类层的知识和真实标签的知识。在此基础上,利用加权平均的方法对2个学生模型进行集成,从而提升事件论元抽取性能。使用ACE2005英文数据集进行实验,结果表明,与学生模型相比,该方法可使事件论元抽取F1值平均提升5.05个百分点,推理时间和参数量较教师模型减少90.85%和99.25%。 相似文献