共查询到19条相似文献,搜索用时 968 毫秒
1.
2.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。 相似文献
3.
基于CRF算法的汉语比较句识别和关系抽取* 总被引:7,自引:2,他引:5
比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。 相似文献
4.
为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题.在事件句的识别上,提出了基于SVM的有监督算法.对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角... 相似文献
5.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。 相似文献
6.
在临床文本中,时间关系对于研究患者的病情和治疗方案至关重要。而目前的时间关系抽取基于简单时间比较,仅判断4种时间关系。考虑中文临床文本中还存在大量的复杂时间和关系,现有时间关系抽取任务不能全部表达临床事件的时间关系,参考CTO时间本体将抽取任务扩展为复杂时间关系抽取。同时针对中文临床文本语义的复杂性,提出了融合依存句法和实体信息的模型学习中文句子的整体信息和实体信息。该模型针对句内时间关系和句间时间关系设计依存特征矩阵引导BERT的编码器聚合全局信息和局部信息,然后导出句子表征向量,在此基础上使用内积和哈达玛积提取丰富的实体信息,最终将句子信息和实体信息导入分类器判断时间关系。与基线模型和其他深度学习模型相比,证明了该模型的有效性。 相似文献
7.
汉语比较句识别研究 总被引:2,自引:0,他引:2
比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。 相似文献
8.
9.
10.
基于转换的时间-事件关系映射 总被引:5,自引:5,他引:0
近些年来,中文时间信息抽取和处理已经变得越来越重要。然而,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后,系统的时间-事件映射错误率减少了9.74%,实验结果表明本系统对基于规则的方法有很好的改进效果。 相似文献
11.
汉语时间关系抽取与计算 总被引:1,自引:1,他引:0
时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。 相似文献
12.
汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。 相似文献
13.
14.
15.
针对仪表液晶显示字符识别问题,提出一种结合了卷积神经网络(CNN)和支持向量机(SVM)的
字符识别方法。分别采用具有并联结构的 CNN 模型和基于梯度方向直方图(HOG)特征的 SVM 方法构建基本分
类器,当 2 个分类器的结果存在冲突时,利用 CNN 的 softmax 输出最大值判决最终结果,当其大于设定阈值
时采用 CNN 分类器的结果,反之采用 SVM 分类器的结果。建立字符图像的误差模型并利用仿真方法构建了
数据集用于分类器的训练和测试,给出一种基于投票原理的最优阈值的估计算法。在 MNIST 和仿真数据集上
的测试实验结果表明,最优阈值估计算法的结果可靠,组合分类器的准确率较 2 种单一分类器均有提高,在实
际测试系统上其准确率达到 99.81%,验证了该组合分类器方法对液晶字符识别问题的有效性;在 CIFAR-10 数
据集上的实验结果验证了该方法也可用于其他分类问题。 相似文献
16.
为增加向量空间模型的文本语义信息,提出三元组依存关系特征构建方法,将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上,先依据中文语法特点,制定相应规则对原有完整树进行冗余结点的合并和删除;再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性,构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明,三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法,进一步说明三元组依存关系特征能更充分表达文本语义信息。 相似文献
17.
模糊时态数据库关系代数演算规则分析 总被引:1,自引:0,他引:1
为了解决时态数据库对客观世界更符合实际抽象描述,能有效表示和处理复杂对象的模糊时态特性,从基本模糊时态数据模型入手,定义了一系列模糊时态关系操作元素,并论证了模糊时态区间关系代数的语法和语义,建立了一个能描述模糊时态信息的关系代数理论体系.避免了时态数据库不能提供表达模糊时态信息的环境设施,也增强了现有的时态数据库描述模糊事物特性的能力. 相似文献
18.
词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则,形成有范畴转换机制的组合范畴语法C2-CCG。研究表明这种基于词组本位的形式语法有希望解释中文句法中各种转类套叠。 相似文献