首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
一种基于语义体系的同义词识别研究   总被引:6,自引:0,他引:6  
针对基于字面和词素相似度识别同义词的不足之处,首次引入《同义词词林》(以下简称《词林》),作为语义体系,提出了基于《词林》语义体系的同义词识别算法,并进行了词汇问的语义相似度度量,实现了同义词识别。实验结果表明,此方法在效率上远高于基于字面、词素相似度识别方法。  相似文献   

2.
基于同义词词林的词语相似度计算方法   总被引:1,自引:0,他引:1  
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。  相似文献   

3.
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。  相似文献   

4.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

5.
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。  相似文献   

6.
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。  相似文献   

7.
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.  相似文献   

8.
目前现场接触网吊弦缺陷图像严重不足,导致模型特征学习不充分,识别准确率难以得到有效提高,为此提出基于组合零样本学习的接触网吊弦线缺陷识别方法.采用以ResNet-50作为主干网络的视觉特征提取模块提取图像视觉特征;使用预训练的Word2Vec词向量对标签组合图中的节点特征进行初始化,并通过2层图卷积网络学习标签组合图中各节点之间的依赖关系,从而优化组合标签节点的语义特征,改善最终的识别效果;将提取到的视觉特征和优化后的组合标签节点的语义特征相对齐,构建相似度函数计算图像视觉特征与组合标签语义特征之间的相似度得分,并通过交叉熵损失完成图像组合标签的预测.仿真实验结果表明:所提方法对可见类样本的类平均检测准确率为93.5%,对不可见类样本的类平均检测准确率为86.5%.  相似文献   

9.
为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中...  相似文献   

10.
基于目前互联网的信息与日俱增而用户评论信息利用度很低的现状,提出了一种基于最大熵分类器进行评论信息抽取的方法,并结合自然语言处理技术,利用同义词林以及反义词林定位产品评论属性值的语义极性。最后,通过试验验证了评论信息抽取方法的可行性。  相似文献   

11.
针对开放文本中中文实体关系抽取的一词多义问题,提出一种基于实体消歧的中文实体关系抽取方法。首先,从知网中挖掘出具有潜在语义关系的实体对,并利用贝叶斯分类的语义消歧方法实现从知网到维基百科的实体映射,以获取高质量的关系实例;然后,根据这些关系实例抽取出其对应文本中共现的句子实例,构建基本的抽取模式;最后通过模式合并的方法生成新模式,再使用新模式来抽取新实例。实验结果表明,该方法与没有进行语义消歧和模式合并的方法相比准确率有所提高。  相似文献   

12.
一种基于树核函数的半监督关系抽取方法研究   总被引:1,自引:1,他引:0  
为了解决传统的半监督关系抽取算法易产生的"语义变异"问题,提出一种新的基于树核函数的半监督关系抽取算法。该算法主要采用树核函数和种子集约束扩展两个策略,弱化"语义变异"现象带来的关系抽取不够准确的问题,提高关系识别的正确率。在基准数据集PopBank上的试验研究表明,提出的使用约束机制扩充种子集的半监督学习方法在4个评价指标上(Precision, Recall, F-measure, Accuracy)均优于常用的两种关系抽取方法,从而验证了该算法与其他算法相比能够具有较好的关系抽取能力。  相似文献   

13.
实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,对句子语义理解及实体语义知识库构建有着重要作用。回顾了实体关系抽取的发展史,总结了有监督实体关系抽取、无监督实体关系抽取、半监督实体关系抽取和开放式实体关系抽取4类方法的原理和代表性研究,并对各类方法进行了详细比较。  相似文献   

14.
实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法—基于改进的BERT-BiLSTM-CRF命名实体识别算法;另一种是将注意力机制与句法语义特征相结合的新算法—基于注意力机制与语义结合的实体关系抽取算法。最后以石墨烯制备技术为例,利用数值实验说明改进的两种算法能够高效分析专利的内容,揭示石墨烯企业技术的动态演化过程。  相似文献   

15.
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法. 在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注. 在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集. 通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务. 与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差. 针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%. 该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集.  相似文献   

16.
In order to combine feature extraction operations with specific hyperspectrai remote sensing information processing objectives, two aspects of feature extraction were explored. Based on clustering and decision tree algorithm, spectral absorption index (SAI), continuum-removal and derivative spectral analysis were employed to discover characterized spectral features of dif-ferent targets, and decision trees for identifying a specific class and discriminating different classes were generated. By combining support vector machine (SVM) classifier with different feature extraction strategies including principal component analysis (PCA), minimum noise fraction (MNF), grouping PCA, and derivate spectral analysis, the performance of feature extraction approaches in classification was evaluated. The results show that feature extraction by PCA and derivate spectral analysis are effective to OMIS (operational modular imaging spectrometer) image classification using SVM, and SVM outperforms traditional SAM and MLC classifiers for OMIS data.  相似文献   

17.
以“公司人事变动”领域为例,针对实体关系抽取课题,从知识自动获取角度出发,基于Bootstrapping思想提出了层次知识获取模型,利用内外两层模块相互嵌套自动获取知识,获得了实体关系分析所需要的领域专用词典和模板规则。结合全信息理论,对模板添加语义和语用标注,生成全信息知识库。在此基础上,完成关系抽取实验和评测。  相似文献   

18.
针对流程相似度计算研究中注重流程结构而缺乏兼顾流程语义的问题,以及现有相似度计算方法在计算复杂度上的不足,提出一种基于流程综合特征提取的相似度计算模型.基于流程基本控制结构分析,提出边权重标注方法以扩展现有流程结构,提取流程结构特征;定义流程高层语义模型及其对应特征提取方法;融合了节点集、边集相似度,给出新的流程结构相似度定义,利用集合关系和向量空间模型计算流程语义相似度;通过加权实现综合流程相似度评价,并采用权重参数调节的方式实现了同已有相似度计算方法的自适应转化.将本文模型与典型相似度计算方法进行了实验对比,结果表明,面向综合特征提取的流程相似度计算方法更具普适性,同时具有更高效的计算能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号