首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 606 毫秒
1.
语义关系识别是对文档进行处理识别出包含的语义关系的过程,是构建本体重要组成部分之一.在石油领域本体的构建过程中,由于石油领域的文档具有组合词多的特点,语义关系识别更加困难.目前使用的语义识别算法主要是基于关联规则的识别算法,但此类算法没有领域针对性.通过分析石油文档的特点,提出一种基于改进词向量的石油文档语义关系识别算法,以连续词袋(Continuous Bag-Of-Words,CBOW)模型为基础,对石油专业术语进行扩展训练,引入负采样和二次采样技术提高训练准确率和效率,利用向量特征训练支持向量机(Support Vector Mechine,SVM)分类器进行语义关系识别.实验结果表明,该方法训练的词向量能够准确识别石油领域的语义关系,在石油领域具有明显的优势.  相似文献   

2.
基于ROC曲线的AUC评估方法能有效评估二类分类器的性能,但是该方法只能评估分类器的总体性能,对代价信息不敏感.基于AUC方法提出用AUCCH方法评估二类分类器性能,该方法在具体代价信息下能分辨出最优分类器,在代价信息未知时能分辨出潜在最优分类器.在MBNC实验平台下编程实现,通过对AUC方法和AUCCJ方法实验结果的比较,表明该方法具有有效性和健壮性.  相似文献   

3.
为了获得高效的超文本分类算法,提出了一种新的协调分类超文本算法,并将k-NN,Bayes和文档相似性引入了超文本分类领域,且这对3种分类器的超的分类效果进行了实验比较,最终得出一个高效的超文本分类器,目前,该方法已应用于新开发的两个实验系统;智能搜索引擎系统WebSearch和智能软件助理WebSoft。  相似文献   

4.
提出一种基于类别信息的分类器集成方法Cagging.基于类别信息重复选择样本生成基本分类器的训练集,增强了基本分类器之间的差异性;利用基本分类器对不同模式类的分类能力为每个基本分类器设置一组权重.使用权重对各分类器输出结果进行加权决策,较好地利用了各个基本分类器之间的差异性.在人脸图像库ORL上的实验验证了Cagging的有效性.此外,Cagging方法的基本分类器生成方式适合于通过增量学习生成集成分类器,扩展Cagging设计了基于增量学习的分类器集成方法Cagging-Ⅰ,实验验证了它的有效性.  相似文献   

5.
结构化集成学习垃圾邮件过滤   总被引:4,自引:0,他引:4  
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5).  相似文献   

6.
本文讨论了多分类器组合中的分类器选择问题,提出一种基于遗传算法的分类器选择算法,此算法可以快速选出有效的分类器参与组合.文中给出了指定分类器数目和任意分类器数目两种情况下分类器选择的算法.最后在CENPARMI手写体数字数据库上验证了我们的算法和结论.实验结果表明,此种分类器选择算法具有较好的性能.  相似文献   

7.
基于多重判别分析的朴素贝叶斯分类器   总被引:4,自引:1,他引:4  
通过分析朴素贝叶斯分类器的分类原理,并结合多重判别分析的优点,提出了一种基于多重判别分析的朴素贝叶斯分类器DANB(Discriminant Analysis Naive Bayesian classifier).将该分类方法与朴素贝叶斯分类器(Naive Bayesian classifier, NB)和TAN分类器(Tree Augmented Naive Bayesian classifier)进行实验比较,实验结果表明在大多数数据集上,DANB分类器具有较高的分类正确率.  相似文献   

8.
一种基于领域本体的新术语扩充方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于领域本体的新术语扩充方法。结合传统基于统计和基于规则的方法,计算词语在文档中的影响程度,使用领域本体体现领域知识,通过在文档中识别出本体中概念计算文档及词语的领域相关度,获得术语候选项的推荐排序,对术语候选项结果进行优化。实验结果证明了该方法的有效性和可行性。  相似文献   

9.
二类分类器的ROC曲线生成算法   总被引:7,自引:0,他引:7  
ROC曲线分析技术越来越多地被应用在机器学习和数据挖掘领域中,用来全面度量分类器的性能.ROC曲线分析是对分类器性能的二维描述,它对类分布和不同错误分类代价不敏感,但直观、可理解等特性使它在类分布未知的领域和代价敏感学习中变得越来越重要.准确高效地绘制出分类器的RCC曲线是使用ROC曲线分析技术及其AUC方法全面度量分类器性能的基础,也是进行代价敏感学习的关键.文中将从理论和具体实现两方面分别对二类分类器的ROC曲线生成算法及绘制ROC曲线的具体过程做详细阐述,基于MBNC实验平台,使用MATLAB语言构建该算法,进而比较不同分类器在不同类分布下的分类性能.通过观察实验结果可知,提出的ROC曲线生成算法准确可行,符合实际.  相似文献   

10.
EDI电子数据交换作为一种信息技术,目前已经广泛应用在航运领域.然而由于各个国家乃至各个航运公司所用的EDI报文格式和系统都不相同,导致数据流通性差.为了解决航运领域信息共享存在的语义异构问题,本文将本体的概念引入到了航运领域之中,并且提出了一种基于XSLT转换技术和XPath路径语言的本体构建方法,实现了将航运业务的XML Schema结构文档中半自动化的转换成OWL语法的本体文档,建立了航运领域本体.实验表明,该方法能够大大提高本体的构建效率,并在一定程度上保证了本体的正确性.  相似文献   

11.
Automatic Classification of Provisions in Legislative Texts   总被引:1,自引:1,他引:0  
Legislation usually lacks a systematic organization which makes the management and the access to norms a hard problem to face. A more analytic semantic unit of reference (provision) for legislative texts was identified. A model of provisions (provisions types and their arguments) allows to describe the semantics of rules in legislative texts. It can be used to develop advanced semantic-based applications and services on legislation. In this paper an automatic bottom-up strategy to qualify existing legislative texts in terms of provision types is described.  相似文献   

12.
一种基于扩展的两步文本倾向性分析方法   总被引:1,自引:0,他引:1  
提出一种基于扩展的两步文本倾向性分析方法,该方法利用包含倾向性词表、否定词表、程度词表在内的情感词语对训练文本进行特征扩展,按照将情感词语和内容词语是否同等对待来构造两个分类器CF1和CF2;在分类时,对测试文本进行和训练文本类似的特征扩展,使用分类器CF1对其进行分类,对分类结果中的可靠部分直接做出判定,对分类结果中的不可靠部分利用分类器CF2进行二次分类并做出判定。实验结果验证了该方法的有效性。  相似文献   

13.
基于模糊聚类和Naive Bayes方法的文本分类器   总被引:3,自引:0,他引:3       下载免费PDF全文
本文提出一种文本分类的新方法,该方法将模糊聚类与基于Naive Bayes的EM分类算法相结合,从而大大提高了EM分类算法的准确性,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词,并把这些关键词作为聚类中心进行聚类,然后使用距离聚类中心较近的文档启动一个引导过程。  相似文献   

14.
张堃  张习文 《计算机应用研究》2008,25(11):3486-3489
在识别矢量笔迹文本时,不同类型单字需要采用不同识别器,确定详细类别是单字识别的前提。对实际中文矢量笔迹文本中单字进行汉字、标点、数字、字母和单词的详细分类,提出了自身和相对(包括近邻和同行)特征,选用决策树、逻辑模型树、贝叶斯网络和支持向量机四种分类器。针对大量实际数据,测试和比较了多种特征和分类器的性能。实验表明,近邻单字的组合特征具有较好的分类能力,支持向量机对各种单字均有较好分类性能。  相似文献   

15.
为提高机构名识别精度,满足关系抽取等下游任务的需求,提出分阶段细粒度命名实体识别思想.利用Bert-BiLSTM-CRF模型对机构名进行粗粒度识别,将机构名视为短文本,采用Bert-CNN对构建的机构名词典训练细粒度分类模型,获取机构名的细粒度标签.实验结果表明,提出的分阶段方法在细粒度机构名识别上F1值最佳达到了0....  相似文献   

16.
A natural-language text classifier is developed using an artificial neural network. A model of the classifier and its implementation are proposed. The classification system consists of two main components, namely, a frequency analyzer and a neural network classifier. Before using the classifier, the user should first prepare a set of training texts and then train the classifier. __________ Translated from Kibernetika i Sistemnyi Analiz, No. 3, pp. 169–176, May–June 2007.  相似文献   

17.
篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank, CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。  相似文献   

18.
词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。  相似文献   

19.
N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征。针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法。该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型。在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Baggrog算法,并且取得了比单分类模型更好的识别性能。  相似文献   

20.
微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号