首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
目前,信息抽取研究主要面向肯定性信息,而自然语言文本中包含了大量否定性和不确定性信息,为了将此类信息与肯定性信息区分开,有必要针对否定性与不确定性信息抽取进行深入研究.针对这一任务,首次构建了一个16 841句的汉语语料资源,利用序列标注模型与卷积树核模型,系统地探索了各种序列化依存特征和结构化句法树特征的有效性,并提出了元决策树模型,对二者进行融合.实验结果显示,该方法在否定性和不确定性信息抽取任务上的精确率分别达到69.84%和58.57%,为相关研究打下了坚实的基础.  相似文献   

2.
为全面实现歧义消解,对知识库自然语言中歧义字段自动识别系统设计。利用互信息进行歧义字段特征识别,采用正向与逆向相结合的提取方式,将字段特征集合描述为二维向量,通过循环方式提取歧义字段显性特征;建立模型进行最优线性分类识别,选择最佳样本识别条件,建立最优分类超平面并确立分类函数。通过性能衡量指标构建软硬件系统结构,结合识别算法设置工作流程,经功能设计进一步提高识别精度。仿真实验表明该系统不受数据规模影响,可有效提高识别精度,减少系统处理时间,实现对歧义字段的高精度、高效率识别。  相似文献   

3.
具有概念漂移的数据流分类应用场景逐渐增多,如何解决该类问题成为研究热点.文中根据数据流概念漂移特征,结合增量学习原理实现基于样本不确定性选择策略的增量式数据流分类(IDSCBUC)模型.分类模型用支持向量机作为训练器,基于当前分类器从相邻训练集中按照样本不确定性值选择出"富信息"样本代表新概念样本集,把新概念样本集与支持向量集合并更新分类器,形成新的分类模型.理论分析和实验结果表明该方案是可行的,且具备抗噪声能力.  相似文献   

4.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

5.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

6.
该文是对当前支持向量机在文本分类上的应用进行研究。先介绍了支持向量机的基本方法.再通过对不同方法的支持向量札分类算法的比较,进行一个总体酌描述和概括开对未来发展发向做了一个预测。  相似文献   

7.
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。  相似文献   

8.
郝海涛 《福建电脑》2009,25(3):83-84
本文对基于向量机的文本分类技术进行了分析和探讨之后,提出了一种新的词典机制和数据结构,经过理论分析和实验验证。证明该方法对于文本数据具有良好的分类能力。  相似文献   

9.
刘清  陈炼  吕静 《现代计算机》2007,(10):14-16,57
介绍基于SVM的网络文本信息自动分类算法,该算法在训练阶段将一个大型数据集分成许多不相交的子集,按批次对各个训练子集中的样本进行训练而得到多个分类器,利用误差纠错输出编码优化分类器,从而减少较深层次训练需要学习的文档.  相似文献   

10.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

11.
介绍了一个智能的互联网信息采集工具,它支持用户用自然语言查询,用知网抽取出查询语句中的关键词,进行自动分类,并自动去元搜索引擎上检索,生成网页搜索结果。该系统在准确率保持和手工获取相差不多的情况下,大大缩短了获取信息的时间,节省了人力。  相似文献   

12.
文章指出概率的多重不确定性常被忽视,概率值和相应集合可能是不确定的,造成了概率论和信息论的局限,分析了信息多重不确定性和信息可靠性之间的关系,对信息多重不确定性在信息安全中的应用进行了展望。  相似文献   

13.
对数据信息不确定性的度量是学术界和工业界十分关注的课题,目前常用的不确定性度量方法基本上是基于方差或信息熵的,在方差计算的基础上提出了一种简单的度量方法来度量随机数据的不确定性,这种度量方法基于累积方差但与传统方的基于方差的形式有所不同,和信息熵具有类似的表示意义而且计算度更快,分析结果表明该方法可以在对离散随机数据的...  相似文献   

14.
从自动测试系统(ATS)的组成机理出发,提出一种ATS测量不确定度评定方法;其基本过程是首先基于测量信号路径,建立相应的测量链;其次,计算各个传递单元的不确定度,静态测量、动态测量分别选用贝叶斯信息融合法和贝叶斯预测法进行评定;最后,利用蒙特卡罗(MC)法计算各链的合成不确定度;通过某ATS中具体的测量链作为实例,重点分析了动态测量不确定度评定过程中遇到的不同情况及解决办法;实验表明,较其它常用评定方法,该法评定ATS静态测量得到的结果更接近理论值,不确定度变化小,评定动态测量得到结果更符合ATS动态特性且精确度高.  相似文献   

15.
提出一种基于多范畴属性约简和复合相似度计算的自动分类方法。在分类中引入分类决策属性,然后计算各范畴的决第类和广义决策类,获得多范畴分类属性的约简集族,并依此计算多范畴信息分类对象的复合相似度,并依计算结果对分类对象进行排序和标引,实现自动分类。此方法有效地解决了多范畴不完备信息系统的自动分类问题,通过与Google自建分类系统的对比分析,验证了建立在此方法基础之上的多范畴信息分类系统在查全率和查准率方面明显优于传统的自动分类系统。  相似文献   

16.
自然语言处理在信息检索中的应用综述   总被引:5,自引:0,他引:5  
在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为: 自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。最新的一些进展(例如在语言模型中加入自然语言处理)在一定程度上印证了这一结论。  相似文献   

17.
针对现有蝴蝶识别研究中所用数据集蝴蝶种类偏少,且只含有蝴蝶标本照片、不含生态环境中蝴蝶照片的问题,发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,其中标本照片包含全部中国蝶类志蝴蝶种类,共计4270张照片、1176种,蝴蝶生态环境下照片1425张、111种.提出基于深度学习技术Faster R-CNN的蝴蝶种类自动识别系统,包括生态照片中蝴蝶位置的自动检测和物种鉴定.实验去除只含有单张生态照片的蝴蝶种类,对剩余的蝴蝶生态照片进行5-5划分,构造2种不同训练数据集:一半生态照片+全部模式照片、一半生态照片+对应种类模式照片;训练3种不同网络结构的蝴蝶自动识别系统,以平均精度均值(mean average precision, mAP)为评价指标,采用上下、左右翻转、不同角度旋转、加噪、不同程度模糊、对比度升降等9种方式扩充训练集.实验结果表明,基于Faster R-CNN深度学习框架的蝴蝶自动识别系统对生态环境中的蝴蝶照片能实现其中蝴蝶位置的自动检测和物种识别,模型的mAP最低值接近60%,并能同时检测出生态照中的多只蝴蝶和完成物种识别.  相似文献   

18.
针对不确定信息系统属性约简问题,提出一种基于颗粒细度的属性约简方法。给出一个以粒细度为属性重要性的概念,并用此重要性作为启发信息进行属性的约简。从原始的不确定信息系统出发,定义一个利用粗糙集中的等价关系构建相容的粒度空间,从而缩减原始系统所占用的空间,避免计算时对象的重复。实现计算量的降低。  相似文献   

19.
龚芝  陈志伟  马凌 《测控技术》2018,37(11):116-119
不确定性度量是智能计算等领域中一个重要的研究问题。在不完备信息系统中,为了融合众多不确定性度量方法的优点,引入近似粗糙度度量方法,由于该度量方法存在一定的缺陷,接着在近似粗糙度中融合知识粒度度量,提出一种新的不确定性度量方法,同时在所提出度量方法的基础上加入了一个平滑因子,以提高该度量方法在不确定性度量时的适用性。实验结果表明所提出的方法具有更好的不确定性度量效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号