首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果.  相似文献   

2.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

3.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

4.
一种快速KMSE算法及其在异常入侵检测中的应用   总被引:1,自引:1,他引:0  
为提高核最小均方误差(Kernel Minimum Squared Error,KMSE)方法的计算效率,利用特征空间中不相关的样本矢量("基样本"),提出了一种快速KMSE算法,并利用"基样本"与一个样本间的核函数对该样本抽取特征.在入侵检测数据集KDDCUP1999和其他基准数据集上实验表明:该方法不仅高效,并且分类和检测效果良好,"基样本"只占训练样本的很小一部分比例,使用它们可以显著提高特征抽取效率.  相似文献   

5.
针对基于特征向量的实体关系抽取方法中分类算法分类精度的不足,提出了基于集成学习算法的实体关系抽取方法.该方法将实体特征组合并转化为特征向量,使用集成学习中的ADABoost.MH算法来构造实体关系抽取的分类器,弱分类器采用决策树进行构造,通过提高分类效果好的分类器的权重和分类错误样本权重的方式来提高分类的精度,从而实现实体关系类别的识别.该方法在对《人民日报》语料库的测试中,得到了比较好的效果.  相似文献   

6.
针对人工设计的中低层特征难以对LiDAR数据进行高精度分类以及泛化性能较低等问题,提出了一种基于集成卷积神经网络的LiDAR数据分类方法.它是基于深度学习模型与随机子空间的集成学习框架.通过有放回的随机抽取LiDAR训练集构成子集,以深度卷积神经网络模型为单个子分类器,最后采用多数投票法确定最终样本的类别,以获得更好的...  相似文献   

7.
分类特征规则的数据挖掘技术   总被引:4,自引:0,他引:4  
在浩翰的数据资源中发现并提取有价值的知识,是目前数据库研究的热点问题,为此,运用集合理论对关系数据库进行数据分类,抽取它们的共同特征,讨论了分类特征规则的基本模型,给出了发现算法;通过实例分析表明:该算法能够快速发现分类特征规则,具有现实意义.  相似文献   

8.
为了提高分类正确率和减少训练时间,将特征抽取技术与分类算法结合,提出了一种基于KFDA-SVM的入侵检测技术。采用KFDA抽取最佳鉴别矢量,运用SVM对投影后的数据分类。同时根据入侵数据高维异构小样本的特性,提出一种基于HVDM的混和核函数。采用KDD 99数据集进行试验,验证了该算法的有效性。  相似文献   

9.
采用生物信息学方法对肿瘤基因表达数据进行挖掘,以获取和肿瘤不同亚型相关的候选标志基因集合,应用机器学习方法从标志基因集合中提取出甄别肿瘤不同亚型的规则集,进而建立起肿瘤预测模型.利用Relief、信息增益和分类信息指数从不同角度挖掘蕴含在基因表达谱中的候选特征基因,抽取出候选特征基因公约集合.以对不同肿瘤组织样本的识别能力为依据,选取分类能力最强的一组基因集合作为特征基因.利用规则判定树提取出反映这些特征基因相互作用的规则集并以此构建肿瘤预测模型,并将此模型应用于白血病基因表达数据中,建立了白血病分子预测模型.研究表明,该模型得到的白血病标志基因对肿瘤临床诊断具有一定的参考价值.  相似文献   

10.
提出基于宽度学习系统的功能性磁共振成像(fMRI)数据分类方法,通过简单结构提取fMRI数据的深层特征,加快分类速度. 使用fMRI中感兴趣区域体素均值的时间序列构造输入数据,分别提取fMRI数据的浅层和深层特征,映射为宽度学习的特征节点和增强节点并构建模型框架,利用岭回归逆计算分类模型的连接权值,实现对fMRI数据的分类. 使用ABIDE Ⅰ、ABIDE Ⅱ和ADHD-200数据集,将所提方法与6种分类方法进行对比实验,结果表明,所提方法可以在保持良好的分类准确率的同时,大幅度降低训练时间.  相似文献   

11.
基于DNA微阵列数据的特征子空间集成分类   总被引:2,自引:1,他引:1  
针对DNA微阵列数据应用于临床诊断时分类准确率过低的问题,结合其高维小样本的特点提出了一种特征子空间集成分类方法。该方法首先通过层次聚类与信噪比特征选择策略将原始训练数据集映射到一个非冗余的特征基因空间,然后随机抽取一些特征子空间构成训练子集并应用支持向量机训练基分类器,最后采用多数投票的方式决定测试样本的类属。最后在4个标准的微阵列数据集上与其他方法进行了对比实验,结果证明了本文方法的有效性。  相似文献   

12.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

13.
数据分类是数据挖掘的一个重要功能,神经网络以其良好的抗噪性和鲁棒性而成为一种广泛使用的数据挖掘工具,尤其是运用在数据分类中.但是,神经网络对用户来说是一个黑箱,所获得的知识隐含在神经网络的连接权中而难以理解.针对这种情况,建立了一个基于神经网络的数据分类系统模型,通过数据处理、网络训练、规则抽取等几个阶段,达到将获得的知识清晰化的目的.在系统中,首先对连续性数据作规一化和对语义性数据进行编码;然后经过网络训练而获取知识;规则抽取采用功能性方法:即把神经网络视为黑盒,随机产生输入得到相应的输出组成实例,然后采用Rough集的方法进行约简得出规则.  相似文献   

14.
基于邻域关系的网络入侵检测特征选择   总被引:1,自引:0,他引:1  
入侵检测数据集具有数据量大、特征敷众多、连续型数据的特点.粗糙集是一种有效处理不确定性、不一致性、海量数据的有效分类工具,其特点是保持入侵检测数据集的分类能力不变,进行特征选择.为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失,引入邻域粗糙集模型,提出基于邻域关系的网络入侵检测数据特征选择方法.该方法从所有特征出发,根据特征重要度逐步删除冗余的特征,最后得到关键特征组进行分类研究.在CUP99入侵检测数据集上进行特征选择,并进行了分类实验,实验结果表明该方法是有效可行的.  相似文献   

15.
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.  相似文献   

16.
为提高地理空间数据集成抽取的查准率和查全率,提出了基于机器学习的地理空间数据抽取算法。以GeoNames、OpenStreetMap等作为地理信息数据源,通过网络爬虫以及搜索引擎检索同时下载有关网页,并对内容进行过滤,过滤后对网页中的地点名称及地址信息等数据进行解析抽取,实现其可视化。分析抽取得到的地理数据实体,利用地理数据与实体之间的映射,将异构地理数据的歧义消除,实现地理空间数据一体化,并依据实体名称、类别等多特征相似程度计算,实现地理数据特征数字化。结合多特征、机器学习KNN分类法完成地理数据链接自动化,实现地理空间数据的分类抽取。通过实验对本文算法进行验证,结果表明:本文算法具有较高的查准率和查全率,数据抽取效果良好,可为地理数据集成提取奠定基础。  相似文献   

17.
深度自编码网络在入侵检测中的应用研究   总被引:1,自引:0,他引:1  
当前网络环境下的网络数据呈现出比以往更为庞大、复杂和多维的特性,传统的机器学习方法面临复杂的高维数据需要手动提取大量特征,特征提取过程复杂且计算量大,不利于当前入侵检测实时性和准确性的要求.基于此,以降低数据维度和消除冗余信息为目的,综合利用深度自编码网络(DAN)和BP算法,提出了基于DAN-BP的入侵检测模型.首先通过叠加多个自编码网络构成深度自编码网络模型,将网络特征数据作为模型的输入,使模型能够智能的逐层抽取网络数据的分布规则,从而获得新的低维特征数据集;然后利用BP算法对学习到的低维数据进行分类识别.文中通过在自编码网络中加入正则化修正,防止训练出的自编码网络直接复制输入信息而影响训练效果;且在输入数据中添加噪声,通过学习原始数据和输出数据重构误差达到去噪的目的,从而使得学习到的新的特征数据具有更强的鲁棒性.对比了传统的降维方法和当前入侵检测方法,结果表明本文方法在分类准确率、误报率和检测速率上均具有较优的效果.  相似文献   

18.
PCA方法抽取出的主分量特征与ICA方法抽取出的独立分量特征是对原数据的两类不同描述.PCA是一种基于二阶统计的最小均方误差意义上的最优维数压缩技术,PCA方法所抽取特征的各分量之间是统计不相关的.ICA方法使用数据的二阶和高阶信息抽取数据的独立分量特征.文章对这两种方法做了理论上的比较,并通过实验证明ICA算法提取的特征子空间在人脸识别应用中更有效,识别率更高.  相似文献   

19.
目的 为提高在线手写签名认证的速度,提出一种基于频域分析的在线手写签名认证算法,用于在线手写签名认证的粗分类.方法 首先使用快速傅立叶变换对在线手写签名原始特征向量进行映射,然后抽取低频信息构成新的特征描述,最后使用加权认证算法实现在线手写签名的认证.结果 算法提高了在线手写签名认证的速度,且在SVC2004task2数据集上取得的ERR为10%.结论 快速傅立叶变换抽取频域特征易于区分伪造签名,且快速有效.依据用户各种特征稳定程度进行加权认证,提高了系统的鲁棒性.  相似文献   

20.
复杂背景下的车型自动分类研究   总被引:1,自引:0,他引:1  
针对复杂背景下的车辆自动分类问题,提出了一种新的车型识别方法.该方法是首先采用自适应高斯混合模型进行背景抽取,然后以背景抽取后的车辆侧面图像作为特征图像,设计了顶长比、顶高比和前后比3种参数对车型进行表达,最后通过训练—BP神经网络分类器对车型进行自动分类.对9个样本进行分类测试时,取得了均方误差小于0.0023、识别率达到100%的测试结果,表明笔者设计的车型分类系统可有效地实现车型的自动分类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号