期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李玉鑑李玉雄冷强奎《计算机工程与应用》2014,(10):136-140,265

非凸在线支持向量机（LASVM-NC）具有抗噪能力强和训练速度快的优点,而词频相关频率积（tf.rf）则是一种自适应能力很强、分类性能非常好的文本特征。通过把非凸在线支持向量机和词频相关频率积相结合,提出了一种新的文本分类方法,即LASVM-NC＋tf.rf。实验结果表明,这种方法在LASVM-NC与多种其他特征的结合中性能是最好的,且与SVM＋tf.rf相比,不仅所产生的分类器具有泛化能力更强、模型表达更稀疏的优点,而且在处理含噪声的数据时具有更好的鲁棒性,在处理大规模数据时具有快得多的训练速度。相似文献

2.

基于二元模糊匹配的编程题智能评分方法

冷强奎刘雨晴秦玉平《计算机技术与发展》2020,(2):71-74

针对传统编程题自动评分方法不能准确衡量学生程序与参考答案之间的接近程度等问题,提出了一种基于二元模糊匹配的编程题智能评分方法。第一元为结构匹配,检测学生程序在变量声明、数据输入、函数调用、控制结构等方面与参考答案的相似程度,目的是快速判断学生程序中是否存在关键的采分点。第二元为词语匹配,首先进行词频统计,以确定每个词的权重。然后,分别构造学生程序与参考答案的向量空间模型,并计算两者的余弦相似度,来作为评判词语相似的依据。最终的分数由结构相似度和词语相似度的加权分数计算得出。由于该二元匹配方法不关心程序中结构/词语的先后顺序和是否为精确表达,因此被称为是模糊的。仿真实验表明,该方法具有不错的评分准确性,尽管与人工评分相比还存在一定的差距,但当试题规模较大时,可以作为人工评分的替代手段。相似文献

3.

基于最近邻子空间搜索的两类文本分类方法

下载免费PDF全文

李玉鑑王影冷强奎《计算机工程与科学》2015,37(1):168-172

在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。相似文献

4.

基于Tomek链的边界少数类样本合成过采样方法

陶佳晴贺作伟冷强奎翟军昌孟祥福《计算机应用研究》2023,40(2)

在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek 链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术（SMOTE）中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了8种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F1值。相似文献

5.

带有超长方体约束的少数类样本生成机制

贺作伟陶佳晴冷强奎翟军昌孟祥福《计算机应用研究》2022,39(10)

合成少数类过采样技术（SMOTE）是解决类不平衡问题的有效方法之一。但是,SMOTE的线性插值机制将合成样本限制在原始样本的连线上,导致新样本缺乏多样性,并且这条连线穿过多数类区域时可能会生成噪声样本。针对上述问题,提出一种带有超长方体约束的少数类样本生成机制。该机制使用超长方体作为新样本的生成区域来代替线性插值,以增加合成样本与原始样本的差异性。并通过检测超长方体内是否存在多数类样本来决定是否修正此超长方体,从而防止新合成样本落入多数类区域内。使用所提机制替换线性插值,并集成在SMOTE、Borderline-SMOTE和ADASYN三种过采样方法中,然后在KEEL的11个标准数据集上进行了实验评估。结果表明,相比于原始方法,集成后的方法能够帮助分类器取得更高的F1值和相当的G-mean。这说明超长方体生成机制能够显著改善分类器对少数类样本的识别能力,并且能够兼顾到多数类样本。相似文献

6.

一种基于混合二叉树结构的多类支持向量机分类算法

冷强奎刘福德秦玉平《计算机科学》2018,45(5):220-223, 237

为提高多类支持向量机的分类效率,提出了一种基于混合二叉树结构的多类支持向量机分类算法。该混合二叉树中的每个内部结点对应一个分割超平面,该超平面通过计算两个距离最远的类的质心而获得,即该超平面为连接两质心线段的垂直平分线。每个终端结点(即决策结点)对应一个支持向量机,它的训练集不再是质心而是两类(组)样本集。该分类模型通常是超平面和支持向量机的混合结构,其中超平面实现训练早期的近似划分,以提升分类速度;而支持向量机完成最终的精确分类,以保证分类精度。实验结果表明,相比于经典的多类支持向量机方法,该算法在保证分类精度的前提下,能够有效缩短计算时间,提升分类效率。相似文献

7.

软间隔组合凸线性感知器设计

冷强奎李玉鑑《模式识别与人工智能》2013,26(10):924-934

组合凸线性感知器是用来构造分片线性分类器的一个通用理论框架。对于凸可分和叠可分情况,分别使用支持凸线性感知器算法和支持组合凸线性感知器算法将两类样本分开。在此基础上,文中提出一种软间隔的组合凸线性感知器设计方法。该方法首先映射原空间数据到高维特征空间,然后利用K均值算法将其中一类样本聚类成多个簇,并在每一簇与另一类样本间构造凸线性感知器,最后集成组合凸线性感知器。该方法能解决原感知器模型不适用非叠可分数据的问题,并且在一定程度上简化模型结构,在保证分类精度的前提下,提高泛化能力。实验结果证实文中方法的有效性,同其它分片线性分类器的对比也说明了它的优势。相似文献

8.

基于句子相似度的论文抄袭检测模型研究

下载免费PDF全文

冷强奎秦玉平王春立《计算机工程与应用》2011,47(24):199-201

提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。相似文献

9.

ASP程序访问SQL SERVER数据库基本操作

冷强奎《福建电脑》2008,24(6):177-178

本文分析了ASP程序访问SQL SERVER数据库的现实意义,利用两个具体实例（用户登录验证和新用户注册程序）来阐述嵌入式SQL操作方式,总结控制连接对象和记录集对象四大步骤,并且在实际运用中采用DSN-LESS模式以求得达到最大效能,节省系统资源。相似文献

10.

基于局部词频指纹的论文抄袭检测算法

下载免费PDF全文

秦玉平冷强奎王秀坤王春立《计算机工程》2011,37(6):193-194

提出一种基于局部词频指纹的论文抄袭检测算法。将句子看成文档的基本构成元素,对其进行有效关键词提取排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。在新闻网页精简集SOGOU-T上的实验结果表明,该算法在一定程度上克服了现有论文抄袭检测算法检测精度低的缺点,具有较快的检测速度。相似文献