期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宁葵龙珑覃晓钟智苏毅娟陈万雷宁德鹏《计算机应用研究》2010,27(13)

相似文献

2.

李永钢苏毅娟何威雷聪《计算机应用研究》2017,34(6)

针对传统谱聚类算法仅考虑数据点对点间的相互关系而未考虑数据间可能隐藏的复杂的相关性的问题,提出一种基于超图和自表征的谱聚类方法。首先,建立数据的超图,得到超图的拉普拉斯矩阵表示;然后,利用L2,1-范数对样本进行行稀疏自表征,同时融入超图来描述数据间多层次的相互关系;最后,利用生成的自表征系数进行谱聚类。利用基于超图的样本自表征技术考虑了样本之间复杂的相关性。通过在Hopkins155等数据集上的实验表明,在聚类错误率评判标准下,算法优于现有基于普通图的谱聚类算法SSC、SRC等。相似文献

3.

基于GA与PSO混合优化的Web文档聚类算法

黄发良苏毅娟《小型微型计算机系统》2013,34(7)

Web文档聚类是web数据挖掘的重要任务之一,针对Web文档向量空间的高维性与数据聚类问题的最优化性质,采用LDA对文档向量空间进行降维,提出运用混合优化算法GA_PSO在此低维空间进行寻优,来发现Web文档集的最优簇结构.通过在真实数据集20Newsgroups的实验,结果表明我们的方法具有良好的聚类有效性,能较完全和准确地将主题相关的Web文档聚成一类. 相似文献

4.

代价敏感的缺失数据有序填充算法

下载免费PDF全文

苏毅娟钟智《计算机工程》2009,35(17):92-93,9

缺失数据填充效果会对学习算法和挖掘算法的后续处理过程产生影响。针对代价敏感决策树方法没有同时考虑填充顺序和填充代价的问题,提出一种有序填充缺失数据的算法,综合考虑经济因素和建立填充器所需的有效信息。实验结果表明其预测准确率和分类准确率高于现有算法。相似文献

5.

基于PCA的哈希图像检索算法

苏毅娟余浩雷聪郑威李永钢《计算机应用研究》2018,35(10)

为了解决传统图像检索算法低效和耗时的缺点,提出一种基于PCA哈希的图像检索算法。具体地,首先通过结合PCA与流形学习将原始高维数据降维,然后通过最小方差旋转得到哈希函数和二值化阈值。进而将原始数据矩阵转换为哈希编码矩阵。最后通过计算样本间汉明距离得到样本相似性。在三个公开数据集上的实验结果表明本文提出的哈希算法在多个评价指标下均优于现有算法。相似文献

6.

大数据下的快速kNN分类算法_*

苏毅娟邓振云程德波宗鸣《计算机应用研究》2016,33(4)

针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。相似文献

7.

基于稀疏学习的自适应近邻分类算法

程德波苏毅娟宗鸣朱永华《计算机工程与设计》2015,(7)

为解决k‐NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动（data‐driven）获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用 l1‐范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k （不定值）个训练样本来重构,解决k‐NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k‐NN算法比经典k‐NN算法效果要好。相似文献

8.

稀疏编码的最近邻填充算法

苏毅娟程德波宗鸣李凌朱永华《计算机应用研究》2015,32(7)

针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果.为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题.该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用e1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题.基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好.该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域. 相似文献

9.

一种新的关联规则挖掘的模型 总被引：1，自引：0，他引：1

苏毅娟严小卫《计算机科学》2001,28(10):46-48

1.引言 support-confidence模型是正关联规则挖掘普遍应用的模型,而如何度量关联规则的不确定性则是正关联规则挖掘中的重要问题之一。在该模型中,用supp(X∪Y)和conf(X→Y)来度量关联规则X→Y的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。可见,用conf(X→Y)来度量关联规则是不够的. 实际应用中,我们不仅要挖掘正关联规则,而且还要挖掘负关联规则。正关联规则即形如X→Y的式子,负关联规则即形如X→Y的式子,其中X,YI,X∩Y=,I为数据库D中的所有项的集合,首先看一个例子,若p(c)=0.6,p(t)=0.4,p(t∪c)=0.05,p(t∪c)=0.35,minconf=0.52,有p(t∪c)/p(t)=0.05/0.4=0.125minconf。因此,t→c为一有效规则。相似文献

10.

绿色网络不良内容语义分析方法研究* 总被引：2，自引：1，他引：1

宁葵龙珑覃晓钟智苏毅娟陈万雷宁德鹏《计算机应用研究》2010,27(12):4643-4645

Internet已经在我国迅猛发展,我国网民的数量激增,由于不良内容的多变性,传统的不良内容语义分析方法已经无法适应我国对于净化网络需求。提出不良内容语义分析的方法,具体方法是借用依存语法作为框架,通过在基本内—外部算法中结合知识识别句子中的依存关系。系统使用结果表明,利用借助知识的内—外部算法训练无指导模型是可行的不良内容语义分析方法。相似文献