排序方式: 共有12条查询结果,搜索用时 31 毫秒
1.
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。 相似文献
2.
针对二值图像提出了基于金字塔模型的目标定位方法,该方法适合于构成目标的连通区互相之间距离较小,而与其他连通区之间距离较大的情形.首先生成图像的金字塔模型,构成目标的连通区会在金字塔模型的某一层合并为一个连通区,根据金字塔模型各层中连通区的指示在原始图像中确定一块区域,用C4.5作粗分类,再用模板匹配判定是否含有目标.把这种方法应用于低质量文档图像中图标的定位.用含300个图标的图标库进行实验,得到88.7%的定位查全率,70.42%的定位准确率. 相似文献
3.
4.
5.
变形网格及其在图像识别中的应用 总被引:2,自引:0,他引:2
网格特征是图像识别中一类重要特征,而变形模板对于复杂的图像识别问题如字符识别、数字识别、图标识别等表现出很好的性能,但变形模板很费时。该文针对网格特征提出了变形网格,并分析了变形模板与变形网格之间的近似等价性。所提方法对网格进行变形而不是对图像变形,因而速度比变形模板快得多,而且性能相差不大。把这种方法分别应用于图标识别和脱机手写汉字识别。图标识别实验中变形模板使识别率提高了7.5%,而变形网格使识别率提高了7.3%、手写汉字识别实验中变形模板使识别率提高了6.1%,而变形网格使识别率提高了5.8%。考虑到变形网格比变形模板快得多,所以这种方法是有优势的。 相似文献
6.
7.
8.
类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器性能。 相似文献
9.
在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数据进行“分词”处理,并采用了减少哈希结果长度、降低比较次数等方法进一步提高算法效率,最终使Simhash适合于高频相似序列提取问题。实验结果表明,该算法的平均覆盖率达到74.28%,并且在此准确率的条件下时间效率较高。 相似文献
10.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。 相似文献