期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

姚佳奇徐正国燕继坤王科人《计算机工程与应用》2021,57(11):162-167

针对PU（Positive and Unlabeled）文本分类问题,提出了一种基于图卷积网络的PU文本分类算法（GCN-PU）,基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。相似文献

2.

低质量文档图像中图标的定位

燕继坤席建民周密郑辉《计算机研究与发展》2004,41(7):1226-1231

针对二值图像提出了基于金字塔模型的目标定位方法，该方法适合于构成目标的连通区互相之间距离较小，而与其他连通区之间距离较大的情形．首先生成图像的金字塔模型，构成目标的连通区会在金字塔模型的某一层合并为一个连通区，根据金字塔模型各层中连通区的指示在原始图像中确定一块区域，用C4．5作粗分类，再用模板匹配判定是否含有目标．把这种方法应用于低质量文档图像中图标的定位．用含300个图标的图标库进行实验，得到88．7％的定位查全率，70．42％的定位准确率．相似文献

3.

一种自适应的视频帧中字幕检测定位方法 总被引：3，自引：0，他引：3

王勇燕继坤郑辉《计算机应用》2004,24(1):134-135,139

视频帧中的字幕往往包含当前视频的高层语意内容，对视频内容的自动理解、索引和检索有重要意义。文中提出了一种视频帧中字幕的自适应检测定位方法，与以往根据经验设定阈值的方法相比，该方法简单，对视频帧的复杂变化的适应能力更强，检测定位更快速、准确。大量实验结果显示该方法是有效的。相似文献

4.

基于AdaBoost的文本隐写分析

眭新光沈蕾燕继坤朱中梁《通信学报》2007,28(12):136-140

通过对自然文本统计模型和特性的分析，指出隐藏消息后可能对文本统计特性带来的变化，并提出了基于AdaBoost的通用检测算法。抽取文本的5个基本统计特征量为分类特征，对自然文本和载密文本进行有效分类检测。实验证明该算法具有较好的适用性和可靠性。相似文献

5.

变形网格及其在图像识别中的应用 总被引：2，自引：0，他引：2

燕继坤张震郑辉《电子与信息学报》2004,26(8):1183-1189

网格特征是图像识别中一类重要特征,而变形模板对于复杂的图像识别问题如字符识别、数字识别、图标识别等表现出很好的性能,但变形模板很费时。该文针对网格特征提出了变形网格,并分析了变形模板与变形网格之间的近似等价性。所提方法对网格进行变形而不是对图像变形,因而速度比变形模板快得多,而且性能相差不大。把这种方法分别应用于图标识别和脱机手写汉字识别。图标识别实验中变形模板使识别率提高了7.5%,而变形网格使识别率提高了7.3%、手写汉字识别实验中变形模板使识别率提高了6.1%,而变形网格使识别率提高了5.8%。考虑到变形网格比变形模板快得多,所以这种方法是有优势的。相似文献

6.

基于单边抽样的LPU

下载免费PDF全文

沈蕾石盛平燕继坤《计算机工程》2006,32(23):216-217

提出结合单边抽样Bagging与LPU的基本思想对不平衡数据进行分类。主要步骤是：将未标注实例全标为反类，和正例一起训练单边抽样Bagging学习器，将得到的学习器对未标注实例分类得到可靠的反例(RN)，再用正例和RN训练SSBagging学习器。使用Rocchio和EM进行分类是Liu等提出的一种有代表性的LPU。比较了这种LPU和该文提出的方法，发现当数据的不平衡性很明显时，后者要优于前者。相似文献

7.

相似文本的快速搜索

燕继坤郑辉席建民《计算机工程》2004,30(15):22-23,71

相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法，通过Hash把集合映射成ID．从而得到更快的集合比较算法．重新定义了相似关系，能够减少误判，同时对有固定格式的文本也有更好的效果。相似文献

8.

WPLoss:面向类别不平衡数据的加权成对损失

姚佳奇徐正国燕继坤王科人《计算机应用研究》2021,38(3):702-704,709

类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器性能。相似文献

9.

基于Simhash的协议数据高频相似序列提取算法

下载免费PDF全文

黄学波徐正国燕继坤《计算机工程与应用》2020,56(16):199-203

在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数据进行“分词”处理,并采用了减少哈希结果长度、降低比较次数等方法进一步提高算法效率,最终使Simhash适合于高频相似序列提取问题。实验结果表明,该算法的平均覆盖率达到74.28%,并且在此准确率的条件下时间效率较高。相似文献

10.

基于标签语义相似的动态多标签文本分类算法

下载免费PDF全文

姚佳奇徐正国燕继坤熊钢李智翔《计算机工程与应用》2020,56(19):94-98

针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。相似文献