排序方式: 共有60条查询结果,搜索用时 15 毫秒
1.
文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。在著名的PageRank算法基础上,提出一种基于句中词语间关系的文本向量化算法。通过引入语义层面的词语关联来克服传统的基于词频统计数据的向量化方法语义敏感度不佳的缺陷。在不同的语料测试集上的实验表明,基于句中词语间关系的文本向量化算法有更高的准确率。 相似文献
2.
一种针对不良主题的文本过滤方法 总被引:1,自引:1,他引:0
针对不良文本的过滤问题,文章提出了一种基于SVM分类器改进的文本过滤方法。该方法将传统的基于词语的分类方法改为基于词语元组的分类,增强了特征项的分辨率,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率。 相似文献
3.
传统的多模式匹配算法是用树型结构的有限自动机实现的 ,它具有很多缺点 .本文提出的多模式匹配算法是基于有序二叉树的多模式匹配算法 .实验证明 ,本文算法不但具有和传统算法相当的查找速度 ,而且构造速度快、内存耗费少 .因此 ,本文提出的算法特别适用于要求动态构造自动机的情况 相似文献
4.
5.
在情感倾向性分析领域,关于情感的收集、分析和聚合等技术一直是近年来的关注热点。该领域的相关发展带动了各个子任务及其相关研究的大力发展。本文主要综述了面向情感的信息系统中使用的情感分析相关的需求,技术,应用以及评测方法等。在情报分析方面,存在许多不同于传统的主题分析的新需求,这就是对情感分析技术的强烈需求。接着,介绍了词级、句子级、段落篇章级等不同层次的情感分析技术。然后,还综述了采用情感分析技术的各种典型应用。最后,为了工作开展的便利,讨论了情感分析领域的词库资源、样本集资源、评测方法及重要会议等。 相似文献
6.
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。 相似文献
7.
近些年来,针对明文口令的破解和恢复等技术展开了广泛而深刻的研究,总的来说,该领域的主流方法已经大大提升了口令破解和恢复的成功率,但多种方法之间缺少比较和内在关联的分析。着眼于明文口令字典的生成问题,总结了近十年来主流的明文口令生成模型:马尔可夫模型、概率上下文无关模型和神经网络模型。为了有效并客观地评估这三种主流模型,设计并进行了一系列性能验证实验,给出了三种模型各自适用的场合及优缺点,并从原理层面解释了三种模型存在缺陷的原因,给出了一些优化改进的思路。最后,认为神经网络将会成为未来最具潜力的模型,并指出该领域的进一步研究和发展依赖于规范数据集的建立和多种方法的结合运用。 相似文献
8.
9.
针对微博中用户影响力分析这个问题,提出用户影响力的计算方法。该方法首先提出用户自身影响力以及用户被影响力的概念,并根据用户自身特征与用户粉丝情况得出其计算公式,从而可以综合考虑用户在微博中的所有信息,计算出用户影响力。实验结果表明,这种计算方法能比较好地反映用户在其粉丝中的影响力。 相似文献
10.
在文本分类中,传统单标签分类问题的解决方法无法简单地应用于多标签文本分类,现有的方法通常会通过单标签问题转化思想或者多标签自身算法改进实现对多标签的文本分类。提出一种相关信息加权的自适应多标签分类算法,该算法具有相关信息加权、自适应阈值调整、权重投票相结合的特点。实验结果表明,该算法的某些性能指标优于现有一些常用的多标签分类方法。 相似文献