排序方式: 共有61条查询结果,搜索用时 17 毫秒
1.
一种针对不良主题的文本过滤方法 总被引:1,自引:1,他引:0
针对不良文本的过滤问题,文章提出了一种基于SVM分类器改进的文本过滤方法。该方法将传统的基于词语的分类方法改为基于词语元组的分类,增强了特征项的分辨率,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率。 相似文献
2.
文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。在著名的PageRank算法基础上,提出一种基于句中词语间关系的文本向量化算法。通过引入语义层面的词语关联来克服传统的基于词频统计数据的向量化方法语义敏感度不佳的缺陷。在不同的语料测试集上的实验表明,基于句中词语间关系的文本向量化算法有更高的准确率。 相似文献
3.
4.
5.
一种有效的字符串有序跳跃模式近似匹配算法 总被引:1,自引:0,他引:1
字符串的模式匹配问题是计算机科学的基本问题之一,而近似模式匹配更是近期的研究热点。本文分析了文本分析领域中出现的一种特殊的近似模式匹配问题,即字符串有序跳跃模式近似匹配问题,提出了一种基于有限自动机的组件组合分析算法。算法的特点在于将组件匹配过程与组配过程进行分离,这样既降低了问题的复杂度,又可以实现按策略组配的灵活性。组件匹配过程中利用有限自动机对跳跃模式的组件进行匹配查找;组件的组配过程中先对查找到的组件进行组合分析,然后再对各种组合进行初步筛选和基于策略的优选。初步筛选工作是依据顺序性、唯一性和最大数三条原则进行;而优选工作是根据四个设计的评价参数选择其中最佳组合。实验结果表明,该算法的确能解决字符串有序跳跃模式匹配问题,完全可以适用于句型匹配与主题词跳词匹配。 相似文献
6.
搜索引擎优化技术是近年来发展较迅速的技术,目前被广泛的应用于电子商务网站的优化。分析了搜索引擎优化的概念,对页面标题、Meta标签、关键字、网页设计等提出优化策略。 相似文献
7.
在文本分类中,传统单标签分类问题的解决方法无法简单地应用于多标签文本分类,现有的方法通常会通过单标签问题转化思想或者多标签自身算法改进实现对多标签的文本分类。提出一种相关信息加权的自适应多标签分类算法,该算法具有相关信息加权、自适应阈值调整、权重投票相结合的特点。实验结果表明,该算法的某些性能指标优于现有一些常用的多标签分类方法。 相似文献
8.
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。 相似文献
9.
近些年来,针对明文口令的破解和恢复等技术展开了广泛而深刻的研究,总的来说,该领域的主流方法已经大大提升了口令破解和恢复的成功率,但多种方法之间缺少比较和内在关联的分析。着眼于明文口令字典的生成问题,总结了近十年来主流的明文口令生成模型:马尔可夫模型、概率上下文无关模型和神经网络模型。为了有效并客观地评估这三种主流模型,设计并进行了一系列性能验证实验,给出了三种模型各自适用的场合及优缺点,并从原理层面解释了三种模型存在缺陷的原因,给出了一些优化改进的思路。最后,认为神经网络将会成为未来最具潜力的模型,并指出该领域的进一步研究和发展依赖于规范数据集的建立和多种方法的结合运用。 相似文献
10.
针对微博中用户影响力分析这个问题,提出用户影响力的计算方法。该方法首先提出用户自身影响力以及用户被影响力的概念,并根据用户自身特征与用户粉丝情况得出其计算公式,从而可以综合考虑用户在微博中的所有信息,计算出用户影响力。实验结果表明,这种计算方法能比较好地反映用户在其粉丝中的影响力。 相似文献