排序方式: 共有49条查询结果,搜索用时 15 毫秒
1.
随着国内电信行业的重组,各个企业之间的竞争越来越激烈。如何针对不同的客户制定营销策略,以使企业利润最大化,已经是非常重要的事情了。提出一种基于VSM模型,利用TFIDF算法的基本思想,构造出一种适合于电信行业的类TFIDF算法。利用此算法可以找出流失的客户去向与新入网的客户来源。通过对比客户的消费行为,可以分析出客户流失的原因,为市场部门制定营销策略提供理论依据. 相似文献
2.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
3.
由于网络聊天文本具有结构松散、简短、上下文相关等特点,对其进行特征选取时使用传统的TFIDF(Term Frequency Inverse Document Frequency)算法存在较大缺陷。针对这个问题,本文提出了一种通过聊天主题来确定聊天文本的特征选取范围的方法,并通过实验验证了该方法的有效性。 相似文献
4.
一个基于朴素贝叶斯方法的web文本分类系统:WebCAT 总被引:2,自引:0,他引:2
余芳 《计算机工程与应用》2004,40(13):195-197
如果缺乏好的对文本自动进行索引及摘要的工具,要从Internet浩瀚的文本中检索有用信息是很困难的。因此,文本分类成为信息检索(InformationRetrieval)的重要组成部分。朴素贝叶斯分类是应用统计理论进行文本分类的有效方法之一。该文结合web文本的特点使用朴素贝叶斯分类器实现了一个web文本分类系统WebCAT,并获得了很好的分类结果。 相似文献
5.
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 相似文献
6.
随着互联网的高速发展,网络聊天(IM)软件中的上下文广告成为了网络主要赢利模式之一,也是网络营销中的一种重要方式.要精准地提供此类上下文广告就需要正确地提取聊天过程中的关键词.聊天文本不同于普通的文章,它是一种简短的文本,对于这种文本,传统的TFIDF算法存在着缺陷.本文针对传统TFIDF在处理此类文本时的不足之处,利用EFCM聚类算法来提高TFIDF算法对于这类文本的处理能力. 相似文献
7.
传统的OCR技术在汉字识别领域趋于成熟,对背景清晰的正体汉字有很高的识别正确率,然而当汉字图片在复杂背景中或经旋转、加噪处理后,OCR软件的识别正确率大大下降.当今有关视频检索的研究正在快速发展中,其中一种行之有效的方法是通过提取模板视频的关键帧及其特征向量,应用聚类算法形成关键字,并通过快速的检索算法来实现匹配.创新性地将该模型应用到汉字识别研究中,通过大量实验数据的研究发现,该模型在上述情况中相对于传统的OCR技术优势明显,在未来实际应用中具有广阔的前景. 相似文献
8.
基于同义替换和相邻词合并的关键词特征权重计算新方法 总被引:1,自引:0,他引:1
特征项权重计算是文本挖掘中关键词提取的核心,其计算方法的好坏对文本挖掘的结果有着重要的影响。本文在对关键词提取特征项权重计算的传统TFIDF算法分析的基础上,为减少该算法特征权重计算时对词频的过于依赖,提出一种基于同义替换和相邻词合并(KSRAM)的特征权重计算方法。为检验算法性能,对KSRAM算法和传统TFIDF算法进行了关键词提取对比实验,实验表明KSRAM算法在关键词提取的准确率和召回率方面比传统TFIDF算法有明显的提高。 相似文献
9.
基于TFIDF文本特征加权方法的改进研究 总被引:2,自引:0,他引:2
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 相似文献
10.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。 相似文献