期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈艳燕许晓昕《计算机与现代化》2009,(3)

随着互联网的高速发展,网络聊天(IM)软件中的上下文广告成为了网络主要赢利模式之一,也是网络营销中的一种重要方式.要精准地提供此类上下文广告就需要正确地提取聊天过程中的关键词.聊天文本不同于普通的文章,它是一种简短的文本,对于这种文本,传统的TFIDF算法存在着缺陷.本文针对传统TFIDF在处理此类文本时的不足之处,利用EFCM聚类算法来提高TFIDF算法对于这类文本的处理能力. 相似文献

2.

一种基于TFIDF的网络聊天关键词提取算法 总被引：2，自引：0，他引：2

许晓昕李安贵《计算机技术与发展》2006,16(3):122-124

随着Internet的普及，即时通讯软件（IM software）也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题，而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章，它是一种动态输入的文本，对于这种文本，传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处，利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。相似文献

3.

文本分类中基于方差的改进特征提取算法

吕佳《计算机工程与设计》2007,28(24):6039-6041

特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果. 相似文献

4.

一种对聊天文本进行特征选取的方法研究

李盛瑜何文《计算机科学》2007,34(5):202-204

由于网络聊天文本具有结构松散、简短、上下文相关等特点,对其进行特征选取时使用传统的TFIDF（Term Frequency Inverse Document Frequency）算法存在较大缺陷。针对这个问题,本文提出了一种通过聊天主题来确定聊天文本的特征选取范围的方法,并通过实验验证了该方法的有效性。相似文献

5.

TFIDF算法研究综述 总被引：25，自引：0，他引：25

施聪莺徐朝军杨晓江《计算机应用》2009,29(Z1)

文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一.在ú回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考. 相似文献

6.

多特征关键词提取算法研究

王洁王丽清《计算机系统应用》2018,27(7):162-166

关键词提取技术是语料库构建、文本分析处理、信息检索的基础.采用传统的TFIDF算法提取关键词时,主要依据词频计算权重,而未考虑文本特征项的影响,由于对词频的过度依赖,导致其提取关键词的准确性不高.针对这个问题,本文根据关键词的特性,引入位置和词性作为影响因子,对TFIDF算法权重重新进行了计算和排序,从而改进该算法,并利用Python语言完成了实现.实验结果表明,采用该改进方法提取关键词,其召回率、准确率、F因子与传统方法相比均得到明显提升. 相似文献

7.

基于MapReduce编程模型的TFIDF算法研究

赵伟燕王静宇《微型机与应用》2013,32(4)

随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要.现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比.实验证明,使用TFIDF文本分类算法可实现对海量数据的高速有效分类. 相似文献

8.

基于Hadoop平台的TFIDF算法并行化研究

王静宇赵伟燕《计算机工程与科学》2014,36(6):1018-1022

针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。相似文献

9.

基于信息熵的改进TFIDF特征选择算法 总被引：2，自引：0，他引：2

下载免费PDF全文

周炎涛唐剑波王家琴《计算机工程与应用》2007,43(35):156-158

特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。相似文献

10.

分布式朴素贝叶斯算法在文本分类中的应用

赵文涛孟令军赵好好韩炳权成亚飞《测控技术》2016,35(6):50-55

传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高. 相似文献