首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 752 毫秒
1.
高鹏  曹先彬 《计算机仿真》2007,24(12):332-335
随着聊天室的广泛使用,对聊天内容监控也变成亟待解决的问题.在聊天室监控中,为衡量聊天数据中词汇对聊天内容的描述能力,现在一般直接采用文本词汇的权重计算方法;然而,这种方法忽视了聊天数据与静态文本结构上的差异,导致计算出的权重并不能准确反应词汇描述聊天内容的能力.针对聊天数据的固有特点,提出了一种专门针对聊天数据的词汇权重计算方法CDTF*IDF.该方法通过分别计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊天数据的词汇权重.基于IRC聊天室内容监控的实验表明:该方法能较好地衡量聊天词汇的权重,同时基于该方法的监控系统能够准确地识别出聊天数据中的话题.  相似文献   

2.
许晓昕  李安贵 《微机发展》2006,16(3):122-123
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活.利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点.聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷.文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力.  相似文献   

3.
李盛瑜  何文 《计算机科学》2007,34(5):202-204
由于网络聊天文本具有结构松散、简短、上下文相关等特点,对其进行特征选取时使用传统的TFIDF(Term Frequency Inverse Document Frequency)算法存在较大缺陷。针对这个问题,本文提出了一种通过聊天主题来确定聊天文本的特征选取范围的方法,并通过实验验证了该方法的有效性。  相似文献   

4.
社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于各种类型的文本,包括非结构化、半结构化和结构化文本。然而,针对聊天对话文本的应用,常见的预训练模型难以捕捉到其独特的结构特征,仍需进一步探索与改进。对此,提出了一种基于对比学习的聊天摘要算法MGCSum。该算法无需人工标注数据集,便于学习和迁移。首先使用文档频数、词项频数和信息熵构造了针对聊天文本的停用词列表,去除聊天中的干扰信息;其次,从词语和主题两个粒度进行自监督对比学习,识别对话中的结构信息,挖掘聊天中的关键词和不同主题信息。在聊天摘要公开数据集SAMSum和金融欺诈对话数据集FINSum上进行实验,结果表明,与当前主流的聊天摘要方法相比,该算法在摘要的连贯性、信息量和ROUGE评价指标上均有显著提升。  相似文献   

5.
随着互联网的高速发展,网络聊天(IM)软件中的上下文广告成为了网络主要赢利模式之一,也是网络营销中的一种重要方式.要精准地提供此类上下文广告就需要正确地提取聊天过程中的关键词.聊天文本不同于普通的文章,它是一种简短的文本,对于这种文本,传统的TFIDF算法存在着缺陷.本文针对传统TFIDF在处理此类文本时的不足之处,利用EFCM聚类算法来提高TFIDF算法对于这类文本的处理能力.  相似文献   

6.
一种基于TFIDF的网络聊天关键词提取算法   总被引:2,自引:0,他引:2  
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。  相似文献   

7.
提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦.对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇.综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题.实验结果表明,该方法具有较高的抽准率.  相似文献   

8.
常规的文本情感识别模型不能适应语言的发展,使新生的词汇不能得到有效的情感划分,并且情感识别率低.使用增量学习算法来改进文本情感识别模型,通过收集用户反馈数据,提取其中有价值的情感信息来更新常识库,从而实现对情感识别模型的改进.通过情感聊天的两组对比实验证明了加入增量学习算法的文本情感识别模型准确率优于没有加入增量学习算...  相似文献   

9.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

10.
为了克服传统主题词抽取算法中的主题漂移与主题误判等问题,提出了利用词的共现信息来提高主题词抽取的准确率。根据词汇与文本中的上下文环境词汇的共现关系来调节词的权重评分,与文本主题具有较高共现率的词将被优先抽取为文本的主题词,从而提高文本的主题词抽取精度。经实验证明,提出的主题词抽取方法较一般主题词抽取方法准确率有所提升,特别是抽取文本篇幅较短时,该方法明显优于一般方法。  相似文献   

11.
意见挖掘中,产品特征层次的学习是其中重要的环节之一.为了更准确的学习产品特征层次,提出了一种从非规则与规则意见文本语料中对产品特征层次进行学习的算法.该算法能同时对包含专业描述的规则语料以及人为指定主题的非规则语料进行学习.利用文本特征词识别技术去除与主题相关度较差的词汇,并使用相对熵和语法结构分析方法从语料中产生出层次关系.实验结果表明,该算法能够较好地学习特征层次.  相似文献   

12.
陈浪舟  黄泰翼 《软件学报》1999,10(12):1246-1252
自然语言的主题转换是自然语言理解的一个重要线索.语言处理通常是针对不同的主题有不同的数据库和处理方法.因此,如何找到文本中的主题转换点是语言处理中的一个重要内容.该技术在语言理解、文本自动索引以及语言模型的建立等方面都有重要意义.该文以文本主题转换时的词汇突变为表征,提出和定义了反映词汇突变的4个参数,将这4个参数作为输入,利用BP网作为判决工具,建立了一个在不同尺度下文本词汇变化的层次结构模型,实现了一种精确的文本主题转换点的定位方法,其定位精度在一个句子左右.  相似文献   

13.
基于主题的中文短信文本分类研究   总被引:5,自引:3,他引:2       下载免费PDF全文
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。  相似文献   

14.
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性。本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中。实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路。  相似文献   

15.
针对投稿刊物推荐算法总是单独考虑文本主题或者作者历史发刊记录,导致投稿刊物推荐结果准确率低的问题,提出了一种基于作者偏好的学术刊物投稿推荐算法.该算法不仅协调使用了文本主题和作者历史发刊记录,还挖掘了投稿刊物的学术焦点与时间的潜在联系.首先,使用潜在狄利克雷(LDA)主题模型对文章标题进行主题提取;其次,建立主题-刊物...  相似文献   

16.
TF-IDF算法是一种在信息检索领域常用的加权技术,用来评估一个字词对文档的重要程度,在文本挖掘领域使用TF-IDF算法对文本进行特征提取,将具有较高权重的字词提取出来.这些关键性的字词大体上就能代表该文本所描述的内容.TF-IDF是一种基于统计分析的方法,它并没有考虑到文本上下文的语义关联性.所以,如果单纯只是使用TF-IDF算法对文本进行特征提取效果并不好,文章提出了word2Vec结合TF-IDF算法对酒店评论进行特征词汇提取,使用深度学习wored2vec对酒店评论进行训练,通过word2vec进行上下文索引匹配寻找语义近似词汇,我们将语义相似的词汇构建为一个字典,特征词汇的不同权重反应出酒店评论中不同的关注点.依照这些不同的关注点个性化的推送酒店评论给特定的用户.  相似文献   

17.
针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在BTM的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的生成受到主题-词汇多项分布和潜在特征模型的共同影响。模型中的参数通过吉布斯采样算法进行估计。在真实的短文本数据集上的实验结果表明,该模型能结合外部通用的大规模语料库上已训练好的词向量挖掘出语义一致性显著提升的主题。  相似文献   

18.
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失。利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果。实验表明,在保持较好准确率下,该聚类算法的时间效率得到了大幅度提高。  相似文献   

19.
标签传递算法是一种半监督分类方法,由于该算法存在要求数据分类结果符合流行假设、数据维数较高时计算复杂度高等问题,在文本分类中效果较差。针对这些问题,经过对LDA主题模型和标签传递算法原理及复杂度的分析,将两者结合,提出一种基于LDA主题模型的标签传递算法LPLDA。该算法用LDA主题模型中的主题表示文本数据,一方面使用LDA主题模型表示文本保证分类结果符合流行假设,另一方面有效减少标签传递算法相似度计算时间。经过实验证明,该算法在标记数据少于待测样本时,分类效果优于传统的有监督分类方法。  相似文献   

20.
基于网络聊天的文本隐写算法   总被引:1,自引:0,他引:1  
提出一种可应用于纯文本的英文文本隐写算法,通过微调各单词内部相邻字符对的排序嵌入信息.使用矩阵编码提高了嵌入效率,并提出将该算法应用于网络聊天中以增加隐蔽性.实验证明该算法具有良好的不可见性和安全性,容量也较为理想.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号