共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦.对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇.综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题.实验结果表明,该方法具有较高的抽准率. 相似文献
3.
基于词汇链的中文新闻网页关键词抽取方法 总被引:1,自引:0,他引:1
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。 相似文献
4.
提出一种基于词汇链的判断变异垃圾短信方法。该方法通过构造多条词汇链来表达短信文本的叙事线索,再从多条词汇链中抽取出富含内容信息的词汇链,同时消除了多个关键词序列表达同一内容信息的冗余;将构造的词汇链作为短信文本的信息相互进行比较,以对变异的垃圾短信信息进行识别。实验结果表明,该方法能较准确地识别垃圾短信的变异信息。 相似文献
5.
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。 相似文献
6.
一种基于词汇链的关键词抽取方法 总被引:26,自引:6,他引:26
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 相似文献
7.
张寅生 《计算机与数字工程》2011,(10):45-47,112
该文介绍了在汉语文本中抽取定义语句的方法。方法的主要特点是:给定被定义的词汇(字符串),应用Bo-yer-Moore算法查找该串在文本中的位置,继而在该句子中查找符合定义特征的谓词。在这个工作基础上,根据谓词字符串的特征排除谓词歧义,并按照句法分析的结果对定义语句修饰谓词的不同语法单元进行识别,从而实现了基于字符串和语法特征的识别的定义语句抽取。 相似文献
8.
9.
10.
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。 相似文献
11.
刘金岭 《计算机工程与应用》2010,46(23):159-161
为了对中文短信文本进行快速的舆情预测,利用对同义关系词汇归并和上下位词汇聚焦以及种子词汇的确定来实现对短信文本空间的降维,而后又给出了海量短信文本分类的算法及分类主题的提取。实验表明该方法可以大大提高舆情预测的速度和质量。 相似文献
12.
选择一组具有良好区分度的方向构建了CMAS坐标系,又根据初始簇的分布特性,构造出各个坐标轴的重新标度函数以提高聚类决策的有效性。其算法CMAS以迭代的方式收敛得到了最终解。CMAS算法的时间复杂度与K-Means保持在同一量级上。实验结果表明,CMAS算法有较好的聚类质量。 相似文献
13.
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。 相似文献
14.
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用k-max采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效果。 相似文献
15.
讨论了在多个不同的应用之间利用MSMQ(微软消息队列)技术实现相互通信的一种异步传输模式。将MSMQ作为中间件应用于SP(信息服务提供商)的短信业务处理平台,克服了以后台数据库作为中间件、以邮件服务器作为中间件、以Java Servlet作为中间件的不足,提高了系统稳定性和短信息的处理速度。 相似文献
16.
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。 相似文献
17.
18.
针对垃圾短信分类问题,提出一种计算词分类权重的方法,并以此为基础通过降维来得到分类特征词集合。提出了短信分类隶属度概念,通过计算短信分类隶属度和分类隶属度密度的方法来实现分类。为了提高分类的准确性,还对特征词进行了分类权重的迭代学习,从而保证了词分类权重取值的合理性。实验结果表明,该分类模型具有良好的分类效果和较低的时间复杂度。 相似文献
19.
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量模型理论,以文本中的词为节点,通过词语之间的共现关系来构建文本图,接着利用k-truss图分解技术来获取文本语义特征,并结合词频、单词位置特征、复杂网络特征等构造无参评分函数,最终根据评分结果来提取关键词。通过在基准数据集上进行实验验证,结果表明KEK算法在提取短文本关键词上的F1值性能指标优于其他基于文本图的关键词提取方法。 相似文献