首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
刘兴林 《计算机应用》2013,33(9):2546-2549
为了解决基于增量词集频率的主题词提取算法不能提取合成词的问题,在原算法的基础上增加了文本预处理环节,即合成词识别。采用基于词性探测和词共现有向图算法识别文本中的合成词,并对分词结果进行修正。生成候选主题词集时,考察每个词的出现位置,根据不同的出现位置赋予不同的权重;然后累加获得同一个词的总权重,并按权重从高到低生成候选主题词集。提取主题词时逐个考察候选主题词集中的每一个候选主题词,计算其对主题词集权重的增量,若增量小于给定阈值,则主题词提取算法结束;否则将该候选主题词加入主题词集。实验结果表明,该算法取得了较好的效果,所获得的主题词能更贴切地反映文档的主题内容,主题词满意度比原算法提高了5个百分点。  相似文献   

2.
提出了一种基于增量词集频率的文本主题词提取算法,其核心思想是计算主题词集频率增量,算法从候选主题词集提取主题词时,计算单个候选主题词对主题词集频率的增量,若增量小于给定阈值,则主题词提取算法结束,否则将该候选主题词加入主题词集,继续考察下一个候选主题词。实验结果表明,该算法取得了较好的效果,所获得的主题词能更贴切地反映文章的主要内容。  相似文献   

3.
提出了一种基于增量词集频率的文本主题词提取算法,其核心思想是计算主题词集频率增量,算法从候选主题词集提取主题词时,计算单个候选主题词对主题词集频率的增量,若增量小于给定阈值,则主题词提取算法结束,否则将该候选主题词加入主题词集,继续考察下一个候选主题词。实验结果表明,该算法取得了较好的效果,所获得的主题词能更贴切地反映文章的主要内容。  相似文献   

4.
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识。如何从这些海量评论文本中有效提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键。本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取。由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性。通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果。  相似文献   

5.
刘天琪 《福建电脑》2021,37(4):50-52
随着网络技术的发展,网络信息呈爆发式增长,其中就包括大量的突发事件信息。要想快速有效地从海量突发事件信息中找到需要的信息,可以利用文本主题分类来解决。本文突发事件文本主题分类以事件触发词作为基本语义特征进行研究,并把文本主题分类分为两个阶段,即建模阶段和分类阶段。建模阶段对每个主题中的文本分别计算出所有事件触发词的权重,得到其事件触发词权重集,即每个类别的分类模板。分类阶段对待分类文本依次计算出每个触发词的权重值并相加,得到的最终值作为该待分类文本相对于该主题的相关值,对每个主题分别计算出待分类文本相对于该主题的相关值,最后相关值最大的主题作为分类的结果。实验结果表明,该方法效果较好。  相似文献   

6.
为了克服传统主题词抽取算法中的主题漂移与主题误判等问题,提出了利用词的共现信息来提高主题词抽取的准确率。根据词汇与文本中的上下文环境词汇的共现关系来调节词的权重评分,与文本主题具有较高共现率的词将被优先抽取为文本的主题词,从而提高文本的主题词抽取精度。经实验证明,提出的主题词抽取方法较一般主题词抽取方法准确率有所提升,特别是抽取文本篇幅较短时,该方法明显优于一般方法。  相似文献   

7.
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。  相似文献   

8.
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。  相似文献   

9.
《软件工程师》2020,(3):1-3
自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着计算机网络的发展,海量的文本踊跃出来。文本越来越多,通过人工对文本进行分类的成本越来越高。本文针对短文本分类问题,使用词袋模型从词向量中提取词频矩阵,删除停止词与低频词。再使用TF-IDF算法提取文本特征,进行文本分类研究,最终可以使短文本以较高的正确率归类。  相似文献   

10.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

11.
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和[F]值指标的量化结果相比于传统算法有比较明显的提升。  相似文献   

12.
马佩勋  高琰 《计算机应用研究》2013,30(12):3610-3613
传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪, 但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF*PDF算法与位置权重相结合, 计算词汇与短语的权重, 获取候选关键短语列表, 关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF*PDF位置权重算法同时也用于为短语分配权重, 排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明, 该提取方法与传统的TF*PDF提取方法相比, 可更好地去除关键词短语中的绝对噪声, 较好地改善了热点话题检测的准确度。  相似文献   

13.
为了提高低数据量环境下物联网密钥的安全性与可靠性,需要对低数据量环境下物联网密钥管理算法以及密钥管理方案进行设计研究;使用当前管理算法对低数据量环境下物联网密钥进行管理时,在物联网网络节点增加到一定数量的情况下,无法保证低数据环境下物联网的安全性与可靠性;为此,提出一种基于LHKE的低数据量环境物联网密钥管理算法与方案设计方法;该算法是由当前算法为基础结合Qoskm算法优点形成的一种新的低数据量环境下物联网密钥算法,此算法将设立两个相同的低数据量密钥树,通过计算组播成员在物联网上的信任度与安全度,将信任度与安全度较高的组播成员放在一棵低数据量密钥树上,其他的组播成员放在另一棵低数据量密钥树上,再通过LHKE算法的初始化、子密钥生成和网络密钥生成3个阶段,对低数据量环境下物联网密钥进行管理;实验仿真证明,所提算法提高了低数据量环境下物联网密钥的安全性与可靠性。  相似文献   

14.
杨玥  张德生 《计算机科学》2017,44(Z11):432-436
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。  相似文献   

15.
基于Bayes算法的Web网页识别   总被引:2,自引:0,他引:2  
Internet的飞速发展在带给人们很多方便的同时,也出现了一个新问题,即如何从大 信息中快速而方便地找到所需要的信息。Web网页识别是其关键技术问题之一。使用了两种机器学习算法-Bayes算法,改进Bayes算法实现了网页识别,并对两种机器学习算法的效果进行了实验分析。  相似文献   

16.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。  相似文献   

17.
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。  相似文献   

18.
随着计算机网络以及智能终端应用的不断普及,特别是网络金融以及二维码的快速普及,信息安全问题越来越突出。文中研究了对称加密算法数据加密标准DES,主要研究了公开密钥基础设施体系PKI,这是确保信息在传输过程中安全性的第三方平台,它主要负责颁发带有CA中心数字签名的证书以及管理RSA算法中需要的公钥和私钥;研究了几种非对称加密算法并分析了它们的性能;重点研究了CEE中基于有限域上的椭圆曲线离散对数算法和RSA非对称加密算法,提出了用私钥加密公钥解密方案来解决信息真伪鉴别即身份认证问题,编程实现了RSA的公钥生成以及信息的加密和解密,主要实现了RSA密钥生成器模块、加密模块和解密模块,设计了加解密图形界面,完成了文件路径加密和整个文件的加密。实验结果表明RSA算法的可行性和安全性是较高的。  相似文献   

19.
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。  相似文献   

20.
基于关键短语的文本分类研究   总被引:1,自引:0,他引:1  
文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素: 文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号