共查询到19条相似文献,搜索用时 93 毫秒
1.
主题检测是文本挖掘的一个重要研究方向,传统的主题检测方法以统计理论为基础,忽略了数据本身蕴含的语义,带来了偏差严重、与样本数据高度相关等缺点。针对以上缺点,面向文本流数据,提出一种基于特征本体的主题检测方法。首先构建文本特征本体;其次,将较为复杂的文本特征本体看作是由若干主题组成的连通图,然后将主题连通图分解成单边图集合;再次,将主题相似度计算问题转化为单边图贡献度和图相似度的计算问题。最后,对每一批新文本集检测是否有新主题,从而使得主题的个数随着时间的推移而增加。在科技文献和新闻语料上进行实证研究,结果发现阈值δ参数决定文本流中新主题出现的频率,且实验结果同经典主题模型基本保持一致。除此之外,同传统的方法相比,本文提出的方法能更好地支持主题的语义表示,且适用于流数据,能增量实现主题检测,在应用上具有更大的优势。 相似文献
2.
《微型机与应用》2017,(8)
在线主题模型基于先时间离散后主题建模的思想,存在文本流切分带来的模型无法平滑过渡的问题,同时时间片大小的选择对在线话题的抽取质量影响显著。提出了一种新的在线短文本流主题演化模型Online-BTOT。模型在遗传计算方法上进行了改良,不仅考虑时间片上的总体主题强度对遗传权重的影响,也将时间片上主题强度的变化纳入先验参数的计算中。同时,为了得到主题强度在时间片上的连续变化和克服短文本的稀疏性,在单时间片上结合了TOT模型和BTM模型。通过在微博短文本语料上与OLDA模型和OBTM模型的对比实验,证明Online-BTOT模型能够有效地分析在线短文本流的主题演化。 相似文献
3.
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。 相似文献
4.
在深入分析当前流行的文本主题提取技术和方法的基础上,提出一种将本体技术应用于文本主题提取的方法。使用本体技术用语义向量表示文本句,对文本进行预处理,然后进行语义相似度计算和语义聚类,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法在提取文本主题方面是一个有效的方法。 相似文献
5.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 相似文献
6.
针对特征模型的演化导致特征间的冲突问题, 从特征模型的演化方面进行研究, 提出了一种基于本体的特征模型演化的一致性验证方法。首先采用本体理论方法对特征模型的演化进行分析和建模, 建立本体的特征模型元模型; 其次基于上述元模型, 为网上购物系统实例建立相应的网上购物的领域特征模型, 根据需求裁剪出产品特征模型; 然后在Eclipse集成开发环境下, 通过Jena推理机加载规则和产品特征模型进行一致性验证, 当检测到冲突时, 采用演化策略来消除冲突; 最后通过实例研究说明了该方法的有效性。 相似文献
7.
针对基于词频统计的T D‐ID F文本特征提取方法缺乏对文本中概念关系处理,而使提取到的文本特征具有概念冗余、特征不明确等问题,提出基于本体概念相似度的词频统计方法。利用文本元素之间的语义相似度调整特征元素的词频,突出特征元素的语义贡献、消除特征冗余,增强特征集合元素的特征独立性。最后结合文本概念的共现特性,对可能出现某些重要特征元素因词频统计而被忽略的问题进行处理,从而准确、高效地提取文本特征。 相似文献
8.
9.
基于协同演化的文本特征获取算法 总被引:3,自引:0,他引:3
作为证券监管机构,如何从海量的网络信息中有效地对文本信息进行准确的分类,对于提高日常监管工作效率是非常重要的。该文主要基于数据挖掘技术,以矢量空间模型VSM为文本的表示方法,提出了一个基于协同演化遗传算法的多文本特征抽取算法,有效地降低了文本特征矢量的维数,为文本分类模板获取等多文本特征获取问题提供了一个可行的解决方案。 相似文献
10.
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。 相似文献
11.
12.
13.
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题.并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点.实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的. 相似文献
14.
15.
16.
17.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。 相似文献
18.
19.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。 相似文献