首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。  相似文献   

2.
研究食品安全领域跨媒体数据的主题分析技术,融合多种媒体形式数据的语义,准确表达跨媒体文档的主题。由于食品安全事件相关多媒体数据的大量涌现,单一媒体的主题分析技术不能全面反映整个数据集的主题分布,存在语义缺失、主题空间不统一,语义融合困难等问题。提出一种跨媒体主题分析方法,首先以概率生成方法分别对文本和图像数据进行语义分析,然后利用跨媒体数据间的语义相关性进行视觉主题学习,建立视觉主题模型,进而实现视觉数据和文本主题之间的映射。仿真结果表明,跨媒体主题分析方法能够有效获取与图像语义相关的文本主题,且主题跟踪的准确度优于文本主题跟踪方法,能够为食品安全事件的监测提供依据。  相似文献   

3.
伴随着信息技术的发展,传统纸质新闻逐渐向新媒体新闻转变.与此同时,近年来数据挖掘和自然语言处理等技术得到了极大的发展,使得对新闻所蕴含丰富语义和主题进行深度挖掘成为可能.然而,信息的超载使得主题可视化成为一个新的挑战,即如何以更好的方式来呈现海量互联网文本所蕴含的主题.隐形语义分析(LDA)是近年来兴起的主题建模方法,被当前学术界认为是主流的主题建模技术.文中首先介绍以LDA为主的文本概率主题建模技术及其发展,讨论了新闻主题建模特点;随后概括对比新闻主题可视化的若干方法,并对其进行分类,分析不同方法的适用性和局限性;最后对新闻主题可视化进行总结和展望.  相似文献   

4.
陈千  桂志国  郭鑫  向阳 《计算机应用》2015,35(2):456-460
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。  相似文献   

5.
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型,该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系.在此基础上,给出HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的Pag...  相似文献   

6.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。  相似文献   

7.
基于图分析方法和余弦相似性的主题检测研究   总被引:1,自引:0,他引:1  
如何从海量文本中自动提取有价值的主题信息已成为重要的技术挑战,当下的研究方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,将相关性理论与改进的图分析方法相结合,基于主题相关性和术语共现性对主题检测进行建模,高精度语义信息和潜在共现关系同时被用于主题检测,来发现重要且有意义的主题和趋势,仿真实验验证了本文模型的有效性。  相似文献   

8.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。  相似文献   

9.
当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。  相似文献   

10.
文本主题的自动提取方法研究与实现   总被引:1,自引:0,他引:1  
张其文  李明 《计算机工程与设计》2006,27(15):2744-2746,2766
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。  相似文献   

11.
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一.然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高.因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSW...  相似文献   

12.
无监督主题模型在降维过程中缺少标签信息的指导,丢失一些具有判别性的文本特征,导致最终的分类结果不理想.因此,文中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务.实验表明文中模型既能保持无监督主题模型隐含主题的提取能力,还能更好地完成分类和回归任务.  相似文献   

13.
针对目前话题归类模型中文本逻辑结构特征与文本组织结构特征利用不充分的问题,该文提出一种面向文本结构的混合分层注意力网络的话题归类模型(TSOHHAN)。文本结构包括逻辑结构和组织结构,文本的逻辑结构包括标题和正文等信息;文本的组织结构包括字—词语—句层次。TSOHHAN模型采用竞争机制融合标题和正文以增强文本逻辑结构特征在话题归类中的作用;同时该模型采用字-词语-句层次的注意力机制增强文本组织结构特征在话题归类中的作用。在4个标准数据集上的实验结果表明,TSOHHAN模型能够提高话题归类任务的准确率。  相似文献   

14.
主题驱动的P2P分布式信息搜索机制研究   总被引:8,自引:0,他引:8  
Peer—to—Peer(P2P)对于分布式文件共享具有很好的前景,但当前的P2P系统仍然缺乏有效的信息搜索机制.本文提出一种主题驱动的P2P信息搜索机制,通过对节点上的文档进行聚类获得全局主题,然后将包含有相似主题的节点组织到一起构成主题覆盖网络.当在P2P网络中进行信息搜索时,根据查询与主题的相关性路由查询,从而改善搜索效率.本文详细阐述了进行主题驱动搜索的索引结构、主题聚类方法、主题覆盖网络的构造与维护算法.在Chord上的模拟实验结果表明,主题驱动的P2P信息搜索机制可以减少信息搜索时的平均网络带宽和平均搜索路径长度,提高搜索的成功率.  相似文献   

15.
一种话题演化建模与分析方法   总被引:1,自引:0,他引:1  
胡艳丽  白亮  张维明 《自动化学报》2012,38(10):1690-1697
根据时序关系将文本流划分为连续时间片中的文本集, 在线抽取各时间片中隐含的子话题, 采用模型选择方法动态确定各时间片包含的子话题数, 以历史时间片的子话题信息作为当前子话题发现的先验知识, 基于 OLDA (Online latent Dirichlet allocation)模型抽取各时间片包含的子话题, 通过 Gibbs 抽样对话题模型参数进行估计; 对子话题进行关联分析, 定义子话题产生、消亡、继承、分裂和合并五种演化类型, 提出基于相对熵的子话题关联分析方法, 根据子话题语义相似度和时序关系建立子话题间的关联, 由具有时序关系和内容关联的子话题组成话题, 通过子话题内容和强度的变化描述话题演化. 基于真实网络新闻的话题演化分析实验表明, 本文提出的话题演化分析方法能够有效检测 网络新闻话题内容和强度的演化.  相似文献   

16.
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务 单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。  相似文献   

17.
计算机技术和网络的发展使得数据呈爆炸式的涌现,社交媒体不断融入到人们的生活中,社会网络分析已成为研究的热点。随着大数据时代的到来,对社交网络链接算法研究产生巨大影响,原有的基于网络结构的预测方法已经渐渐不适应现状。因此,提出了一种基于主题模型的社交网络链接预测方法。首先以微博社交网络为数据源,将实验网络分为测试集和训练集;其次利用主题模型得到用户的主题特征,结合命名实体集和用户联系特征集合得到用户的兴趣特征相似性度量,加上网络结构相似性从而得到用户节点相似度,进而对社交网络链接进行预测;最终使用链接预测最常用的评价体系AUC来评价链接预测方法的效果。通过实验验证,该方法的预测准确率更高。  相似文献   

18.
针对一般社会网络社区发现算法仅考虑各节点的邻接关系,所划分的社区仅为一元关系社区,不能代表社区成员的语义相似性且无法处理具有多元语义话题的语义社会网络社区发现问题,提出基于话题因子分析的语义社会网络社区发现算法.该算法将节点的多元信息抽象为话题,先以多元话题综合因子作为节点话题信息度量,以节点间的话题密度差异作为节点聚合方向,构建初始社区结构;再以最大化社区内部话题信息相似度和最小化社区外部话题信息相似度为目标建立语义社区发现的目标函数及节点变动的代价函数;再以初始社区结构和代价函数作为初始解和判断准则,以节点变动的代价函数值为参数,建立全局优化的模拟退火策略优化语义社区结构,实现语义社会网络的语义社区发现;最后通过实验分析验证了算法的有效性.  相似文献   

19.
基于复杂网络社区结构的论坛热点主题发现   总被引:4,自引:3,他引:1       下载免费PDF全文
王林  戴冠中 《计算机工程》2008,34(11):214-216
社区结构是复杂网络的重要特征之一,该文通过构造基于兴趣的论坛用户网络,成功地将社区结构发现的理论与方法应用于论坛热点主题的自动发现,提出了极大社区的概念和反复挖掘极大社区的方法,发现网络结构和论坛主题在反复挖掘过程中均几乎保持不变。仿真结果表明,提取效果令人满意。  相似文献   

20.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号