共查询到20条相似文献,搜索用时 140 毫秒
1.
随着网络的发展,主题提取的应用越来越广泛,尤其是学术文献的主题提取。尽管学术文献摘要是短文本,但其具有高维性的特点导致文本主题模型难以处理,其时效性的特点致使主题挖掘时容易忽略时间因素,造成主题分布不均、不明确。针对此类问题,提出一种基于TTF-LDA(time+tf-idf+latent Dirichlet allocation)的学术文献摘要主题聚类模型。通过引入TF-IDF特征提取的方法,对摘要进行特征词的提取,能有效降低LDA模型的输入文本维度,融合学术文献的发表时间因素,建立时间窗口,限定学术文献主题分析的时间,并通过文献的发表时间增加特征词的时间权重,使用特征词的时间权重之和协同主题引导特征词词库作为LDA的影响因子。通过在爬虫爬取的数据集上进行实验,与标准的LDA和MVC-LDA相比,在选取相同的主题数的情况下,模型的混乱程度更低,主题与主题之间的区分度更高,更符合学术文献本身的特点。 相似文献
2.
一种基于字同现频率的汉语文本主题抽取方法 总被引:24,自引:0,他引:24
主题抽取是文本自动处理的基础工作之一,而主题的抽取一直以分词或者抽词作为第1步.由于汉语词间缺少明显的间隔,因此分词和抽词的效果往往不够理想,从而在一定程度上影响了主题抽取的质量.提出以字为处理单位,基于字同现领率的汉语文本主题自动抽取的新方法.该方法速度快,适应多种文体类型,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于其他语言的文本主题抽取.主题句自动抽取实验表明,该方法抽取新闻文本主题句的正确率达到77.19%.汉语文本的主题抽取比较实验还表明,省略分词步骤并没有降低抽取算法的正确率. 相似文献
3.
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。 相似文献
4.
主题检测是文本挖掘的一个重要研究方向,传统的主题检测方法以统计理论为基础,忽略了数据本身蕴含的语义,带来了偏差严重、与样本数据高度相关等缺点。针对以上缺点,面向文本流数据,提出一种基于特征本体的主题检测方法。首先构建文本特征本体;其次,将较为复杂的文本特征本体看作是由若干主题组成的连通图,然后将主题连通图分解成单边图集合;再次,将主题相似度计算问题转化为单边图贡献度和图相似度的计算问题。最后,对每一批新文本集检测是否有新主题,从而使得主题的个数随着时间的推移而增加。在科技文献和新闻语料上进行实证研究,结果发现阈值δ参数决定文本流中新主题出现的频率,且实验结果同经典主题模型基本保持一致。除此之外,同传统的方法相比,本文提出的方法能更好地支持主题的语义表示,且适用于流数据,能增量实现主题检测,在应用上具有更大的优势。 相似文献
5.
传统无监督的主题建模方法利用相互独立的主题变量抽象描述文本语义,忽略了各主题内部隐含的结构和联系,粗粒化的文本主题分析加剧了“强制主题”问题对文本建模的影响。该文通过研究主题网络社区内部结构,结合主题内部语义耦合关系与网络拓扑结构,提出伪主题分析方法来识别和解释主题,实现从网络结构角度描述文本语义特征,弥补统计主题分析方法对文本语义结构刻画的不足。 相似文献
6.
7.
为使科研人员节省时间,高效阅读学术文献信息,提出一种学术文献摘要的主题聚类模型——优化主题数目作者层主题聚类模型(WBLDA)。首先在预处理阶段,自定义符合学术文献摘要特点的分词词典和停用词词典,解决学术文献摘要分词不准确的问题;在特征提取阶段,提出增大词频特征提取方法(ITF-IDF),使用词频放大法来增大词频,弱化文本长度对特征权重的影响,提取出更加符合学术文献摘要方向的特征词;最后,针对传统的主题模型忽略作者这一重要属性的缺点,在主题聚类模型中引入学术文献摘要的作者信息,构建文档—主题+作者—词的WBLDA模型,同时使用贝叶斯准则优化主题聚类模型的主题数。通过对学术文献摘要数据集仿真实验结果表明,与TF-IDF相比,ITF-IDF方法的特征提取准确率更高;与LDA相比,WBLDA模型的聚类纯度和◢F◣-score值也更高,选择出的主题更加准确,更能代表摘要的学术方向。 相似文献
8.
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能. 相似文献
9.
文本主题的自动提取方法研究与实现 总被引:1,自引:0,他引:1
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。 相似文献
10.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。 相似文献
11.
12.
13.
14.
15.
以广东金融学院金融学科实验中心为例,依据中心的建设与发展自身情况,以服务地方经济培养应用型人才为目标,对金融学科实验室进行整合,根据高校金融学专业方向,构建和完善金融学科全方位实验平台,大力推进实验教学模式的创新,培养具有扎实理论基础并具有实践分析判断能力的创新型金融人才。 相似文献
16.
利用串匹配技术实现网上新闻的主题提取 总被引:9,自引:0,他引:9
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据" 词典加匹配"的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取. 提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 相似文献
17.
图书馆是高校的知识资源中心,图书馆学科服务架起师生和学科资源间的桥梁,让师生能顺畅、自由、愉快地徜徉在知识的海洋里。但地方高校图书馆整体资源有限,在这种情况下开展学科服务面临着经费、人员学历、绩效考评等问题。本文阐述学科服务的意义,梳理国内、外高校图书馆学科服务开展的现状,站在资源受限的角度提出一些学科服务的新思路,希望能给尚未开展学科服务的高校图书馆提供一些参考。 相似文献
18.
19.
20.
为建立科学合理的武器装备论证指标体系,提出基于群决策的指标体系建立方法。采用分布同步和分布异步相结合的群决策组织方式,将指标体系建立过程分为指标体系结构研讨和指标体系取值2个部分,针对指标体系结构研讨提出主题生成函数和综合研讨方法。基于该方法开发的指标体系生成系统已在多项武器装备论证任务中得到应用。 相似文献