共查询到19条相似文献,搜索用时 46 毫秒
1.
潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具。但是它是建立在词袋模型假设上的(BOW,bag of word),这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系。同时针对现有的模型精度不高,我们提出了基于中心词的上下文主题模型,这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密。在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算。这种方法就会形成窗口与窗口之间的顺序,从而形成了单词之间也是局部有序,同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关。通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度。 相似文献
2.
LDA(Latent Dirichlet Allocation)是一个分层的概率主题模型,目前被广泛地应用于文本挖掘。这种模型既不考虑文档与文档之间的顺序关系,也不考虑同一篇文档中词与词之间的顺序关系,简化了问题的复杂性,同时也为模型的改进提供了契机。针对此问题提出了基于滑动窗口的主题模型,该模型的基本思想是文档中的一个单词的主题与其附近若干单词的主题关系越紧密,受附近单词主题的影响越大。根据窗口和滑动位移的大小,把文档切割为粒度更小的片段。同时,针对大数据集和数据流问题,提出了在线滑动窗口主题模型。在4个数据集上的实验表明,基于滑动窗口的主题模型训练出来的模型在数据集上有更好的泛化性能和精度。 相似文献
3.
针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题-单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。 相似文献
4.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值. 相似文献
5.
针对传统实体对齐方法中的有监督学习算法依赖大量标注数据,以及特征表示不适用于百科知识库等问题,提出一种基于半监督协同训练的实体对齐方法。将实体对齐建模为一个带约束的二分类问题,充分利用实体名、属性、描述文本及其中的时间、数值等关键信息,组合生成多维特征;将特征划分为2个相对独立的视图,通过2个视图上分类器的协同训练,迭代地从未标注数据中学习同义实体的分布情况。在2个中文百科上的实验结果表明,使用半监督协同训练方法进行实体对齐的F1值达到84.3%,较其他方法效果最优,证明了其有效性和在百科知识库上的实用价值。 相似文献
6.
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种mRMR_LDA算法,预先使用mRMR特征选择算法将输入空间映射到低维空间,过滤掉非作用词,使得LDA能在更简洁和更清晰的空间上进行主题标签,得到更精确的主题分布。对20 Newsgroups语料库和复旦大学语料库进行分类,分类精度分别提高了1.53%和1.18%,实验结果表明提出的mRMR_LDA模型在文本分类中有较好的分类性能。 相似文献
7.
基于LDA模型的新闻话题的演化 总被引:1,自引:0,他引:1
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。 相似文献
8.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。 相似文献
9.
实体对齐技术旨在识别并匹配不同知识图谱中指代同一实体的项,对于知识图谱的融合具有至关重要的作用,其在知识补全、社交网络分析等多个领域已经展现出广泛的应用潜力与显著的实用价值.随着基于知识表征学习的实体对齐方法的不断演进,研究者们开始探索利用实体之间的多种信息维度来计算相似度,从而评估源实体与目标实体之间的相似性.尽管如此,实体的部分属性信息在目前已有的方法中仍未得到充分利用,尤其是实体属性中的主题信息,通过主题模型能够识别出实体间更为显著的语义联系.针对这一研究,以实体属性的主题信息为核心,提出了一种实体对齐框架EAGT (knowledge graph entity alignment via graph convolutional network with biterm topic model),通过实体主题结合图卷积神经网络进行实体对齐.为了验证所提方法的有效性,在开源的数据集上进行了实验,结果表明, EAGT在大多数情况下均实现了性能提升. 相似文献
10.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。 相似文献
11.
多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求, 因此融合不同模态知识的多模态知识图谱应运而生. 然而, 现有多模态知识图谱存在图谱知识不完整的问题, 严重阻碍对信息的有效利用. 缓解此问题的有效方法是通过实体对齐进行知识图谱补全. 当前多模态实体对齐方法以固定权重融合多种模态信息, 在融合过程中忽略不同模态信息贡献的差异性. 为解决上述问题, 设计一套自适应特征融合机制, 根据不同模态数据质量动态融合实体结构信息和视觉信息. 此外, 考虑到视觉信息质量不高、知识图谱之间的结构差异也影响实体对齐的效果, 本文分别设计提升视觉信息有效利用率的视觉特征处理模块以及缓和结构差异性的三元组筛选模块. 在多模态实体对齐任务上的实验结果表明, 提出的多模态实体对齐方法的性能优于当前最好的方法. 相似文献
12.
医学领域知识融合旨在将分散在各个知识图谱或不同数据源中的医学知识进行整合,形成一个更全面的知识图谱,在提高知识质量、扩大规模、提高医学知识利用率和共享性等方面具有促进作用.围绕知识融合的问题和解决方案,首先系统地梳理了医学领域知识融合的定义、评价指标及数据集;分类讨论了知识融合过程中存在的问题与挑战;然后从问题、技术两个维度,综述了目前知识融合中实体对齐、实体链接任务各方法的优势与不足;详细讨论和总结了医学领域知识融合每一类问题的相关解决方案;最后,总结并展望了医学领域知识融合的发展方向. 相似文献
13.
实体对齐是知识图谱融合技术的关键环节,然而现有方法在处理跨语言图谱时未能充分利用图谱数据,在此提出一种方法融合图像信息的多嵌入表示实体对齐方法。该方法从不同角度获取文本嵌入,并利用图像数据丰富文本嵌入,实现多模态信息融合以完成跨语言图谱的实体对齐任务。通过图像生成模型解决实体图像覆盖不完全问题,结合迭代策略获得高质量实体图像信息以扩充跨语言知识图谱中种子序列对。为了更好适用现实世界真实知识图谱融合过程,该方法将对齐阶段转换为二分图匹配问题。提出的方法在公开数据集上进行了实验分析,实验结果表明了方法的良好性能,还通过消融实验验证各模块的有效性,并针对不同情况提供了参数的可选择性。 相似文献
14.
多模态实体对齐旨在识别由结构三元组和与实体相关的图像组成的不同的多模态知识图谱之间的等价实体。现有的多模态实体对齐的研究主要集中在多模态融合策略,忽略了模态缺失和不同模态难以融合的问题,未能充分利用多模态信息。为了解决上述问题,提出了MACEA模型,该模型使用多模态变分自编码方法主动补全缺失的模态信息,动态模态融合方法整合不同模态的信息并相互补充,模态间对比学习方法对模态间进行建模,这些方法有效解决了模态缺失与模态难以融合的问题。相比于当前基线模型,MACEA的hit@1和MRR指标分别提升了5.72%和6.78%,实验结果表明,该方法可以有效地识别出对齐实体对,具有较高的准确性和实用性。 相似文献
15.
16.
在知识图谱的整合过程中,实体对齐(EA)任务至关重要.最先进的研究引入了外部知识(属性文本、时间戳、图像信息等)以及多模态方法,取得了较高的精度,但这些方法往往对特定结构有较强的依赖性,这限制了它们在不同结构知识图谱实体对齐任务中的适用性.为了解决这一问题,本文提出了一种通用的知识图谱实体对齐方法,该方法利用知识图谱共有的实体、关系与图结构等信息工作,上述部分在知识图谱中可被直接观察到,因此统称为表层信息.本文方法包含嵌入生成模块和对齐模块,其中嵌入模块使用Transformer模型捕捉实体的固有语义及其邻居的贡献,对齐模块则通过匹配算法实现高性能且稳定的对齐.实验结果表明,我们的方法在多个主流知识图谱间的对齐场景中实现了最先进的性能,展现出稳定和可解释性强的特点.我们的代码可在https://github.com/zb1tree/TGEA获取. 相似文献
17.
18.
19.
多模态实体对齐是知识融合过程中的关键一步,但异构的多模态知识图谱拥有较大的结构差异性,并且其多模态信息存在不完全性,利用当前的多模态实体对齐方法无法取得较好的对齐效果。针对上述问题,提出了基于互信息自适应的多模态实体对齐方法。一方面通过设计自适应融合机制来减小模态差异以及依据模态信息的贡献程度动态分配权重,另一方面引入互信息作为附加特征来强化实体的特征表示,最后利用实体相似度计算来进行实体对齐。实验表明,在5个通用的数据集上,MAMEA相较于当前基线模型,指标hits@1最大可提升1.8%,最小可提升1.4%,指标MRR最大可提升1.4%,最小可提升0.8%,证明了该模型可有效地提升多模态实体对齐的效果。 相似文献