首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具。但是它是建立在词袋模型假设上的(BOW,bag of word),这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系。同时针对现有的模型精度不高,我们提出了基于中心词的上下文主题模型,这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密。在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算。这种方法就会形成窗口与窗口之间的顺序,从而形成了单词之间也是局部有序,同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关。通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度。  相似文献   

2.
LDA(Latent Dirichlet Allocation)是一个分层的概率主题模型,目前被广泛地应用于文本挖掘。这种模型既不考虑文档与文档之间的顺序关系,也不考虑同一篇文档中词与词之间的顺序关系,简化了问题的复杂性,同时也为模型的改进提供了契机。针对此问题提出了基于滑动窗口的主题模型,该模型的基本思想是文档中的一个单词的主题与其附近若干单词的主题关系越紧密,受附近单词主题的影响越大。根据窗口和滑动位移的大小,把文档切割为粒度更小的片段。同时,针对大数据集和数据流问题,提出了在线滑动窗口主题模型。在4个数据集上的实验表明,基于滑动窗口的主题模型训练出来的模型在数据集上有更好的泛化性能和精度。  相似文献   

3.
针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题-单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。  相似文献   

4.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.  相似文献   

5.
针对传统实体对齐方法中的有监督学习算法依赖大量标注数据,以及特征表示不适用于百科知识库等问题,提出一种基于半监督协同训练的实体对齐方法。将实体对齐建模为一个带约束的二分类问题,充分利用实体名、属性、描述文本及其中的时间、数值等关键信息,组合生成多维特征;将特征划分为2个相对独立的视图,通过2个视图上分类器的协同训练,迭代地从未标注数据中学习同义实体的分布情况。在2个中文百科上的实验结果表明,使用半监督协同训练方法进行实体对齐的F1值达到84.3%,较其他方法效果最优,证明了其有效性和在百科知识库上的实用价值。  相似文献   

6.
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种mRMR_LDA算法,预先使用mRMR特征选择算法将输入空间映射到低维空间,过滤掉非作用词,使得LDA能在更简洁和更清晰的空间上进行主题标签,得到更精确的主题分布。对20 Newsgroups语料库和复旦大学语料库进行分类,分类精度分别提高了1.53%和1.18%,实验结果表明提出的mRMR_LDA模型在文本分类中有较好的分类性能。  相似文献   

7.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

8.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

9.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。  相似文献   

10.
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出 LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。  相似文献   

11.
针对目前旅游领域实体对齐任务中的长尾实体过多和现有知识以及标注数据稀缺的问题,提出一种基于多视图知识表示和神经网络相结合的实体对齐方法。采用预训练模型完成多视图的知识表示学习,获得了实体的结构嵌入、关系嵌入和描述信息嵌入,然后利用卷积神经网络对结合了三种视图嵌入的实体综合嵌入进行相似度计算。实验精准率达到91.4%、召回率达到87.9%、综合指标F1值达到89.6%。结果表明,该方法有效地完成了旅游领域的实体对齐任务。  相似文献   

12.
实体对齐旨在发现并链接不同知识图谱中指向现实世界的相同实体对象.针对基于图卷积网络的实体对齐通常作用于单一关系类型的无向图,容易导致对应实体学习的嵌入结果不一致问题,构建了一种基于双向图卷积网络和变异系数法的实体对齐模型.该模型通过拆分非对称邻接权重矩阵构建双向图卷积网络方法,学习实体前后向隐藏特征,实现实体的完整表示;同时通过变异系数法为属性加权,选择最有代表性的实体局部语义信息,有效提高实体对齐精确度.通过在两组大型真实异构数据集上对模型进行验证,实验结果表明,该方法与现有基于嵌入的实体对齐方法相比Hit@1值平均提高了4%,同时保持较高的平均倒数秩,在一定程度上可以提高实体对齐效果.  相似文献   

13.
赵丹  张俊 《计算机应用研究》2022,39(1):64-69+79
实体对齐任务目标是在知识图谱间发现更多的等价实体对。目前一些实体对齐方法聚焦实体结构和属性信息,却没有很好地处理两者交互学习的问题。为此,提出一种基于双重注意力和关系语义建模的实体对齐方法,采用双重注意力在属性分类嵌入的基础上学习实体属性和结构的交互特征,采用关系语义建模对实体结构嵌入进行局部语义优化,最后对实体多方面语义特征下的相似度矩阵进行融合。在三个真实数据集上的对齐准确率分别可达到81.00%、83.90%和92.73%,与基准模型相比平均提升了2.62%,实验结果表明提出的方法可以有效地识别出对齐实体对。  相似文献   

14.
知识表示学习旨在将知识图谱中的实体和关系表示成低维稠密实值向量,能有效缓解知识图谱的数据稀疏性和显著提升计算效率。然而,现有大多数知识表示学习方法仅将实体视为三元组的一个组成部分,没有考虑实体自身具有的特质,如实体相似性。为了加强嵌入向量的语义表达,提出基于实体相似性的表示学习方法SimE。该方法首先利用实体的结构邻域度量实体的相似性,再将实体的相似性和拉普拉斯特征映射结合作为基于三元组事实的表示学习方法的约束,形成联合表示。实验结果表明,该方法在链接预测和三元组分类等任务上与目前最好的方法性能接近。  相似文献   

15.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

16.
Biomedical entity alignment, composed of two subtasks: entity identification and entity-concept mapping, is of great research value in biomedical text mining while these techniques are widely used for name entity standardization, information retrieval, knowledge acquisition and ontology construction.Previous works made many efforts on feature engineering to employ feature-basedmodels for entity identification and alignment. However, the models depended on subjective feature selection may suffer error propagation and are not able to utilize the hidden information.With rapid development in healthrelated research, researchers need an effective method to explore the large amount of available biomedical literatures.Therefore, we propose a two-stage entity alignment process, biomedical entity exploring model, to identify biomedical entities and align them to the knowledge base interactively. The model aims to automatically obtain semantic information for extracting biomedical entities and mining semantic relations through the standard biomedical knowledge base. The experiments show that the proposed method achieves better performance on entity alignment. The proposed model dramatically improves the F1 scores of the task by about 4.5% in entity identification and 2.5% in entity-concept mapping.  相似文献   

17.
为解决机械产品设计中知识融合的问题,建立了一种基于本体的产品设计知识模型。基于此,提出了一种基于模糊证据理论的融合推理方法,这种方法将模糊集引入证据识别空间中,利用证据合成与决策规则得出知识融合的结果,这种方法弥补了本体建模时的不足并解决了不确定性知识的推理。最后,将该知识模型应用于制造行业产品设计中,帮助制造企业缩短产品设计周期和提高开发质量,同时也有利于产品设计知识的共享和重用。  相似文献   

18.
胡婕  胡燕  刘梦赤  张龑 《计算机应用》2022,42(9):2680-2685
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020 和 MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。  相似文献   

19.
余敦辉  万鹏  王社 《计算机应用》2021,41(9):2510-2516
针对目前知识图谱查询中节点之间语义关联性不高、查询效率低等问题,提出了一种实体关联的查询方法,然后以此为基础设计并实现了基于知识图谱的企业查询系统。所提查询方法采用四层过滤模型,首先通过路径搜索找到目标节点的公共路径,从而过滤掉关联程度较低的查询节点,得到过滤集合;然后在中间两层分别对过滤集合的属性和关系计算关联度,再基于动态阈值完成图集过滤;最后综合实体关联度和关系关联度得分并排序得到最终的查询结果。基于真实企业数据进行的实验结果表明,与Ness、NeMa等传统图查询方法相对比,所提方法在查询时间上平均降低了28.5%,同时在过滤性能上平均提高了29.6%,可见该方法能高效完成查询和展示与目标相关联实体的任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号