首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于领域本体的语义标注方法研究   总被引:3,自引:0,他引:3  
介绍了语义Web.本体以及语义标注的基本概念,对语义标注方法以及现有技术工具进行了简单地说明和分析,提出了一种基于领域本体的语义标注方法,并结合石油产品领域的本体对该方法进行了实例说明.该方法通过分析文档的特征词汇,使用基于领域本体的空间向量模型方法建立词汇与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,这样数据库内部文档之间就具有了语义关联关系,为检索的智能推理提供基础.  相似文献   

2.
提出一种基于领域服务本体的语义标注方法.并结合电力系统领域本体对该方法进行实例说明,该方法通过分析文档(或者网页)的关键信息,使用基于OWL-S本体的语义描述方法建立关键信息与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的Web服务信息显式地表现出来,这样多个文档(或者网页)之间就具有语义关联关系.为服务的语义解析及智能监控提供基础.  相似文献   

3.
随着大数据时代的来临,如何有效从海量的文本数据中挖掘和分析主题特征已成为学者们的研究重点。隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)作为经典的概率主题模型,因其自身优越的文本分析能力被广泛应用。然而,该模型大多以包含隐含主题变量的有向图的形式存在,实现文档的表达具有局限性。而分布式表示方法定义文档的语义分布在多个主题中并由多主题特征相乘得到;且由于传统的无监督特征提取模型无法有效处理含类别标记的文档数据,故在研究受限玻尔兹曼机(Restricted Bolzmann Machine,RBM)的基础上,结合文本主题的分布式特性,提出了基于RBM的分布式主题特征提取模型NRBM,其自身作为典型的半监督模型能够有效利用文档中的多标记信息。最终与标准LDA主题模型的对比实验证明了NRBM模型的优越性。  相似文献   

4.
罗海蛟  柯晓华 《计算机科学》2017,44(Z11):102-105, 128
主观题自动评分(Automated Scoring Subjective Responses,ASSR)在语言学习与语言测试领域的诊断信息及信度方面具有重要的应用前景。将主题模型中的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)引入到中文主观题自动评分中,提出了一种结合专家知识的改进的LDA模型,并采用了一种综合文档-隐含主题概率向量及隐含主题-核心词项概率向量的文本特征表示方式。实验对比了改进的LDA与潜在语义分析(Latent Semantic Analysis,LSA)的自动评分效果,结果表明改进的LDA模型在中文主观题自动评分中切实有效。  相似文献   

5.
针对民航突发事件应急管理领域本体的自动更新问题,提出了基于LDA的领域本体概念获取方法。以文本信息作为数据源,采用NLPIR自适应分词与过滤方法获取候选术语集,设计了领域本体的LDA主题模型,通过吉布斯采样进行LDA模型训练与主题推断,实现了领域本体核心概念的相关术语提取;基于LDA主题概率分布研究了语义关系识别规则的构建方法,给出了概念及其相关术语语义关系的识别与实现过程。实验效果表明,该方法可以有效解决大规模领域本体概念的自动更新问题,为大数据环境下民航突发事件跨媒体信息的共享与推理提供了良好的数据支持。  相似文献   

6.
基于本体集成的语义标注模型设计   总被引:1,自引:0,他引:1  
语义Web的全面实现需借助于语义标注,标注网页信息会涉及到多个本体.据此,通过研究桥本体,提出一个在本体集成的基础上建立起来的多本体语义标注模型.该模型利用桥本体集成顶层本体和多个领域本体,同时借助基于本体的信息抽取技术对网页进行语义标注,并将标注信息存入标注库,使标注信息与网页分离,提高语义检索的效率.通过举例说明了本模型的合理性.  相似文献   

7.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

8.
李伟  马永征  沈一 《计算机科学》2014,41(3):223-227
隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种用于挖掘文档集中潜在主题信息的无监督主题模型。而LDA模型的变形Labeled-LDA则可以作为有监督的多标签分类器,它建立了主题与标签的一一映射,从而学习出词与标签之间的关系。近年来,图模型在文本挖掘方面的应用取得了良好的效果,通过对文档建立图模型,为进一步分析文档的语义提供了新的途径。提出了一种利用Labeled-LDA和文档图模型进行文本分类的新算法,与传统的LDA模型方法相比,该方法的性能有较大的提高。  相似文献   

9.
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA).首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分.通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率.  相似文献   

10.
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。  相似文献   

11.
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。  相似文献   

12.
基于主题图的本体信息检索模型研究   总被引:1,自引:0,他引:1  
针对本体在定义领域概念时具有规范性、明确性和可共享性等特点,结合主题图对文档资源组织方式具有语义可导航性,提出了一种基于主题图的本体信息检索模型,并给出了模型的形式化定义。选择旅游领域作为研究对象,定义了旅游本体和旅游文档资源主题图,分析了在信息检索模型中利用本体来规范用户自然语言查询输入,识别用户检索意图和扩展查询语义方面的作用,并展示了主题图在语义导航和用户相关度排序方面的价值。最后通过实验表明基于主题图的本体信息检索模型较传统的检索系统有较好的性能。  相似文献   

13.
田保军  刘爽  房建东 《计算机应用》2020,40(7):1901-1907
针对传统的协同过滤算法中数据稀疏和推荐结果不准确的问题,提出了一种基于隐狄利克雷分布(LDA)与卷积神经网络(CNN)的概率矩阵分解推荐模型(LCPMF),该模型综合考虑项目评论文档的主题信息与深层语义信息。首先,分别使用LDA主题模型和文本CNN对项目评论文档建模;然后,获取项目评论文档的显著潜在低维主题信息及全局深层语义信息,从而捕获项目文档的多层次特征表示;最后,将得到的用户和多层次的项目特征融合到概率矩阵分解(PMF)模型中,产生预测评分进行推荐。在真实数据集Movielens 1M、Movielens 10M与Amazon上,将LCPMF与经典的PMF、协同深度学习(CDL)、卷积矩阵因子分解模型(ConvMF)模型进行对比。实验结果表明,相较PMF、CDL、ConvMF模型,所提推荐模型LCPMF的均方根误差(RMSE)和平均绝对误差(MAE)在Movielens 1M数据集上分别降低了6.03%和5.38%、5.12%和4.03%、1.46%和2.00%,在Movielens 10M数据集上分别降低了5.35%和5.67%、2.50%和3.64%、1.75%和1.74%,在Amazon数据集上分别降低17.71%和23.63%、14.92%和17.47%、3.51%和4.87%,验证了所提模型在推荐系统中的可行性与有效性。  相似文献   

14.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

15.
社会化标签提供了网页信息的额外描述,直观上对搜索具有重要价值。该文提出一种新颖的利用社会化标签的分类属性进行检索的方法。该方法通过将群体的标注信息建模为高层类别来估计话题模型,然后基于该话题模型来对语言模型进行平滑。建模方法可以降低标注稀疏性的影响,有效地表达标签含义,从而提升检索效果。基于TREC评测构建的数据集上的实验结果表明,该方法优于基于LDA的检索方法以及现有其他基于标签数据的检索方法。  相似文献   

16.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。  相似文献   

17.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

18.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号