首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 406 毫秒
1.
融合语义主题的图像自动标注   总被引:7,自引:0,他引:7  
由于语义鸿沟的存在,图像自动标注已成为一个重要课题.在概率潜语义分析的基础上,提出了一种融合语义主题的方法以进行图像的标注和检索.首先,为了更准确地建模训练数据,将每幅图像的视觉特征表示为一个视觉"词袋";然后设计一个概率模型分别从视觉模态和文本模态中捕获潜在语义主题,并提出一种自适应的不对称学习方法融合两种语义主题.对于每个图像文档,它在各个模态上的主题分布通过加权进行融合,而权值由该文档的视觉词分布的熵值来确定.于是,融合之后的概率模型适当地关联了视觉模态和文本模态的信息,因此能够很好地预测未知图像的语义标注.在一个通用的Corel图像数据集上,将提出的方法与几种前沿的图像标注方法进行了比较.实验结果表明,该方法具有更好的标注和检索性能.  相似文献   

2.
互联网中网页的快速增长使得增量链接分析算法成为网页排序的一种有效手段,可以避免因重复建模未曾变化的网页而带来的时间和资源上的浪费。链接变化规律的发现和利用是增量链接分析技术的一个关键。提出了一种高效稳定的改进PHITS模型——增量PHITS (IPHITS)。该模型充分应用Folding in机制合理利用已有训练结果, 从而将新增文本及链接信息高效地融入已训练好的PHITS模型, 有效地克服了PHITS模型无法适应动态变化的链接结构以及不稳定的问题。在链接网页和互引文献的互连数据上的实验表明,IPHITS  相似文献   

3.
本文针对微博内容较短、歧义较大的问题,利用概率主题模型对用户的兴趣进行建模,提出了一种基于用户兴趣的微博实体链接方法。具体地,本文首先利用现有的主题模型从知识库的大量数据中训练实体与上下文词汇的语义关联,然后提出用户兴趣主题模型来建模用户对实体的兴趣以及微博的语义,并完成实体链接的任务。此外,本文在真实数据集上进行了大量实验和分析,取得了87.6%的实体链接准确率,实验结果表明,与现有方法相比,该方法通过用户兴趣的建模更好地刻画了微博的语义,因而也取得了更高的实体链接准确率。  相似文献   

4.
怀宝兴  宝腾飞  祝恒书  刘淇 《软件学报》2014,25(9):2076-2087
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如“苹果”既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.  相似文献   

5.
基于隐含狄利克雷分配模型的图像分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
杨赛  赵春霞 《计算机工程》2012,38(14):181-183
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。  相似文献   

6.
新闻主题追踪是对主体所感兴趣的新闻主题的发展趋势进行动态追踪,其优势在于对所感兴趣的主题基于文本模型及理解的动态追踪,因此更多地涉及文本表示与语义理解。LSSVM首先将文本利用LSI(隐含语义分析)进行分析,完成对文本基于语义的特征降维及文本表示;然后将隐含语义文本表示的结果输出给SVM进行主题追踪,从而实现从语义层次上的新闻主题追踪。实验结果表明,与传统的主题追踪相比较,该方法能够有效提高主题追踪的性能,减少追踪的错报率和漏报率。  相似文献   

7.
新闻主题追踪是对主体所感兴趣的新闻主题的发展趋势进行动态追踪,其优势在于对所感兴趣的主题基于文本模型及理解的动态追踪,因此更多地涉及文本表示与语义理解。LS-SVM首先将文本利用LSI(隐含语义分析)进行分析,完成对文本基于语义的特征降维及文本表示;然后将隐含语义文本表示的结果输出给SVM进行主题追踪,从而实现从语义层次上的新闻主题追踪。实验结果表明,与传统的主题追踪相比较,该方法能够有效提高主题追踪的性能,减少追踪的错报率和漏报率。  相似文献   

8.
中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,这验证了该算法的可行性。  相似文献   

9.
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。  相似文献   

10.
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.  相似文献   

11.
Topic modeling is a powerful tool for discovering the underlying or hidden structure in text corpora. Typical algorithms for topic modeling include probabilistic latent semantic analysis (PLSA) and latent Dirichlet allocation (LDA). Despite their different inspirations, both approaches are instances of generative model, whereas the discriminative structure of the documents is ignored. In this paper, we propose locally discriminative topic model (LDTM), a novel topic modeling approach which considers both generative and discriminative structures of the data space. Different from PLSA and LDA in which the topic distribution of a document is dependent on all the other documents, LDTM takes a local perspective that the topic distribution of each document is strongly dependent on its neighbors. By modeling the local relationships of documents within each neighborhood via a local linear model, we learn topic distributions that vary smoothly along the geodesics of the data manifold, and can better capture the discriminative structure in the data. The experimental results on text clustering and web page categorization demonstrate the effectiveness of our proposed approach.  相似文献   

12.
针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例多标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本的潜在主题分布,该过程是一个特征学习的过程,用于学习到更好的特征表达,用学习到的每个样本的潜在主题分布作为输入来训练神经网络。当给定一个测试样本时,学习测试样本的潜在主题分布,将学习到的潜在主题分布输入到训练好的神经网络中,从而得到测试样本的标记集合。与两种经典的基于分解策略的多示例多标记算法相比,实验结果表明提出的新方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。  相似文献   

13.
The prediction of stream water temperature presents an interesting topic since the water temperature has a significant ecological and economical role, such as in species distribution, fishery, industry and agriculture water exploitation. The prediction of stream water temperature is usually based on appropriate mathematical model and measurements of different atmospheric factors. In this paper, a probabilistic approach to daily mean water temperature prediction is proposed. The resulting model is a combination of two Gaussian process regression models where the first model describes the long-term component of water temperature and the other model describes the short-term variations in water temperature. The proposed approach is developed even further by modeling the short-term variations with multiple Gaussian process regression models instead with a single one. Apart from that, variable selection procedure based on mutual information is presented which is suitable for input variable selection when nonlinear models for stream water prediction are developed. The proposed approach is compared with traditional modeling approaches on the measurements obtained on the Drava river in Croatia. The presented methodology can be used as a basis of the predictive tools for water resource managers.  相似文献   

14.
徐啸  金涛  王建民 《软件学报》2018,29(11):3295-3305
在健康领域,诊疗过程对于医疗质量至关重要.临床路径集合了各种医疗知识,是对诊疗过程进行标准化的重要途径.然而,当前大多数临床路径由专家研讨制定,往往静态不变,难以部署和实施.在我们之前的工作中,提出了一种基于主题的临床路径挖掘算法,可以从医疗数据中抽取历史执行路径,客观反映数据中实际存在的医疗模式.算法首先通过主题模型将繁杂的诊疗活动聚合成若干主题,而每个诊疗日就可以表示为一个主题分布,一个病人的诊疗日志也相应的转换为一个主题序列,然后利用过程挖掘方法从这些主题序列中生成基于主题的临床路径模型.但传统主题模型(LDA)的聚类效果往往难以满足医疗数据的特点,导致主题质量不高,影响最终过程模型的可解释性.其中,一个普遍的问题就是LDA无法保证两个相似的诊疗日所得的主题分布也是相似的,这是由于其忽略了诊疗日之间原有的相似性特征.在本文中,我们提出了一种优化的主题模型算法,该算法引入了基于本体生成的诊疗日相似性约束,可以有效提升聚类效果.实验结果表明,我们提出的方法能够发现更符合医疗领域特点的高质量主题,进而为基于主题的临床路径的挖掘奠定基础.  相似文献   

15.
王金宝 《计算机应用》2006,26(5):1099-1101
为了适应实时在线的网络信息过滤需求,提出了一种新的自适应过滤模型。在系统的初始化阶段,运用增量学习方法对附加的少量伪相关文档进行学习,采用改进的文档词频方法来抽取特征词,以此扩展需求模板,提高模板准确度。在系统测试阶段,以系统效能指标最优为目标,提出了将概率模型和文档正例分布统计方法相结合来实现阈值优化的新算法。  相似文献   

16.
Indexing the Web is becoming a laborious task for search engines as the Web exponentially grows in size and distribution. Presently, the most effective known approach to overcome this problem is the use of focused crawlers. A focused crawler employs a significant and unique algorithm in order to detect the pages on the Web that relate to its topic of interest. For this purpose we proposed a custom method that uses specific HTML elements of a page to predict the topical focus of all the pages that have an unvisited link within the current page. These recognized on-topic pages have to be sorted later based on their relevance to the main topic of the crawler for further actual downloads. In the Treasure-Crawler, we use a hierarchical structure called T-Graph which is an exemplary guide to assign appropriate priority score to each unvisited link. These URLs will later be downloaded based on this priority. This paper embodies the implementation, test results and performance evaluation of the Treasure-Crawler system. The Treasure-Crawler is evaluated in terms of specific information retrieval criteria such as recall and precision, both with values close to 50%. Gaining such outcome asserts the significance of the proposed approach.  相似文献   

17.
Nowadays the emergency decision has become a hot topic in the field of decision-making with interval-valued Pythagorean fuzzy linguistic (IVPFL) information. Moreover, with the increase of attributes and decision makers, the complexity of the operation is a great challenge for making decision. How to overcome multicollinearity is a crucial link in the emergency decision modeling process. In this paper, we treat the attributes and DMs as IVPFL variables and construct the IVPFL principal component analysis (IVPFL-PCA) model to overcome the multicollinearity. Then, a novel TODIM (abbreviation for interactive and multicriterial decision-making in Portuguese) method is proposed to tackle the IVPFL information under several new variables that are independent of each other (i.e., the PCs) and the reasonable weights of PCs obtained based on the IVPFL-PCA model. Finally, a case study on earthquake emergency decision is presented to show the applicability of the proposed approach and some comparisons are presented to illustrate its superiorities.  相似文献   

18.
现有知识图谱表示学习研究中普遍存在忽视特定关系的语义空间、难以建模非单射复杂关系或多种关系模式等问题,尤其是在不可交换的组合以及子关系两种关系模式上表现不佳。针对该问题,在对实体自适应投影的基础上,利用罗德里格斯旋转公式将旋转操作从二维空间拓展到三维空间并进行平移优化,提出一种新的具有强表征能力的模型ATR3DKRL,通过理论推导可以证明该模型能够建模非单射复杂关系以及多种关系模式。在多个通用数据集上的实验结果表明,该模型可以有效提高链接预测精度,在数据集DB100K与FB15K-237中四个指标上领先现有基线模型,其中在DB100K上评价指标MRR和H@1相较于基线模型RotatE分别大幅提高了3.3%以及6.5%。  相似文献   

19.
研发一个实现机器学习算法的英语词汇自适应学习模型,该模型记录了学习者对学习内容自我选择的情况,进而反映出学习者的个性差异.同时,作为一种动态建模学习工具,其关键参数是条件概率,用于测量学习者某个认知特征对某种学习内容的适应性关系,因此将该参数称为适应度.学习者每次对一个单词完成学习内容的自我选择,适应度随之更新一次,视为一次训练;通过训练,不断调整适应度,修改和维护模型自身.模型将所要解决的问题抽象为一系列数学公式,公式参考了AdaBoost算法公式;模型的求解流程参照了基于项目反应理论的自适应测验过程.本模型能够持续迭代适应度直至稳定,最终推送出与他相适应的学习内容.文章首先介绍国内外相关研究及选题价值,接着阐述模型的理论依据,继而重点论述模型的构建,最后给予例证.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号