首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入nCRP构造方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系, 在4个方面进行创新研究. 首先, 通过主题共享机制改进nCRP构造方法, 提出nCRP+层次构造方法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合nCRP+和HDP模型构建重分层的Dirichlet过程, 提出rHDP (reallocated hierarchical Dirichlet processes)层次主题模型; 第三, 结合领域分类信息、词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度; 最后, 通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程, 提出结合领域知识的层次主题模型rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA, nHDP)和神经主题模型(TSNTM); 通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.  相似文献   

2.
Social business intelligence combines corporate data with user-generated content (UGC) to make decision-makers aware of the trends perceived from the environment. A key role in the analysis of textual UGC is played by topics, meant as specific concepts of interest within a subject area. To enable aggregations of topics at different levels, a topic hierarchy has to be defined. Some attempts have been made to address the peculiarities of topic hierarchies, but no comprehensive solution has been found so far. The approach we propose to model topic hierarchies in ROLAP systems is called meta-stars. Its basic idea is to use meta-modeling coupled with navigation tables and with dimension tables: navigation tables support hierarchy instances with different lengths and with non-leaf facts, and allow different roll-up semantics to be explicitly annotated; meta-modeling enables hierarchy heterogeneity and dynamics to be accommodated; dimension tables are easily integrated with standard business hierarchies. After outlining a reference architecture for social business intelligence and describing the meta-star approach, we formalize its querying expressiveness and give a cost model for the main query execution plans. Then, we evaluate meta-stars by presenting experimental results for query performances and disk space.  相似文献   

3.
话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。  相似文献   

4.
在分析Adhoc网络的通信能力的基础上,确定网络可信度影响因子,并采用模糊层次分析法计算可信度影响因子的权重值.提出了基于模糊理论的AdHoc网络可信性评判模型.该模型对Adhoc网络进行了单因素评判和综合评判,并通过实例运算证明了模型的科学性与合理性.  相似文献   

5.
中文在线百科包含大量有价值的信息,很多工作成功地将其用于各类知识获取任务。例如,拥有相似话题的文档可以被归为一个概念。从这些在线百科中构建出的针对某一概念的层次话题对于搜索与浏览、信息组织和检索等应用都有很大的帮助。然而,目前尚未出现对在线百科中某一概念层次话题构建的研究。针对中文在线百科的异构性与粗糙性的问题,提出了一种基于贝叶斯网络的话题层次构建方法。该方法同时综合文档的结构化目录信息和非结构化文本信息,采用最大树形图算法自动地在文档所属概念的贝叶斯话题网络中建立层次话题。实验证明,与原有的百科话题结构相比较,所提方法在保持75%的准确性的同时扩充了4倍的内容。  相似文献   

6.
互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一种基于动态隧道技术的主题爬虫爬行策略.该策略结合页面主题相关度计算和URL链接相关度预测的方法确定主题孤岛之间的网页页面主题相关性,并构建层次化的主题判断模型来解决主题孤岛之间的弱链接问题.同时,该策略能有效防止主题爬虫因采集过多的主题无关页面而导致的主题漂移现象,从而可以实现在保持主题语义信息的爬行方向上的动态隧道控制.实验过程利用主题网页层次结构检测页面主题相关性并抽取"体育"主题关键词,然后以此对采集的主题网页进行索引查询测试.结果表明,基于动态隧道技术的爬行策略能够较好的解决主题孤岛问题,明显提升了"体育"主题搜索引擎的准确率和召回率.  相似文献   

7.
科学合理的评价网络安全对提高其建设质量显得尤为重要。在网络安全评判中,首先利用模糊层次分析法(FAHP)确定评价指标的权重,然后运用模糊综合评判方法对网络安全进行综合评价。评价结果的定量策略使评价更为科学、合理和有效。  相似文献   

8.
项目文档主题表征的好坏直接影响后续评审专家的推荐效果.为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法.该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取.项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用.  相似文献   

9.
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题.并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点.实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的.  相似文献   

10.
对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5 457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学及相关研究工作,还抽取、计算了文段的语法点和新HSK词语等级信息,作为话题标注的补充维度加入资源库,以期为汉语教学领域的教师、研究者及教材编写者提供较为全面的话题信息参考。
  相似文献   

11.
考虑类型信息的异构数据源信息交换方法研究   总被引:1,自引:0,他引:1  
王博  郭波 《计算机科学》2008,35(1):117-120
异构信息源模式集成中,除解决模式结构冲突外,还需要考虑模式结构对应的数据类型差异,以保证模式集成和信息交换过程的准确性.本文在考虑不同模型语言类型约束和复合对象类型的基础上形式化描述了类型体系,在公共类型体系内容定义的基础上给出了考虑约束和复合对象类型的中间模型类型体系的构建方法,建立了异构数据模式类型体系与中间模型类型体系的类型映射关系.相比其他类型匹配方法,具有搜索空间小、处理范围广的特点.  相似文献   

12.
OBB层次包围盒构造方法的改进   总被引:5,自引:0,他引:5       下载免费PDF全文
层次包围盒是碰撞检测的重要技术,可以提高碰撞检测精度并减少碰撞检测复杂度。首先介绍了OBB包围盒的计算方法、相交测试原理,以及OBB层次包围盒构造的一般过程。结合物体模型的层次结构,提出了基于模型层次结构的OBB层次包围盒的构造方法。实验结果证明改进后的方法加快了模块之间可以发生变化时其对应的OBB树的更新速度,使OBB方法适合由刚体模块构成的模型变形的情况。  相似文献   

13.
汉语复句层次关系分析是中文信息处理领域极具挑战性的课题之一。为解决关系词标识信息不充足所导致的复句层次关系识别准确率下降问题,挖掘了影响分句关联的形式化语义知识,在此基础上构建了小句关联体识别算法并将其应用于相应的复句层次判定规则之中,以辅助分析其层次关系;对于其余单、多重有标复句的层次识别,使用基于搭配规则的移进-归约算法;最后提出了一种语义与规则相结合的复句层次分析模型。实验结果表明,此方法在一定程度上提高了复句层次关系识别的准确率。  相似文献   

14.
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。  相似文献   

15.
主题抽取是意见挖掘的核心任务之一。该文面向维吾尔语评论文本, 针对显式主题和隐式主题, 提出了一种陈述级的主题抽取方法。该方法采用GLR-Cascaded LDA模型抽取段落级的局部主题、篇章级的全局主题, 建立全局—局部主题关系, 并将这些关系对应到每个意见陈述中; 然后运用Bootstrapping和模式匹配的方法进行显式陈述的主题抽取; 最后使用隐式主题推断算法推断隐式陈述的主题。主题抽取的最终目标是为每个意见陈述建立意见陈述—主题四元组。实验结果证明了该方法在主题抽取任务中的有效性。  相似文献   

16.
作为云制造平台中的关键技术之一,云制造服务的综合评价对于整个云制造资源配置至关重要,在云制造服务综合评价中,服务资源的评价是综合评价的基础.针对云制造服务评价问题,根据云制造服务评价体系中评价指标的多样性与云制造服务特点相匹配,基于模糊理论中的模糊数学,建立了模糊综合评价模型,并确定了由层次分析法和熵权法组合确定权重的...  相似文献   

17.
With the new generation of information technology development and the promotion of the Internet, local governments turn their attention to the construction of intelligent transportation systems. More and more cities began building intelligent transportation which has been widely used to monitor urban traffic. Experts can evaluate urban traffic congestion based on the information collected from the big data of intelligent transportation. In recent two years, double hierarchy hesitant fuzzy linguistic term set has been widely used to depict explicit evaluation information, which is straightforward and broad-spectrum. When evaluating traffic congestion in a city, decision makers can utilize double hierarchy hesitant fuzzy linguistic term sets to express vague information. Moreover, the ORESTE method is an applicative method which can select a reliable alternative by subdividing alternatives and reduce the loss of information in the conversion process. In this paper, we propose a double hierarchy hesitant fuzzy linguistic ORESTE method and a new score function of double hierarchy hesitant fuzzy linguistic term set. The method raises a new perspective to reduce the error from other methods and the new score function derives a robust decision-making result. Then, we apply the double hierarchy hesitant fuzzy linguistic ORESTE method to solve a practical case involving choosing the congested city by evaluating the 5S traffic congestion model. Finally, we compare the double hierarchy hesitant fuzzy linguistic ORESTE method with other methods such as the classical ORESTE method and the double hierarchy hesitant fuzzy linguistic MULTIMOORA to illustrate the advantages of our method.  相似文献   

18.
Although topic detection and tracking techniques have made great progress, most of the researchers seldom pay more attention to the following two aspects. First, the construction of a topic model does not take the characteristics of different topics into consideration. Second, the factors that determine the formation and development of hot topics are not further analyzed. In order to correctly extract news blog hot topics, the paper views the above problems in a new perspective based on the W2T (Wisdom Web of Things) methodology, in which the characteristics of blog users, context of topic propagation and information granularity are investigated in a unified way. The motivations and features of blog users are first analyzed to understand the characteristics of news blog topics. Then the context of topic propagation is decomposed into the blog community, topic network and opinion network, respectively. Some important factors such as the user behavior pattern, opinion leader and network opinion are identified to track the development trends of news blog topics. Moreover, a blog hot topic detection algorithm is proposed, in which news blog hot topics are identified by measuring the duration, topic novelty, attention degree of users and topic growth. Experimental results show that the proposed method is feasible and effective. These results are also useful for further studying the formation mechanism of opinion leaders in blogspace.  相似文献   

19.
随着科学技术的发展,牙齿正畸软件系统可以自动生成若干正畸方案。针对医患如何从中选择 最满意方案的问题,提出基于层次分析法的牙齿隐形正畸方案综合评价与优选方法。结合牙齿正畸医师常用的 正畸标准与患者的基本需求,从咬合、美观和正畸代价 3 个维度考虑,建立了咬合接触情况、牙列拥挤度、牙 弓对称度、牙齿移动难度、正畸周期及费用等 11 个指标的牙齿隐形正畸方案优选层次模型。利用层次分析法 构建成对比较矩阵,通过一致性检验,确定各指标及各方案权重,计算综合权重并排序得出最优方案。结合实 际案例,对不同案例进行实验,同时引入专家评分法进行实验对比,结果表明,基于层次分析法的综合评价可 为医患选择牙齿隐形正畸方案提供有效参考。  相似文献   

20.
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,该文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,该方法的预测准确性达到96.6%,提升幅度最高达到12.14%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号