首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。  相似文献   

2.
主题模型LDA的多文档自动文摘   总被引:3,自引:0,他引:3  
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.  相似文献   

3.
李娟妮  华庆一  吴昊  陈锐  苏荟  周筠 《软件学报》2018,29(12):3692-3715
为了适应普适计算环境中用户、设备、使用环境和开发平台的多样性,基于模型的方法被应用于用户界面开发过程中,试图在抽象层次上描述界面,通过模型转换,使其适用于不同的平台.然而,由于目前基于模型的用户界面开发方法(model-based user interface development,简称MBUID)中所采用任务模型的局限性,致使生成的界面难以满足动态环境下用户的可用性需求.提出一种基于任务模型的用户界面开发框架,旨在建模和生成有效、高效、令用户满意的用户界面.在可用性方面,为了准确描述普适计算环境中用户任务,提出一种基于感知控制理论的任务分析方法(perceptual-control-theory-based task analysis,简称PCTBTA),将使用上下文信息引入到任务分析过程中,并且在较高的抽象层次上反映交互的内容,给可用性设计提供任务空间;在技术方面,为PCTBTA任务模型向界面模型的转换提供技术支持.最后,通过实例说明所提出方法的可行性,并通过与其他方法在可用性和性能方面的比较,表明该方法的有效性.  相似文献   

4.
一种基于LDA的在线主题演化挖掘模型   总被引:3,自引:1,他引:2  
崔凯  周斌  贾焰  梁政 《计算机科学》2010,37(11):156-159
基于文本内容的隐含语义分析建立在线主题演化计算模型,通过追踪不同时间片内主题的变化趋势进行主题演化分析。将Latent Dirichlet Allocation(LDA)模型扩展到在线文本流,建立并实现了在线LDA模型;利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;根据改进的增量Gibbs算法进行推理,获取主题一词和文档一主题的概率分布,利用KullbackLeibler(KL)相对嫡来衡量主题之间的相似度,从而发现主题演化中的“主题遗传”和“主题变异”。实验结果表明,该模型能从互联网语料中找出主题的演化趋势,具有良好的效果。  相似文献   

5.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

6.
基于模型的用户界面设计方法是通过用户界面模型开发用户界面的新方法。任务模型作为其中一个主要模型,刻画的是用户与界面交互过程中动态行为方面的信息。详细介绍了HTA,UAN,GOMS,CTT,Wisdom五种常用的任务模型建模方法,分析了各方法的优缺点及适用环境,并对任务建模方法的未来发展方向进行了展望。  相似文献   

7.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

8.
面向协作交互任务的资源模型   总被引:1,自引:0,他引:1  
提出一种面向协作交互任务的资源模型.首先分析了现有协作任务分析方法和资源模型;然后在总结典型协作交互任务的基础上,提出了基于分布式认知的协作资源模型,描述了模型的组成结构和交互策略;最后给出了模型的使用模式和一个基于此模型的笔式协作概念图实例.分析表明,该模型能有效地支持协作交互,建立符合认知特点的协作用户界面.  相似文献   

9.
传统的协同过滤算法虽然可以很容易地挖掘出用户的兴趣爱好,但存在数据冷启动和稀疏性问题.针对这些问题,提出一种基于用户兴趣模型的推荐算法.首先通过LDA主题模型训练数据集得到物品-主题概率分布矩阵,利用物品-主题概率分布矩阵得到用户历史兴趣模型,然后结合用户历史行为信息和物品内容信息得到用户兴趣模型,最后计算用户与候选集之间的相似度,进行TOP-N推荐.在豆瓣电影数据集上的实验结果表明,改进后的推荐算法能够更好地处理稀疏数据和冷启动问题,并且明显提高了推荐质量.  相似文献   

10.
针对民航突发事件应急管理领域本体的自动更新问题,提出了基于LDA的领域本体概念获取方法。以文本信息作为数据源,采用NLPIR自适应分词与过滤方法获取候选术语集,设计了领域本体的LDA主题模型,通过吉布斯采样进行LDA模型训练与主题推断,实现了领域本体核心概念的相关术语提取;基于LDA主题概率分布研究了语义关系识别规则的构建方法,给出了概念及其相关术语语义关系的识别与实现过程。实验效果表明,该方法可以有效解决大规模领域本体概念的自动更新问题,为大数据环境下民航突发事件跨媒体信息的共享与推理提供了良好的数据支持。  相似文献   

11.
针对物联网中各类用户的网络行为出现复杂化、多样化和恶意化的特征和趋势,提出了一种基于Gibbs—LDA和最小二乘支持向量机的物联网安全预测方法;首先,提取通信时间、地址和内容等文中信息作为多维的通信记录样本,然后基于LDA模型,将安全事件建模为主题,获取样本特征并得到主题模型,通过Gibbs算法来估算LDA模型中的参数,从而建立了基于LDA的物联网安全多维预模型,最后,在LDA特征空间上建立了特征与安全事件分布的权重,并将此权重用于初始化各个支持向量机的预测结果,将权值最大的最小二乘支持向量的预测结果作为最终的结果;仿真实验证明了文中方法能有效地实现物联网安全预测,在NIPS和VAST数据集上进行仿真实验,结果表明了文中方法较其他方法具有预测精度高和预测时间短的优点,具有较大的优越性。  相似文献   

12.
韩爽  王衡 《软件学报》2009,20(Z1):59-65
随着计算机用户个人信息量的日益扩大,如何帮助用户在系统中快速找到所需资源已成为当前智能交互行为模型的重要课题.过往的研究大多集中于个人信息管理,力求以更加便于用户理解的个性化方式重新组织计算机资源结构.然而,由于上述系统往往需要用户大量的额外操作,并且重构用户的知识系统需要较为漫长的时间而不被用户采用.考虑到用户访问文件的主题性和目的性(用户往往会出于同一目的在同一时间段内同时访问多个同主题相关的文件),提出基于用户时间访问轨迹的智能文件推荐,并设计实现基于时间访问轨迹的智能文件推荐桌面工具(intelligent file recommendation desktop toolkit,简称IFRDT),将根据用户访问文件的轨迹,针对用户当前正在访问的文件向用户推荐最有可能被访问到的同主题的其他文件,以减少用户查找所需资源花费的时间开销.实验结果表明,使用IFRDT向用户推荐文件比仅仅向用户呈现访问历史更能为用户节省查找文件的时间;被试用户可以在IFRDT中找到一半以上的所需文件,这就是为用户节约了一半以上的查找开销.  相似文献   

13.
传统新闻媒体和新兴社交媒体对同一事件的观点有差异,且互相影响.为了有效地分析不同来源的新闻事件评论主题的异同以及随着时间推移互相影响的转移趋势,提出一套可视分析方法.首先提出一个基于主题分析的信息传递模型,使用LDA模型提取文本主题,通过计算主题的内容相关性和时间相关性得到主题间的传递关系;然后使用基于桑基图和时间线技术相结合的方法对主题传递模型进行可视化,并提供主题层级视图、关键词词距视图和原数据视图帮助用户理解主题;最后研发了可视分析系统原型.使用"韩国部署萨德事件"这一案例,验证了系统的可用性和有效性.  相似文献   

14.
生物基因测序是生物信息学分析中最常用的高性能计算任务.旨在通过分析生物基因测序日志找出生物基因测序日志中的任务特性,构建一种通用的适合分析生物基因测序的任务模型,并应用于面向基因测序的高性能计算系统的任务调度及性能优化.基于任务日志,主要分析了生物基因测序日志中任务到达时间的规律特性、任务运行时间和任务的并行尺寸等特性,通过这些任务特性利用指数分布、伽马分布、正态分布以及线性拟合构建了相应的局部任务模型,然后提出一种局部模型融合的方法,将各个局部模型合并为统一的任务模型.通过两种通用的模型评测方法对任务模型进行的评测结果显示,最终的任务模型与原有任务日志的4种任务属性趋于相同的分布,验证了所构建的任务模型具有很好的通用性.  相似文献   

15.
《信息与电脑》2019,(24):13-14
针对网络任务调度不合理延迟率高的问题,笔者提出基于云计算的资源延迟感知任务调度优化研究,通过构建任务模型和资源消耗模型,建立云计算的资源延迟感知任务调度模型,将资源延迟感知任务调度集成到滚动优化,形成具有资源延迟感知能力的调度优化算法,对模型进行求解实现任务的合理调度。经实验证明,使用基于云计算的资源延迟感知任务调度优化方法,有效降低了网络延迟率。  相似文献   

16.
传统新闻媒体和新兴社交媒体对同一事件的观点有差异,且互相影响.为了有效地分析不同来源的新闻事件评论主题的异同以及随着时间推移互相影响的转移趋势,提出一套可视分析方法.首先提出一个基于主题分析的信息传递模型,使用LDA模型提取文本主题,通过计算主题的内容相关性和时间相关性得到主题间的传递关系;然后使用基于桑基图和时间线技术相结合的方法对主题传递模型进行可视化,并提供主题层级视图、关键词词距视图和原数据视图帮助用户理解主题;最后研发了可视分析系统原型.使用"韩国部署萨德事件"这一案例,验证了系统的可用性和有效性.  相似文献   

17.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

18.
建立良好的任务模型是提高LBS系统智能性的途径.LBS的任务模型用于建立用户的行为与环境(上下文)和服务之间的关系,它描述在特定的条件下,如何为用户特定的活动提供适当的服务.为了克服任务模型在使用的方便性和灵活性方面的不足,DAMo模型使用任务本体描述任务的静态属性,而使用任务实现策略控制任务的实际执行,同时使用任务协调策略支持多任务的融合.通过模型结构分析和应用实例,说明该模型可以较好地应用于LBS系统.  相似文献   

19.
刘慧婷  程雷  郭孝雪  赵鹏 《计算机科学》2018,45(9):253-259, 265
目前很多社交网络服务对用户的个性化需求考虑得不充分,并且社交网络服务由于需要处理海量数据而难以保障服务的实时性。为了实时响应用户在微博推荐中的个性化请求,提高推荐的效率和质量,提出了一种基于LDA主题模型和KL散度相结合的RPMPS微博推荐模型。RPMPS推荐模型不但通过文档-主题概率分布矩阵获得了用户信息与待推荐微博的主题相似性,而且还通过文档-词来对词频概率进行统计,从而获得用户信息与待推荐微博的内容相似性。最后,基于RPMPS推荐模型构建实时个性化微博推荐系统,并在数据处理过程中对微博进行过滤以缩短系统的响应时间。通过真实数据集验证了系统可较好地满足用户的实时个性化需求。  相似文献   

20.
微博平台隐含潜在的用户信息,通过微博数据挖掘用户兴趣具有重要的社会意义。结合用户兴趣与微博信息的特点,提出了一种文本聚类与兴趣衰减的微博用户兴趣挖掘(TCID-MUIM)方法。首先,通过基于词林的同义词合并策略弥补建模时词频信息不足的弊端;其次,利用二次Single-Pass不完全聚类算法将用户微博划分为多个簇,将簇合并为同一文档以弥补微博文本短小难以挖掘主题信息的问题;最后,通过LDA模型建模,并考虑用户兴趣随时间变化的问题,引入时间因子,将微博—主题矩阵压缩为用户—主题矩阵,获取用户兴趣。实验表明,较之传统建模方法与合并用户历史微博为同一文档的建模方法,TCID-MUIM方法挖掘的用户兴趣主题具有更好的主题区分度,且更贴合用户的真实兴趣偏好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号