首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(Mixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。  相似文献   

2.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。  相似文献   

3.
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA).首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分.通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率.  相似文献   

4.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。  相似文献   

5.
在传统的检索模型中,文档与查询的匹配计算主要考虑词项的统计特征,如词频、逆文档频率和文档长度,近年来的研究表明应用查询词项匹配在文档中的位置信息可以提高查询结果的准确性。如何更好地刻画查询词在文档中的位置信息并建模,是研究提高检索效果的问题之一。该文在结合语义的位置语言模型(SPLM)的基础上进一步考虑了词的邻近信息,并给出了用狄利克雷先验分布来计算邻近度的平滑策略,提出了结合邻近度的位置语言检索模型。在标准数据上的实验结果表明,提出的检索模型在性能上要优于结合语义的位置语言模型。  相似文献   

6.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。  相似文献   

7.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。  相似文献   

8.
为了弥补图像低层视觉特征和高层语义之间的"语义鸿沟",改善图像自动标注的性能,提出了基于多媒体描述接口(MPEG-7)和MM(Mixture Model)混合模型的图像标注算法。该算法采用MPEG-7标准推荐的颜色和纹理描述子提取图像的低层视觉特征,通过MM混合模型建立低层特征到高层语义空间的映射,实现了基于图像整体低层特征的多标签图像自动标注。通过在corel图像数据集上的一系列实验测试验证了该方法的可行性和有效性。  相似文献   

9.
张瑞  金志刚  王颖 《计算机科学》2016,43(4):192-196, 230
针对已有的标签推荐模型在实际微博场景运用中存在的多样性、相关性较差等不足,提出了一种基于混合粒度的标签推荐模型。将微博用户的可分析资源分解成由用户信息、标签和微博正文组成的混合粒度,在不同粒度上分别进行个人信息过滤及个性标签分析,从而计算用户标签的熵值与内联度和分类标注标签词汇,提取微博正文主题等,最终为用户推荐具有较强关联性的个性化标签。与一般LDA模型的对比实验证明,该模型可以有效解决新用户的冷启动、标签推荐的准确度等问题,同时保证了推荐的多样性。  相似文献   

10.
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。  相似文献   

11.
SMP机群混合编程模型研究   总被引:12,自引:0,他引:12  
研究了适用于 SMP机群的混合编程模型 ,并把它划分为 Open MP MPI和 Thread MPI两类 .通过研究指出 ,Open MP MPI优于 Thread MPI.在此基础上 ,重点研究了 Open MP MPI的实现机制、粗粒度和细粒度并行化方法、循环选择、优化措施以及注意事项等 ,得出细粒度并行化的 Open MP MPI是 SMP机群编程模型的一个较好选择的结论  相似文献   

12.
为满足虚拟手术中软组织变形的精确性和实时性要求,提出一种基于复合模型的软组织变形模拟算法。该复合变形模型包括复合网格的建立,复合网格中粗糙体网格应用有限元模型,精细表面网格应用基于位置动力学模型,通过变形计算流程实现变形模拟。复合模型与传统的有限元模型和基于位置的动力学模型相比,变形的精确性和实时性取得了更好的平衡。通过变形实例,表明复合模型对于实例模型也具有很好的展示效果。  相似文献   

13.
戚斌 《计算机测量与控制》2017,25(8):218-220, 225
为了提高对混合架构下ORACLE数据的挖掘和查找速度,提出一种基于频繁项目集关联规则挖掘的数据快速查找方法;构建ORACLE数据的内部关联属性映射关系模型,在异质网络混合构架模式下,采用Graph OLAP数据仓库模型进行数据库检索的关系维度表,提取表达ORACLE数据属性信息的特征参量,通过同态标签检索方法,实现对目标数据的快速查找定位;仿真结果表明,采用该方法进行ORACLE数据查找的查准率和查全率较高,计算速度较快,性能优于传统方法。  相似文献   

14.
Accurate electrical load forecasting always plays a vital role in power system administration and energy dispatch, which are the foundation of the smooth operation of the national economy and people’s daily life. Thinking from this vision, many scholars have made great efforts to seek suitable optimization algorithms to improve the performance of existing forecasting algorithm. However, most of the studies ignore the inherent disadvantages of single optimization algorithm, which leads to sub-optimal forecasting performance. Therefore, a novel electric load forecasting system was successfully proposed in this paper by the combination of data preprocessing, hybrid optimization algorithms, and several single classical forecasting methods, which successfully overcomes the defects of single traditional forecasting models and achieves higher forecasting accuracy than that of single model optimization. Besides, the 30 min interval data of Queensland, Australia from March to April is used as illustrative examples to evaluate the performance of the developed model. The results of tests demonstrate that the proposed hybrid model can better approximate the actual value, and it can also be employed as a useful tool for smart grids dispatching planning.  相似文献   

15.
为了能够推荐符合用户信息需求的标签,在深入分析社会标签空间和传统标签推荐方法的基础上,提出了度量用户和资源的动机倾向性的五种指标,并对其测度有效性进行了验证。基于此指标体系,建立了动机倾向性判别模型,并设计了推荐算法。实验结果表明,基于动机倾向的推荐算法比当前主流推荐算法具有更加准确的推荐结果。  相似文献   

16.
车冰倩  周栋 《计算机应用》2021,41(4):976-983
为文本推荐合适的标签是更好地组织和使用文本内容的一项有效手段,目前大部分标签推荐方法主要通过挖掘文本内容来进行推荐。然而,大部分数据信息并非独立存在,如语料库中的文本间的词共现关系可形成复杂的网络结构。以往研究表明,文本间的网络结构信息和文本内容信息可以分别从两个不同的角度对同一文本的语义进行概括,并且从两方面提取的信息可以互为补充和解释。基于此,提出一种同时对文本网络结构信息和文本内容信息进行建模的标签推荐方法。该方法首先使用图卷积神经网络(GCN)提取文本间网络的结构信息,然后使用循环神经网络(RNN)提取文本内容信息,最后使用注意力机制结合文本间网络结构信息和文本内容信息进行标签的推荐。与基于图卷积神经网络(GCN)的标签推荐方法、基于主题注意力的长短时记忆(TLSTM)神经网络的标签推荐方法等基线方法相比,提出的使用注意力机制结合网络结构信息与文本内容信息的标签推荐方法具有更好的性能。如在Mathematics Stack Exchange数据集上所提方法的准确率、召回率和F1值相较最优基线方法分别提高了2.3%、3.8%、7.0%。  相似文献   

17.
个性化信息服务中基于Tag的用户兴趣模型   总被引:1,自引:0,他引:1  
随着web信息爆炸增长,个性化信息服务成为人们研究的热点,用户兴趣建模是个性化服务的关键,针对当前用户建模的缺点和tag的广泛应用,对基于tag的用户兴趣建模进行研究,首先通过实验证明tag中蕴含用户稳定的兴趣及tag分布的其他特征,然后提出加权树形结构由粗到细的粒度表示用户模型,为提高服务时效性,对用户频繁一起使用的...  相似文献   

18.
梁宏涛  徐建良  许可 《计算机科学》2016,43(11):257-259
可靠性作为衡量软件质量的一种重要特性,对软件管理具有重要的意义。针对单一核函数的缺陷,提出一种组合核函数相关向量机的软件可靠性预测模型。首先对当前软件可靠性研究现状进行分析,然后采用组合核函数相关向量机对训练集进行学习和建模,最后通过具体实例对模型的预测性能进行分析。结果表明,本模型获得了理想的软件可靠性预测结果,且其预测性能要优于单一核函数模型,在软件可靠性预测中有重要的应用价值。  相似文献   

19.
The purpose of feature construction is to create new higher-level features from original ones. Genetic Programming (GP) was usually employed to perform feature construction tasks due to its flexible representation. Filter-based approach and wrapper-based approach are two commonly used feature construction approaches according to their different evaluation functions. In this paper, we propose a hybrid feature construction approach using genetic programming (Hybrid-GPFC) that combines filter’s fitness function and wrapper’s fitness function, and propose a multiple feature construction method that stores top excellent individuals during a single GP run. Experiments on ten datasets show that our proposed multiple feature construction method (Fcm) can achieve better (or equivalent) classification performance than the single feature construction method (Fcs), and our Hybrid-GPFC can obtain better classification performance than filter-based feature construction approaches (Filter-GPFC) and wrapper-based feature construction approaches (Wrapper-GPFC) in most cases. Further investigations on combinations of constructed features and original features show that constructed features augmented with original features do not improve the classification performance comparing with constructed features only. The comparisons with three state-of-art methods show that in majority of cases, our proposed hybrid multiple feature construction approach can achieve better classification performance.  相似文献   

20.
用户兴趣和行为的多样性使得为不同用户提供更符合其查询意图的搜索结果成为一个具有挑战性的任务.Web 2.0下的社会标签是用户为他们感兴趣的网页等对象进行标注行为的结果,用户用标签来描述自己感兴趣的话题.这些标签不但代表着用户的兴趣,而且是对网页承载信息的最好揭示.提出了面向用户查询意图的标签推荐方法,旨在把能够体现用户真正查询意图的标签选择出来.标签作为对查询关键词的补充,不仅可以弥补用户短查询的缺陷,而且可以根据标签与网页上曾被标注过的标签间的关系,更准确地判断用户查询意图与网页内容之间的相关度,从而把更符合用户查询兴趣的结果排在靠前的位置上.实验结果表明,该方法比现有的其他方法更有效,这也说明社会标注对更准确地捕捉用户真实查询意图确实有重要作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号