首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 288 毫秒
1.
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。  相似文献   

2.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

3.
面向查询的多文档摘要技术有两个难点 第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。  相似文献   

4.
邓松  万常选 《软件学报》2017,28(12):3241-3256
在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首先度量数据源与用户查询的相关性,然后进一步考虑候选数据源提供数据的多样性.为提升数据源相关性判别的准确性,构建了基于层次主题的数据源摘要,并在其中引入了主题内容相关性偏差概率模型,且给出了基于人工反馈的偏差概率模型构建方法以及基于概率分析的数据源相关性度量方法.为提升数据源选择结果的多样性程度,在基于层次主题的数据源摘要中建立了多样性链接有向边,并给出了数据源多样性的评价方法.最后,将基于相关性和多样性的数据源选择问题转化为一个组合优化问题,提出了基于优化函数的数据源选择策略.实验结果表明:在基于少量抽样文档进行数据源选择时,该方法具有较高的选择准确率.  相似文献   

5.
问答社区中候选答案过多会增加提问用户选择最佳答案的负担。为此,提出一种基于概率潜在语义分析(PLSA)模型的自动答案选择方法。在主题建模思想的基础上,利用问答社区中的用户资料,以PLSA模型表达问答社区中的用户兴趣分布,依据答案和问题之间的主题匹配度对候选答案进行排序。实验结果表明,该方法可有效挖掘用户兴趣,提高答案选择的准确率。  相似文献   

6.
基于子主题概念的Web主题挖掘   总被引:1,自引:0,他引:1  
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。  相似文献   

7.
用户画像技术可以给企业带来巨大的商业价值。针对用户的历史查询词,利用词向量可以得到查询词在语义层次上的表达,但词向量模型对于同一个单词生成的词向量是相同的,使得该模型无法很好的处理一词多义的情况。因此,使用LDA主题模型为每个查询词分配主题,使查询词和其主题共同放入神经网络模型中学习得到其主题词向量,最后采用随机森林分类算法对用户基本属性进行分类构建用户画像。实验结果表明,该模型的分类精度要高于词向量模型。  相似文献   

8.
互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然后以关联词在数据集中的概率分布来设计相关性判别函数,计算候选标签和主题模型的相关度,最后根据最大边缘相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数量的标签表达更为丰富的语义,这有助于进一步实现更为准确的主题跟踪和主题信息检索.  相似文献   

9.
提出了一种基于相关反馈的微博相似主题时序查询方法。该方法通过考虑用户对不同查询结果是否满意的反馈情况,建立修改度量系数的目标函数,从而实现微博中体现用户兴趣的主题时序相似性计算,为用户提供更满意的相似主题时序查询结果。基于该方法设计了一个可视化的微博相似主题时序查询系统,在微博代表性网站-Twitter数据集上进行的实验,表明了该方法在微博背景下的相似主题时序查询中的有效性。  相似文献   

10.
【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。  相似文献   

11.
会话识别是用户访问行为分析的基础和关键工作,其质量对于识别和发现用户的信息需求具有决定性的影响。目前常用的是基于时间阈值的切分方法,但是该方法存在的主要问题是针对不同用户时间阈值难以准确地确定。提出了一种新的基于聚类技术的会话识别优化方法,首先建立了基于聚类的会话识别优化模型,然后采用改进的K-means算法进行会话识别。实验结果表明该方法与传统方法相比具有较好的效果。  相似文献   

12.
Scheduling resources in grid is an open difficult problem due to resource fluctuations. A fuzzy scheduling method using provenance information is proposed. In this method, resource dispatch probability is dynamically adjusted according to user feedback information, which is user appreciation information represented by fuzzy variables. To minimize the influence of cheating, collusive and decrying of user appreciations, provenance information is used to estimate trust factor of each user appreciation during resource dispatch probability adjustment process. Simulation results confirm capability of the proposed method to effectively reduce impacts of malicious user appreciations and increase user satisfactions.  相似文献   

13.
为了得到更多的用户兴趣信息,提出了一种新的高效的用户兴趣模式获取方法,面向层次结构的信息网站,提供动态的多层次用户兴趣模式。该方法根据网站和用户兴趣所具有的层次性特征,利用蚁群算法,将用户对网站结点的一次浏览过程,对应于蚂蚁的一次觅食活动周期,从各个层次求出相应路径的信息素浓度和支持度,从而得到用户对该结点的偏好函数值,再依据此值求得用户兴趣模式。实验表明了该方法的有效性。  相似文献   

14.
Query expansion by mining user logs   总被引:9,自引:0,他引:9  
Queries to search engines on the Web are usually short. They do not provide sufficient information for an effective selection of relevant documents. Previous research has proposed the utilization of query expansion to deal with this problem. However, expansion terms are usually determined on term co-occurrences within documents. In this study, we propose a new method for query expansion based on user interactions recorded in user logs. The central idea is to extract correlations between query terms and document terms by analyzing user logs. These correlations are then used to select high-quality expansion terms for new queries. Compared to previous query expansion methods, ours takes advantage of the user judgments implied in user logs. The experimental results show that the log-based query expansion method can produce much better results than both the classical search method and the other query expansion methods.  相似文献   

15.
针对匿名用户数据的海量性与冗余性等特点,为提高数字证据的用户身份鉴定性能,文章提出基于用户行为模式的匿名数据鉴定方法.首先,文章研究了基于BIDE算法的用户频繁行为模式挖掘方法,为数据鉴定提供了高质量的用户频繁序列行为模式库.然后,采用基于最长公共子序列的相似度方法得到模式综合相似度,全面描述用户数据之间的吻合程度.最...  相似文献   

16.
提出了一种基于监控日志挖掘的移动应用用户访问模型自动构造方法,该方法包括监控代码注入和界面访问模型构造两部分。首先,提出了一种监控代码自动注入方法,即通过对移动应用代码的静态分析,自动地在相应位置插入监控代码以支持在运行时动态地监控用户的访问行为。其次,提出了一种基于状态机的移动应用用户访问模型构造方法。访问模型中状态机的节点和节点间跳转上的附加属性描述了UI界面之间的跳转行为和界面内控件的使用情况。对移动应用进行的实验表明,这种基于监控日志挖掘的移动应用用户访问模型自动构造方法能够成功地自动注入移动应用的监控代码,并能够有效获得移动应用用户界面访问行为。  相似文献   

17.
基于CURE的用户聚类算法研究   总被引:1,自引:0,他引:1  
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。  相似文献   

18.
为了进一步改进基于位置的社交网络服务中用户的相似性计算,提出一种有效的使用位置语义计算用户相似性的新方法。该方法通过位置语义来准确地获取用户的意图以及兴趣爱好,并且能够根据层次位置类别计算出不同位置用户的相似性。通过实验验证,表明该方法优于传统的用户相似性计算方法。  相似文献   

19.
The FBS (Function-Behaviour-Structure) model is a research model that stimulates creative thinking of designers in the design process. In order to reduce the influence of user requirement ambiguity on design results in the product design process and improve the accuracy of user requirements in the function-behavior-structure (FBS) design model, this paper proposes an interval-valued Pythagorean fuzzy set-based FBS model integrating AHP and HOQ methods. Firstly, the design model will use IVPF-AHP method to study user requirements and use interval-valued Pythagorean linguistic terms to replace the traditional scoring method of AHP to get the weight of each user requirement. Secondly, the conversion between user requirements and functions will be realized by IVPF-HOQ method, which converts customer requirements into functional characteristics and calculates the weights of each functional characteristic. Finally, the design focus will be filtered according to the order of importance of the functional characteristics, which will be used as functions to guide the development of the FBS model. In this paper, the feasibility and effectiveness of the proposed method will be verified by an application example of a hand-held fluorescence spectrometer. The results show that the proposed FBS model can effectively reduce the subjectivity and ambiguity in the decision-making process, improve the accuracy and information richness of user requirements, and effectively highlight the focus of the design study. The innovation of the proposed method is to provide a more objective and accurate innovative design method for user requirements through the integration of AHP, HOQ and FBS to effectively explore and analyze user requirements. The use of IVPFS to deal with fuzzy information in the design process in a more flexible manner can reduce the ambiguity of requirements when user data is small, and effectively improve the limitations of the FBS design model which is more subjective.  相似文献   

20.
汪晴  庄卫华 《计算机工程》2010,36(21):78-80
基于TF-IQF模型的建议方法不考虑用户查询行为的上下文,在满足用户个性化需求方面存在缺陷。针对这一情况,在该方法的基础上进行优化改进,根据不同用户的查询上下文来分析用户的查询偏好,重新排序系统推荐的查询。实验结果表明,改进方法能够给出个性化的查询建议,提高用户查询的满意度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号