首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 578 毫秒
1.
提出了一种弱指导的方法从搜索引擎查询日志中挖掘命名实体.该方法中采用人工选择的少量命名实体名称作为种子,使用随机游走模型从查询日志中获得大量的命名实体.其中采用了查询日志中的实体上下文模板,用户点击URL和候选命名实体构建三分图,根据在该图上的随机游走计算候选命名实体属于指定目标实体类别的概率,从而在查询日志中获取该类别的命名实体.在真实的查询日志上对7个实体类别进行的实验,实验结果显示本文方法在各个类别上均获得较好的命名实体挖掘效果.  相似文献   

2.
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。  相似文献   

3.
实体的别名是指同一个实体的不同名称。传统的别名抽取方法存在训练语料构建困难和时效性差这两个问题。针对这两个问题,该文提出了一种基于图的查询日志实体别名抽取方法。该方法利用查询日志的上下文信息和查询链接信息,构建了二层图(包括别名候选图层和查询链接图层),并通过随机游走算法对图中的候选别名进行排序。实验结果表明 1)该方法准确率达到了71.8%,证明该方法可行有效。2)使用查询链接信息进行别名抽取优于使用上下文信息进行别名抽取。这两种信息的结合能获得更好的别名抽取效果。  相似文献   

4.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

5.
本文提出了一种新颖的方法,综合利用音译和网络挖掘来提高命名实体翻译的效果。具体而言,首先利用音译模型生成一个候选翻译,然后利用音译信息配合网络挖掘获得更多的候选翻译。最后,使用最大熵(Maximum Entropy)模型综合考虑源词和候选翻译之间的各种特征,如发音相似度,上下文本特征,网页共现关系等,来排序得到的候选翻译,从而决定最终的翻译结果。实验结果显示我们的方法显著的提高了命名实体翻译的精确度。  相似文献   

6.
在近来出现的面向实体的搜索服务中,准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识,即利用 “实体—属性—属性值”(SPO)记录进行实体相关度计算的方法。该文通过基于属性和属性值的两步概率估计,将实体表示为一个属性值词的概率分布列,并通过比对两个实体共享的属性值词汇得出二者的相关度。实验表明,在用于面向实体搜索的相关实体排序问题上,该文方法达到了80.9%的平均top-5准确率,优于词袋方法和基于查询日志共现的方法。此外,该文通过定量分析,考察了不同领域的用户需求特性对实体相关度计算结果的影响。
  相似文献   

7.
查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法。提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度。通过对查询串进行聚类后的热度评估,并提取查询串中的命名实体。然后融合查询串热度信息和命名实体特征到相似度计算公式中,提出了一种新的查询推荐方法,该方法所得结果的满意度平均值均比最新的三种方法的推荐结果值高,表明了该方法的有效性。该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,提高了推荐词的总体质量,但方法局限于提取特征的精确度,有赖于特征进一步的丰富和优化。  相似文献   

8.
为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF × PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似度方法对候选主题词进行了层次聚类分析,进而得到潜在主题;最后,利用LCS算法生成多样性子主题。实验结果显示,系统平均D#-nDCG@10达到0.573,结果说明该方法在明确查询主题表意方面取得了较好效果。  相似文献   

9.
通过个性化试题推荐,来对在线学习用户实现全面性的评估。个性化试题推荐的关键思想就是构建每个用户的知识点的知识图谱,即Skill-Graph,以通过挖掘丰富的历史试题成绩和网络中可用的对知识点掌握情况,全面建模那些在线学习用户的各项能力进行评估的能力。首先开发一种基于自适应门机制的双向LSTM-CRF神经网络的知识实体提取方法。接着为了提高提取的知识实体的可靠性,设计了一种基于实体-URL图上的标签传播方法,该实体-URL图是根据百度搜索引擎的查询日志中的点击数据构建的。此外,抽取知识实体之间的上位词-下位词关系,并通过利用具有广泛上下文特征训练的分类器来构建知识图谱。最后,提出了一种基于知识点的个性化试题推荐方法,以提高的用户学习效率和优越性。  相似文献   

10.
该文提出一种基于信息检索的无指导方法,用于推理隐式篇章片段之间的语义连接关系,如因果关系、转折关系等。该文基于Google搜索引擎,抽取在句子结构以及语义层面上均与原隐式片段相似的显式片段,通过分析和识别相关显式关系来间接推理隐式关系。主要包括以下三个模块 构建高质量查询关键词并抽取候选显式关系;结合三种隐式关系推理模型(相似度、置信度、关联度),综合考察查询关键词以及候选关系的质量;基于排序学习的方法,统计高质量候选关系中的类别分布以实现最终隐式关系的推理。该文采用Penn Discourse TreeBank 2.0篇章语料库,最终方法精确率达到54.3%,与有指导的方法相比,提高了约14.3%。  相似文献   

11.
针对领域知识特点和当前基本查询扩展方法的局限性,提出了在特定领域问答系统中将命名实体识别与基本查询扩展方法相结合对答案文本检索进行查询扩展的方法.该方法标注旅游领域18个类别的命名实体,并使用条件随机场理论建立实体识别模型,将识别模型以线性插值方式分别融合到本文选用的基于TF-IDF、互信息和局部上下文分析3种基本查询扩展方法中,再选取出扩展词进行查询.在旅游领域数据集上的实验结果表明,该方法在3种基本查询扩展方法基础上使准确度提高15.8%以上,其中结合领域命名实体识别和局部上下文分析的查询扩展方法的准确度提高了21.4%.  相似文献   

12.
现有区块链系统多采用平等挖矿模式,所有记账人(实体)将账本记录在单一主链上,数据存储具有随机性,且在复杂或分类金融场景下,主链数据难以关联或规律存储,导致存储及查询效率很低;同时,现有区块链系统中事件溯源大多只查询到源区块,不能判识实体间的隐含关联,查询具有局限性.针对这些问题,提出一种复合区块链关联事件溯源方法.该方...  相似文献   

13.
Most entity ranking research aims to retrieve a ranked list of entities from a Web corpus given a user query. The rank order of entities is determined by the relevance between the query and contexts of entities. However, entities can be ranked directly based on their relative importance in a document collection, independent of any queries. In this paper, we introduce an entity ranking algorithm named NERank+. Given a document collection, NERank+ first constructs a graph model called Topical Tripartite Graph, consisting of document, topic and entity nodes. We design separate ranking functions to compute the prior ranks of entities and topics, respectively. A meta-path constrained random walk algorithm is proposed to propagate prior entity and topic ranks based on the graph model.We evaluate NERank+ over real-life datasets and compare it with baselines. Experimental results illustrate the effectiveness of our approach.  相似文献   

14.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果.而在针对电力文本的命名实体识别中,由于对专业知识的依赖,往往很难获取足够的监督数据,即存在少样本场景.同时,由于电力行业的精确性要求,相比于一般的开放领域任务,电力领域的实体类型更多,因此难度更大.针对这些挑战,本文提出了一个基于主题提示的命名实体识别方法.该方法将每个实体类型视为一个主题,并使用主题模型从训练语料中获取与类型相关的主题词.通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句.使用生成式预训练语言模型对提示句排序,最终识别出实体与对应类型标签.实验结果表明,在中文电力命名实体识别数据集上,相比于几种传统命名实体方法,基于主题提示的方法取得了更好的效果.  相似文献   

15.
Heterogeneities exist in a multidatabase environment. For example, a real world entity may be differently represented in relations of different databases. In particular, keys of these relations may be incompatible. In this paper, we consider processing entity join queries when data transmission cost dominates. An entity join operation ‘integrates’ tuples representing the same entities from different relations in which inconsistent data may exist. A natural way to process the entity join is to transmit both relations to a site, resolve the possible conflicts between corresponding attributes and process the join, which is very costly. In this paper, an approach is proposed to correctly transform a global query into local subqueries to preprocess entity join queries in multiple sites with an attempt to lower the cost of data transmission. Besides, an extension of the traditional semijoin, named extended semijoin, is proposed to further reduce the cost of data transmission for entity join query processing.  相似文献   

16.
杨丹  陈默  王刚  孙良旭 《计算机科学》2017,44(5):189-192, 205
随着实体搜索成为信息检索的一种新趋势,实体推荐也成为业界和学术界的热门研究问题之一。异构信息空间中的异构实体间彼此相互关联,因此跨类型实体推荐至关重要。此外,异构实体具有时间信息,异构信息空间中的实体不断随时间演化,用户希望得到在时间上最相关的实体推荐。提出一个时间感知的跨类型实体推荐框架T-ERe,利用异构实体间丰富的关联关系和查询日志实现跨类型的实体推荐。T-ERe考虑实体的时间信息和查询的时间上下文, 给用户推荐时间上最相关的多种类型的实体。在真实数据集上的实验结果表明了T-ERe的可行性和有效性。  相似文献   

17.
问答系统是一种以准确且自然的语言来回答用户提问的系统。本文对其中涉及的“命名实体识别”这一环节尝试了一些改进措施:1.针对传统单向模板匹配耗时耗力的问题,提出一种双向格子结构的长短时记忆网络(Lattice Bi-LSTM),解决了命名实体识别中对句子处理不当和对分词结果具有依赖性两大问题,且与单向结构相比,双向结构能更好地利用句子信息,使输出结果更具鲁棒性,从而更准确地捕获语义信息。2.针对传统方法未考虑实体间相似度的非线性耦合性问题,提出一种利用周期性核函数准确地将“相似”的实体链接到知识库中去的方法。对提出的两个改进方法进行了实验验证,其结果表明:所用方法与经典方法相比,具有显著改进效果。  相似文献   

18.
19.
构建多模态知识图谱的核心在于为知识图谱中的实体匹配正确合适的图像。现有的实体配图方法主要将百科图谱以及图像搜索引擎作为实体候选图像的来源,但对图像数据元的应用方式比较简单,不能准确把握图像数据来源的特点,且可扩展性较差。提出一种基于多模态模式迁移的知识图谱实体配图方法,从不同类别的头部实体中抽取对应的语义模板及视觉模式迁移到同类非头部实体的图像获取过程中,其中语义模板用于构建搜索引擎检索关键词,视觉模式用于对检索结果去噪,最终为WikiData中25类共1.278×105个实体收集1.8×106幅图像。实验结果表明,与IMGpedia、VisualSem、Richpedia和MMKG这4种多模态知识图谱相比,利用该方法构建所得的知识图谱中实体对应的图像在准确性和多样性上更具优势,在下游任务链接预测中,通过引入该方法收集到的图像可使模型的预测链接准确性得到显著提升,在Hits@10的指标上取得59.74%的准确率,较对比方法提高12.7个百分点以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号