排序方式: 共有35条查询结果,搜索用时 15 毫秒
1.
研究了多维度等级评分模型的训练学习优化技术.为了解决不同用户之间的评分标注所存在的不一致性,提出两种简单、有效的模型训练优化技术,包括基于容忍度的样本选择方法和基于排序损失的样本选择方法.另外,为了充分利用不同特征的用户评分标注之间的相关性,提出了一个面向属性的协同过滤技术以改善多维度等级评分模型.在两个公开的英语和汉语真实餐馆评论数据集上进行实验验证,实验结果表明,所提出的方法有效地改善了等级评分的性能. 相似文献
2.
3.
4.
一种短语结构规则的自动获取方法 总被引:5,自引:0,他引:5
文中提出一种新的知识获取方法,即从完全没有任何标注的生语料库中,采用NA假设自动构造带标训练数据,利用基于多特征的相似评估技术自动获取名词短语结构规则,该方法具有两个特点:(1)由于从没有任何标注的生语料库中自动获取带标训练数据,促使带标数据规模可以很大,且容易构造不同领域的带标语料库;(2)所获取的短语结构规则具有概率属性,可用于分类检索等应用中的名词短语抽取,为论证方法有效性,采用美国Beri 相似文献
5.
1.引言在过去几年中,一种新型的语言处理技术开始出现,并以各种名称为人们所知,如“面向数据的句法分析(Data-Oriented Parsing,DOP)”,“基于语料库的解释”,及“树库文法”等等,统称为面向数据的语言处理或DOP方法。该方法由Scha[1990]提出,并由Bod[1992-1995]发展,是一种概率的分析策略,其中体现一种假设,即人类对语言的理解与创造,依赖于以往具体的语言经验,而不是抽象的语言学规则。因此,在实现这种方法的模型中,保留以往出现言语语言学表示的大语料库。当处理一个新的输入言语时,通过组合来自语料库的片段构造该言语的分析。其中片段的出现频率用于估计最可能的分析。 相似文献
6.
7.
词性标注规则的获取和优化 总被引:6,自引:0,他引:6
本文提出一种词性标注规则自动学习算法。通过对规则进行评价、优化,有效提高标注正确率和标注效率。系统对PFR标注语料库进行标注,相对于NA假设的词性兼类消歧模型标注结果,封闭测试正确率提高了5.53%,开放测试提高了4.57%。 相似文献
8.
面向数据的分析技术(Data-Oriented Parsing,DOP)是一种概率分析策略,其概率模型的主要目的在于为一个给定的句子找到最可能的分析,即分析消歧。实际上,有关算法计算复杂度的大量研究证明,该类消歧问题属于NP-完全问题。因此,为有效实现最可能的分析,国外学者提出许多近似分析算法。本文主要论述在 DOP 框架中,基于 Monte Carlo 方法找到最可能分析的近似分析算法,并说明该方法可在合理的算法时间代价范围内实现,而且在统计上受控,以确保所获得的近似解确实对应着分析消歧后的精确解。 相似文献
9.
实体指代识别(Entity Mention Detection, EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。 相似文献
10.