排序方式: 共有38条查询结果,搜索用时 234 毫秒
11.
12.
关键词自动标引的最大熵模型应用研究 总被引:37,自引:0,他引:37
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,针对标引任务和现有资源的实际情况,作者首先建立了最大熵模型的特征集合,然后提出了三种试验方法,并给出了相应的试验结果,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨.该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示. 相似文献
13.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。 相似文献
14.
2009年4月27日,教育部科技司组织专家对"计算语言学教育部重点实验室"的建设计划进行了可行性论证.论证会由教育部科技司明炬处长和李武副处长主持,教育部语言文字信息管理司陈敏处长参加了论证会. 相似文献
15.
抽取式摘要是从正文中按照一定策略抽取重要句子组成摘要。该文提出了一种句子抽取方法。基本思想是将句子的抽取看作序列标注问题,采用条件随机场模型对句子进行二类标注,根据标注结果抽出句子以生成摘要。由于不在摘要中的句子的数量远大于摘要中的句子数量,标注过程倾向于拒绝将句子标注为摘要句,针对此问题该文引入了修正因子进行修正。实验表明该方法具有较好地效果。 相似文献
16.
指代消解在自然语言处理中起着越来越重要的作用.许多自然语言处理应用系统都需要高效、鲁棒的指代消解策略.然而,传统的指代消解方法需要用到句法知识、语义知识、上下文知识,甚至领域知识等多级知识,在目前的自然语言处理水平下,要有效获取这些知识是相当困难的.结合汉语的特点,提出了一种弱化语言知识的人称代词消解方法,仅仅用到了单复数特征、性别特征和语法角色特征.该方法主要分为两步,首先,利用这3种特征的简单约束关系,过滤与人称代词特征不一致的词,并形成可能的先行语候选集;然后,使用一个权值算法,计算候选的权值,并将最高权值的候选作为代词最终的先行语.权值算法并不是枚举式地计算每个候选的权值,而会通过动态评测机制,在合适的条件下自动终止计算,因而有效地控制了计算复杂度.此外,该方法不需要对文本进行深层的分析处理,实现起来也很容易.测试结果表明,该方法达到了满意效果. 相似文献
17.
18.
共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,并取得了大量研究成果。该文首先介绍了共指消解问题的基本概念,并采用形式化的方法对该问题做了描述;然后,针对国内外近年来在共指消解研究中的方法进行了总结;之后,对共指消解中重要的特征问题进行了分析与讨论;最后,历数了共指消解的各种国际评测,并对未来可能的研究方向进行了展望。 相似文献
19.
自然语言处理中主题模型的发展 总被引:28,自引:0,他引:28
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进... 相似文献
20.