期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

任纪生王作英《中文信息学报》2006,20(4):84-89

基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。相似文献

2.

基于主题语言模型的中文信息检索系统研究

张俊林孙乐孙玉芳《中文信息学报》2005,19(3):15-21

准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。相似文献

3.

基于记忆的自适应汉语语言模型的研究

曲卫民张俊林孙乐孙玉芳《中文信息学报》2003,17(5):14-18,40

基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。相似文献

4.

面向跨语言文本分类与标签推荐的带标签双语主题模型的研究

田明杰崔荣一《计算机应用研究》2019,36(10)

针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内容上的相关性,对关键词进行提取,并进行标签化,进而把标签对应于主题模型中的主题,实例化“潜在”的主题;其次,利用带标签双语主题模型对摘要部分进行了训练迭代;最后,对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明,跨语言文本分类任务中micro-F1达到94.81%,推荐的标签也较好地体现出语义上的相关性。相似文献

5.

利用梯度投影法实现语言模型的主题自适应

苏韬汪俊杰孙甲松王作英《中文信息学报》2003,17(1):54-59

本文研究了在汉语语音识别中如何根据识别任务的主题相关性自动调整语言模型,即语言模型的主题自适应问题。提出了利用梯度投影法在最大似然估计准则下将不同主题的语言模型进行线性插值的方法。实验表明,该方法可以有效地提高系统的识别率和稳健性,特别是对于主题明确的识别任务改善尤为明显。同时,为了解决新系统识别速度较慢的问题,本文在音字转换过程中采取了多路搜索策略,在与基线系统识别速度相当的情况下识别率仍获得了明显改善。相似文献

6.

基于跨语言神经主题模型的汉越新闻话题发现方法

杨威亚余正涛高盛祥宋燃《计算机应用》2021,41(10):2879-2884

针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型（CL-NTM）的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型（ICE-LDA）在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。相似文献

7.

基于CBOW-LDA主题模型的Stack Overflow编程网站热点主题发现研究

张景朱国宾《计算机科学》2018,45(4):208-214

相似文献

8.

基于双语主题模型和双语词向量的跨语言知识链接

余圆圆巢文涵何跃鹰李舟军《计算机科学》2019,46(1):238-244

跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。相似文献

9.

一种改进的基于记忆的自适应汉语语言模型

张俊林孙乐孙玉芳《中文信息学报》2005,19(1):9-14

基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能,与n元语言模型相比困惑度下降了4011% ,有效地增强了语言模型的自适应性。相似文献

10.

基于字统计语言模型的汉语语音识别研究 总被引：1，自引：0，他引：1

吴应良韦岗李海洲《计算机应用研究》2000,17(5):6-8

隐马尔可夫模型（ＨＭＭ）由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于ＨＭＭ的识别算法也因取得了较好的识别效果而得到广泛应用．但其仅仅依靠语音信号的声学模型来进行识别处理,因此存在着不能利用语言的非声学知识进行识别的固有缺陷．该文提出的新方法将基于Ｎ元文法（Ｎ－ｇｒａｍ）的统计语言模型应用于汉语语音识别,推导了模型多数的估值公式,并给出了模型的训练和识别算法．初步实验表明：引入统计语言模型有利于降低识别难度和改善语音识别性能．相似文献

11.

基于主题语言模型的句子检索算法 总被引：1，自引：0，他引：1

吴友政赵军徐波《计算机研究与发展》2007,44(2):288-295

提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过Aspect Model将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述 .对于初检结果的聚类,提出了"一个句子多个主题"和"一个句子一个主题"两种算法 .相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势 .对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能 . 相似文献

12.

基于聚类语言模型的生物文献检索技术研究

文健李舟军《中文信息学报》2008,22(1):61-66,122

近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。相似文献

13.

基于语义域语言模型的中文话题关联检测 总被引：2，自引：0，他引：2

洪宇张宇范基礼刘挺李生《软件学报》2008,19(9):2265-2275

关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点. 相似文献

14.

对外汉语教学领域话题语料库的研究与构建

胡韧奋朱琦杨丽姣《中文信息学报》2015,29(6):62-68

对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5 457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学及相关研究工作,还抽取、计算了文段的语法点和新HSK词语等级信息,作为话题标注的补充维度加入资源库,以期为汉语教学领域的教师、研究者及教材编写者提供较为全面的话题信息参考。
相似文献

15.

统计语言模型中词的自动聚类技术研究

高升徐志明《计算机工程与应用》2003,39(11):69-70,152

为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。相似文献

16.

基于双语模型的汉语句法分析知识自动获取 总被引：2，自引：0，他引：2

吕雅娟李生赵铁军《计算机学报》2003,26(1):32-38

提出了一种汉语句法分析知识自动获取的新方法。该方法以双语语料库为基础，在双语语言模型的指导下，利用英语句法分析和双语词汇对齐得到汉语句子分析结果。根据得到的句子分析可以提取汉语组块边界信息和简单的句法分析规则。实验结果表明，自动获取的组块分析边界和已有的汉语句法分析体系取得了很好的一致性，证明了该方法的可行性和有效性。文中提出的方法充分利用现有的英语地研究成果，为汉语句法分析研究提出了一个崭新的思路。相似文献