期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李文波孙乐诺明花吴健《通信学报》2008,29(4):57-62

在深入分析敏感信息过滤任务的特点和难点的基础上,针对现有一般的信息过滤方法的不足,提出了一种利用敏感词的组合信息来改进过滤效果的思想.进而,研究了在核方法的框架下特征共现行为建模的原则并提出了复合ANOVA核来刻画特征组合行为.通过真实信息过滤环境中的测试评估,显示了此敏感信息过滤方法的有效性. 相似文献

2.

基于藏语字性标注的词性预测研究

龙从军刘汇丹诺明花吴健《中文信息学报》2015,29(5):211-216

该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
相似文献

3.

汉藏短语对抽取中短语译文获取方法研究 总被引：1，自引：0，他引：1

诺明花吴健刘汇丹丁治明《中文信息学报》2011,25(3):112-118

该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。相似文献

4.

ResNet结合BiGRU的关系抽取混合模型

唐朝诺明花胡岩《中文信息学报》2020,34(2):38-45

关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase 数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。相似文献

5.

一种语音信息检测方法的研究

诺明花吾守尔·斯拉木《计算机工程与应用》2006,42(3):69-72

文章提出了一种新的语音信息检测的较灵活的方法。其中用到了两种技术:人工神经网络和复倒谱矩阵。目的是如果用人工神经网络就能够较彻底地解决未明确定义的映射关系。对各种在较低的噪音信噪比值情况下观察结果都有较高的可信度。在语音信号检测过程中,由于语音的特征文章利用线性预测系数得到复倒谱矩阵,这样做会以最低的代价提供较高的对数频谱的估计程度,并且提高了频谱域和时域的有效性。文章测试了几种不同的W SS噪声以及不同信噪比(SNR)的情形,在3dB～10dB的范围之内,AN N方法显著地优于利用语音信号的能量和过零率检测的方法,同时也提高了其它基于复倒谱矩阵方法的准确率。相似文献

6.

汉藏短语抽取 总被引：1，自引：1，他引：0

诺明花张立强刘汇丹吴健丁治明《中文信息学报》2011,25(2):105-111

该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。相似文献

7.

基于关联度的汉藏多词单元等价对抽取方法

诺明花刘汇丹吴健丁治明《中文信息学报》2012,26(3):98-104

针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。相似文献

8.

SegT一个实用的藏文分词系统 总被引：3，自引：0，他引：3

刘汇丹诺明花赵维纳吴健贺也平《中文信息学报》2012,26(1):97-104

在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。相似文献

9.

Web藏文文本资源挖掘与利用研究

刘汇丹诺明花马龙龙吴健贺也平《中文信息学报》2015,29(1):170-177

该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。相似文献

10.

一种融合标签和知识图谱的推荐方法

冀欣婷诺明花《中文信息学报》2022,36(6):125-134

随着信息的海量增长,推荐系统成为我们日常生活中一种重要的应用。传统的推荐系统根据用户和物品的交互行为进行推荐并利用用户对物品的评分来体现用户的喜好,但是数据的稀疏性会影响推荐结果的准确度,并且简单地评分数字也难以体现用户偏好的主观性以及用户选择的可解释性。因此,该文提出了一种融合标签和知识图谱的推荐方法,其中标签是一种文本信息,其包含的丰富内容和潜在的语义信息可以体现用户对物品的主观评价,对推荐起着关键作用。而知识图谱作为一种有效的推荐辅助技术,其包含的大量实体能为物品提供更多有效的特征信息。此外,该文还提出了一种融合注意力和自注意力的混合注意力模型,通过标签和实体为物品特征分配混合注意力权重,从而提高了推荐性能。实验结果表明,在MovieLens和Last.FM数据集上,该模型的推荐性能较其他推荐算法有所提升。相似文献