排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
2.
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
相似文献
相似文献
3.
4.
关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase 数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。 相似文献
5.
文章提出了一种新的语音信息检测的较灵活的方法。其中用到了两种技术:人工神经网络和复倒谱矩阵。目的是如果用人工神经网络就能够较彻底地解决未明确定义的映射关系。对各种在较低的噪音信噪比值情况下观察结果都有较高的可信度。在语音信号检测过程中,由于语音的特征文章利用线性预测系数得到复倒谱矩阵,这样做会以最低的代价提供较高的对数频谱的估计程度,并且提高了频谱域和时域的有效性。文章测试了几种不同的W SS噪声以及不同信噪比(SNR)的情形,在3dB~10dB的范围之内,AN N方法显著地优于利用语音信号的能量和过零率检测的方法,同时也提高了其它基于复倒谱矩阵方法的准确率。 相似文献
6.
7.
8.
SegT一个实用的藏文分词系统 总被引:3,自引:0,他引:3
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 相似文献
9.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 相似文献
10.
随着信息的海量增长,推荐系统成为我们日常生活中一种重要的应用。传统的推荐系统根据用户和物品的交互行为进行推荐并利用用户对物品的评分来体现用户的喜好,但是数据的稀疏性会影响推荐结果的准确度,并且简单地评分数字也难以体现用户偏好的主观性以及用户选择的可解释性。因此,该文提出了一种融合标签和知识图谱的推荐方法,其中标签是一种文本信息,其包含的丰富内容和潜在的语义信息可以体现用户对物品的主观评价,对推荐起着关键作用。而知识图谱作为一种有效的推荐辅助技术,其包含的大量实体能为物品提供更多有效的特征信息。此外,该文还提出了一种融合注意力和自注意力的混合注意力模型,通过标签和实体为物品特征分配混合注意力权重,从而提高了推荐性能。实验结果表明,在MovieLens和Last.FM数据集上,该模型的推荐性能较其他推荐算法有所提升。 相似文献