排序方式: 共有56条查询结果,搜索用时 0 毫秒
1.
为了提高英语音频句子切分的效果,提出了基于双阈值的句子边界检测方法.该方法针对VOA、BBC等特别适合英语学习者的音频所具有的波形规范、环境噪声小、速率通常比较稳定等特点,利用静音能量阈值和静音时延阈值来检测音频句子的边界,并辅以对照文本信息进行校正.针对VOA慢速英语的实验结果表明:单纯使用双阈值方法,音频切分的召回率超过96%,精确率超过94%;利用对照文本校正后,可进一步提高精确率. 相似文献
2.
3.
4.
5.
预训练语言模型虽然能够为每个词提供优良的上下文表示特征,但却无法显式地给出词法和句法特征,而这些特征往往是理解整体语义的基础.鉴于此,本文通过显式地引入词法和句法特征,探究其对于预训练模型阅读理解能力的影响.首先,本文选用了词性标注和命名实体识别来提供词法特征,使用依存分析来提供句法特征,将二者与预训练模型输出的上下文表示相融合.随后,我们设计了基于注意力机制的自适应特征融合方法来融合不同类型特征.在抽取式机器阅读理解数据集CMRC2018上的实验表明,本文方法以极低的算力成本,利用显式引入的词法和句法等语言特征帮助模型在F1和EM指标上分别取得0.37%和1.56%的提升. 相似文献
6.
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度. 相似文献
7.
8.
一种面向用户的语言模型及其机器学习方法 总被引:3,自引:0,他引:3
为改善语言模型的自适应能力,提出的面向用户的语言模型在组织结构上由通过大规模平衡语料的训练得到的通用语言模型(其原始参数维持不变)和通过在线学习得到的用户模型(其参数采用先进先出技术动态更新)组成;在数据存储结构上,通用模型采用多级索引结构来解决数据稀疏问题,用户模型采用线性结构表示,用二分法查找,根据最大限度纠正语言模型的转换错误和避免语言模型不平衡的原则,提出了适应汉语N-gram模型的机器学习方法.实验结果表明,这种机器学习方法具有“强化”特点,和“渐进学习”方式一起为应用系统提供了更灵活的选择。 相似文献
9.
首先对国内微博平台的信息进行了综合分析,主要介绍了微博信息的定义,在错综复杂的微博信息中哪些信息比较重要,以及这些微博信息包含哪些详细的内容,是如何组织的.然后选取新浪微博平台作为研究对象,利用新浪微博API设计了爬虫程序,抽取用户信息;以用户的关注人数、粉丝数和发布的微博数为标准对用户信息进行了定量分析.最后根据分析... 相似文献
10.