排序方式: 共有7条查询结果,搜索用时 15 毫秒
1
1.
中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。
相似文献
相似文献
2.
3.
中文分词是中文信息处理的前提,本文研究了已有的分词算法、分词词典机制,提出了一种新的词典机制——带词长整词二分词典。该方法通过改进词典机制,提高了中文分词最大匹配算法的匹配速度以及分词的效率。文章最后对新的机制和已有的机制进行了比较和实验分析。 相似文献
4.
分析英语单词音节计数算法,探索提高音节计数准确率的方法.测试结果表明:根据单词的形态特征增加匹配规则能够提升计数的准确率.如果再添加音节信息词典的支持,可继续提升计算的准确率和速度.音节计数改进算法可用于设计测量英语文本难度的程序,为客观高效地选择教学或训练用英语文本提供参考.该算法还适合用于其它与音节有关的英语词汇量化分析. 相似文献
5.
首先陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;其次按词长排序的前20个最长的词情况,介绍词语长度分布;在此基础上分析词干长度分布、常用纯词干长度分布及常用去尾词干长度分布;最后介绍平均词干、词长统计与分析结果。 相似文献
6.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。 相似文献
7.
1