排序方式: 共有9条查询结果,搜索用时 15 毫秒
1
1.
虚拟新闻丰富了战略对抗演习的表现手段,提高了参演人员的沉浸感。针对目前该系统以人工操作方式为主和自动化程度较低的现状,提出将现代汉语文本的词语切分技术引进到该系统,研究了自动分词过程中字典库的设计、分词的方法、虚拟新闻系统中自动分词的特点和详细的算法等问题。改进后的系统在战略对抗演习中进行了应用。对改进后和改进前的实验对比分析表明,现代汉语文本的词语切分技术能够缩短虚拟新闻的生成时间,提高整个系统的自动化程度。 相似文献
2.
汉语的自动理解与汉语文本的改进 总被引:3,自引:0,他引:3
王开扬 《术语标准化与信息技术》2006,(4):36-40
汉字的“字”与汉语的“词”单位不一致,给人脑和电脑的理解都带来困难。汉语另外有三种可能的文本“:汉字词式书写”文本“,纯拼音词式书写”文本和“拼音夹用汉字”文本“。拼音夹用汉字”文本最有可能成为走出汉语自动理解困境的最佳路径。 相似文献
3.
4.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩. 相似文献
5.
6.
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 相似文献
7.
网上的基础语言信息资源 总被引:1,自引:0,他引:1
俞士汶 《术语标准化与信息技术》2001,(4):19-23
论述了语言信息处理技术在信息化进程中的作用;介绍了北京大学计算语言学研究所在语言信息处理基础研究方面已经取得的成果以及语言资源情况;提出需要进一步研究的课题. 相似文献
8.
9.
大规模现代汉语标注语料库的加工规范 总被引:14,自引:5,他引:9
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。
规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。
要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。 相似文献
1