排序方式: 共有4条查询结果,搜索用时 0 毫秒
1
1.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。 相似文献
2.
3.
对任何公司来说,集体数据代表着战略资产,但它的价值只有通过转化为可操作的信息后才可实现。IT产业在近20年一直在谈论如何把数据传送给知识系统和提供给决策支持系统(DSS)。为了满足公司对信息日益增长的需求,商家开始在建立数据仓库方面进行投资。数据仓库技术大约有9年的生命周期,分成3个阶段:引入期、使用期和成熟期。最初的3年是基于用户的介绍阶段,对于数据仓库而言,这一阶段是从Bill Inmon在1991年出版的《建立数据仓库》开始的。Bill详细说明了数据仓库的特点和建立的方法,阐明了数据仓库的理论基础。今天,我们已进入第二个阶段,即数据仓库生命周期的技术使用阶段。META Group最近的一项调查表明,典型数据库的规模快速增长,到1998年,在大公司中,1000亿字节的数据库已很普通。数据库规模的趋势是十分令人担忧的,因为建立、维护和管理如此庞大的数据库将是很复杂的,需要启用新的技术——数据仓库。 相似文献
4.
濒危语言口语语料库建立的目的是系统地保存近乎消失的濒危语言,留存濒危语言的生命力与地方文化,并且能够对其进行学习与研究。濒危语言口语语料库保存的内容主要包括原始声音文件、国际音标标注、汉语对译标注以及汉语翻译标注。以濒危语言吕苏语为范例,深入、全面、系统地研究与建立濒危语言口语语料库,并对标注语料实现了自动分词与关键词提取的功能,为后续建立通用濒危语言语料库提供了一个范例。 相似文献
1