共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
才藏太 《计算机工程与应用》2012,48(26):127-130,147
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。 相似文献
3.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。 相似文献
4.
班智达藏文标注词典设计 总被引:1,自引:0,他引:1
语料库加工是一项庞大的语言工程,其中分词标注是最基础性的工作,而分词标注词典是标注系统的重要组成,词典设计的优劣直接关系着分词标注的速度和效率。在设计国家语委项目《班智达藏文自动标注系统》的基础上,给出了分词标注词典库的结构及词典库索引查询算法。对85万字节藏语实验语料的分词和标注,分词准确率达99%,标注准确率达97%。 相似文献
5.
6.
论述了ASP.NET三层结构,给出了.NET平台上三层结构的实现方法,并将ADO.NET封装为OACF,讲述了一个基于ASP.NET,OACF和SQL Server 2005相结合的办公自动化系统的设计,并通过一个办公自动化系统登录模块的实现,描述了该方法在实际的软件开发中的实现过程。 相似文献
7.
中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序. 相似文献
8.
《计算机科学与探索》2017,(7):1122-1130
针对以往进行藏文情感分析时算法忽略藏文语句结构、词序等重要信息而导致结果准确率较低的问题,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。将藏文分词后,用词向量表示词语,则藏文语句变为由词向量组成的矩阵;利用无监督递归自编码算法对该矩阵向量化,此时获得的最佳藏文语句向量编码融合了语义、语序等重要信息;利用藏文语句向量和其对应的情感标签,有监督地训练输出层分类器以预测藏文语句的情感倾向。在实例验证部分,探讨了不同向量维度、重构误差系数及语料库大小对算法准确度的影响,并分析了语料库大小和模型训练时间之间的关系,指出若要快速完成模型的训练,可适当减小数据集语句条数。实例验证表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。 相似文献
9.
10.
11.
设计与实现了一个基于ASP.NET的企业通用人事管理系统,系统采用了ASP.NET作为开发工具,后台数据库采用SQL Server 2005进行数据库设计,利用ADO.NET数据库访问技术实现对数据库的管理操作,从系统需求、结构设计、功能模块设计、系统数据库及系统实现技术等五个方面进行阐述。 相似文献
12.
13.
陈芳 《数字社区&智能家居》2010,(12)
设计与实现了一个基于ASP.NET的人事管理系统,系统采用了ASP.NET作为开发工具,后台数据库采用SQL Server 2005进行数据库设计,利用ADO.NET数据库访问技术实现对数据库的管理操作,主要是从系统需求,结构设计,功能模块设计,系统数据库及系统实现技术4方面阐述。 相似文献
14.
项炜金澎 《计算机应用与软件》2014,(5):106-109
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。 相似文献
15.
梅震国 《电脑编程技巧与维护》2015,(9)
简要阐述了在信息检索系统中基于Lucene软件包设计实现的一个中文分词算法.通过人民日报语料库建立三叉Trie词典结构树,采用二元动态规划算法,把句子的词语划分通过计算概率的办法解决,通过分词测试得到比较理想结果. 相似文献
16.
基于.NET的科研经费申报系统是在Microsoft.NET平台下设计和开发的,主要应用Microsoft.NET平台下的ASP.NET技术。本文主要研究了.NET的科研经费申报系统的数据库开发平台和提供的数据库访问接口,设计数据库查询算法,并对数据库查询算法进行了改进。 相似文献
17.
马青霞 《数字社区&智能家居》2009,(36)
该文介绍了基于ASP.NET2.0的在线考试系统的设计与实现。该系统采用多层体系结构,利用ASP.NET、C#和SQL SERVER2005技术实现,阐述了在线考试系统的功能和实现方法。 相似文献
18.
文章论述了一个中文自动答疑系统的设计实现方法,该系统使用ASP.NET3.5+C#语言开发,使用中文分词组件来理解拆分自然语言,并转化为关键字,再进一步使用SQLServer全文搜索技术进行全文查询得到相同或类似的问题-答案对。 相似文献
19.
《计算机应用与软件》2017,(9)
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。 相似文献
20.
才让加 《计算机工程与应用》2011,47(6):138-139
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。 相似文献