首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于.NET的中文分词系统设计与实现   总被引:1,自引:0,他引:1  
针对中文分词的相关理论,讨论了中文分词的难点、语料库和中文分词算法,然后在.NET下设计了一个中文分词系统。在长词优先的原则下通过SQL Server 2005自建了一个语料库。在Visual Studio 2005下,采用改进的正向减字最大匹配分词算法,使用ASP.NET和C#语言实现了这个系统。结果表明该分词系统达到了较好的分词效果。  相似文献   

2.
才藏太 《计算机工程与应用》2012,48(26):127-130,147
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。  相似文献   

3.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

4.
班智达藏文标注词典设计   总被引:1,自引:0,他引:1  
语料库加工是一项庞大的语言工程,其中分词标注是最基础性的工作,而分词标注词典是标注系统的重要组成,词典设计的优劣直接关系着分词标注的速度和效率。在设计国家语委项目《班智达藏文自动标注系统》的基础上,给出了分词标注词典库的结构及词典库索引查询算法。对85万字节藏语实验语料的分词和标注,分词准确率达99%,标注准确率达97%。  相似文献   

5.
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程.针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比.实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题.  相似文献   

6.
论述了ASP.NET三层结构,给出了.NET平台上三层结构的实现方法,并将ADO.NET封装为OACF,讲述了一个基于ASP.NET,OACF和SQL Server 2005相结合的办公自动化系统的设计,并通过一个办公自动化系统登录模块的实现,描述了该方法在实际的软件开发中的实现过程。  相似文献   

7.
中文自动分词是计算机中文信息处理中的难题.介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大<人民日报>标注语料库中进行封闭测试,取得较好的效果.系统包含了一个新词识别器、一个基本分词算法和实现单字构词、词缀构词以及一致性检验的程序.  相似文献   

8.
《计算机科学与探索》2017,(7):1122-1130
针对以往进行藏文情感分析时算法忽略藏文语句结构、词序等重要信息而导致结果准确率较低的问题,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。将藏文分词后,用词向量表示词语,则藏文语句变为由词向量组成的矩阵;利用无监督递归自编码算法对该矩阵向量化,此时获得的最佳藏文语句向量编码融合了语义、语序等重要信息;利用藏文语句向量和其对应的情感标签,有监督地训练输出层分类器以预测藏文语句的情感倾向。在实例验证部分,探讨了不同向量维度、重构误差系数及语料库大小对算法准确度的影响,并分析了语料库大小和模型训练时间之间的关系,指出若要快速完成模型的训练,可适当减小数据集语句条数。实例验证表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。  相似文献   

9.
藏文自动分词系统的设计与实现   总被引:15,自引:3,他引:15  
藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。  相似文献   

10.
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。
  相似文献   

11.
设计与实现了一个基于ASP.NET的企业通用人事管理系统,系统采用了ASP.NET作为开发工具,后台数据库采用SQL Server 2005进行数据库设计,利用ADO.NET数据库访问技术实现对数据库的管理操作,从系统需求、结构设计、功能模块设计、系统数据库及系统实现技术等五个方面进行阐述。  相似文献   

12.
讨论了一个基于ASP.NET、ADO.NET和SQL Server 2005相结合的公安技侦管理系统的系统模块、逻辑体系结构、系统优化以及实现的关键技术.该系统以Windows Server 2003+IIS6.0+.net框架作为平台,以SQL Server 2005为后台数据库,采用ASP.NET为基本开发工具,充分考虑了系统的安全性,实现了案件的立案、审查、任务分配、侦办、查询、结案等技侦业务的综合管理.  相似文献   

13.
设计与实现了一个基于ASP.NET的人事管理系统,系统采用了ASP.NET作为开发工具,后台数据库采用SQL Server 2005进行数据库设计,利用ADO.NET数据库访问技术实现对数据库的管理操作,主要是从系统需求,结构设计,功能模块设计,系统数据库及系统实现技术4方面阐述。  相似文献   

14.
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。  相似文献   

15.
简要阐述了在信息检索系统中基于Lucene软件包设计实现的一个中文分词算法.通过人民日报语料库建立三叉Trie词典结构树,采用二元动态规划算法,把句子的词语划分通过计算概率的办法解决,通过分词测试得到比较理想结果.  相似文献   

16.
基于.NET的科研经费申报系统是在Microsoft.NET平台下设计和开发的,主要应用Microsoft.NET平台下的ASP.NET技术。本文主要研究了.NET的科研经费申报系统的数据库开发平台和提供的数据库访问接口,设计数据库查询算法,并对数据库查询算法进行了改进。  相似文献   

17.
该文介绍了基于ASP.NET2.0的在线考试系统的设计与实现。该系统采用多层体系结构,利用ASP.NET、C#和SQL SERVER2005技术实现,阐述了在线考试系统的功能和实现方法。  相似文献   

18.
文章论述了一个中文自动答疑系统的设计实现方法,该系统使用ASP.NET3.5+C#语言开发,使用中文分词组件来理解拆分自然语言,并转化为关键字,再进一步使用SQLServer全文搜索技术进行全文查询得到相同或类似的问题-答案对。  相似文献   

19.
在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究。根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上。  相似文献   

20.
藏语语料库加工方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号