首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在构建助词知识库、标注大规模语料过程中使用了基于规则的助词用法自动标注的方法;对标注后的语料,发现基于规则的助词用法自动标注方法能够自动发现语料的部分词性、分词错误.这些错误的发现对研制高质量的语料库起到了积极的促进作用,并将语料加工深度向前推进.  相似文献   

2.
平行语料库加工处理过程中,传统的系统很难将当前字的标记与其它序列字符的同现特征统计出来,导致切分错误情况频频发生。为此,设计基于WordSmith软件的平行语料库加工处理系统。在硬件设计上,使用S3C6410处理器实现文本分析功能,生成标注文件,用于后续加工处理;在软件设计上,使用WordSmith软件提取出语料库中的词表,并进行削尾处理,使用6字标注集实现语料的分词处理,处理完成后,根据计算的词语相似度实现语料对齐处理。至此,系统设计完成。实验结果表明:设计的基于WordSmith软件的平行语料库加工处理系统在分词实验中没有出现切分异常的情况,并且在兼类词消歧实验中,召回率为95.6,K值为97.2,均高于传统的加工处理系统。  相似文献   

3.
藏语语料库加工方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。  相似文献   

4.
藏语语料库词语分类体系及标记集研究   总被引:1,自引:1,他引:0  
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。  相似文献   

5.
汉语语料库词性标注自动校对方法研究   总被引:1,自引:0,他引:1  
从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。  相似文献   

6.
藏语语料库词类描述方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
藏语词类的基本属性描述是藏语语料库多级加工的基础,根据藏语语料库多级加工的实际需要,通过对藏语词类的语法、语义信息的描述和藏语词语后添加方式的分析,可以为计算机对藏文的词语搭配结构、语法信息、语义信息和词类标记进行自动处理提供一个切实可行的方法。  相似文献   

7.
一个用于OCR输出的中文文本的拼写校对系统   总被引:1,自引:0,他引:1  
该文描述了一个处理OCR输出的中文文本的拼写校正系统。使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本。首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存(校正词, 错词, 出现次数)。用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库。错误模式可看作是校正规则,用于校正文本中和模式中与“错词”相同形式的错误。根据“错词”的长度将错误模式分为两类,一类为“错词”的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为“错词”的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正。以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累。由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好。结尾部分给出了本校对系统的实验结果。  相似文献   

8.
中医药古文献语料库设计与开发研究   总被引:3,自引:2,他引:1  
专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。  相似文献   

9.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作。在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的首要问题.本文首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,进而提高维语词性标注的正确率。  相似文献   

10.
SMS-2008标注中文短信息库   总被引:2,自引:0,他引:2  
随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私标注语料库、内容标注语料库、错误标注语料库等。该语料库可用于短信语言现象研究、短信分类过滤算法研究、隐私保护算法研究、自动纠错算法研究等。  相似文献   

11.
The software architecture of a system has influences against various software characteristics of the system such as efficiency, reliability, maintainability, etc. For supporting to design the software architecture, we have developed architectural styles for distributed processing systems. The styles classify the architecture for distributed processing systems into nine categories based on the location of data storage and the type of processing between a client and a server. This paper describes our architectural styles and proposes a simple but practical method to select an appropriate architectural style for developing an application system. The selection method introduces the characterization of architectural styles and the characteristic charts to visualize their characteristics of architectural styles. Next, we propose a method to select an appropriate architectural style using the conformity between characteristic charts of a system and architectural styles. We have verified the applicability of this selection method using our customers' real application systems.  相似文献   

12.
The Journal of Supercomputing - Unstructured big data processing requires efficient computational styles to rapidly analyze continuously changing data. Incremental processing is a promising...  相似文献   

13.
There are basically four problems to solve in order to produce realistic animated synthetic actors with hair: hair modeling and creation, hair motion, collision detection and hair rendering. This paper describes a complete methodology to solve these basic four problems. We present how hair styles may be designed with our Hair Styler module. Then we survey the animation model and emphasize a method of collision processing. Finally, we explain how hair may be rendered using an extension of a standard ray-tracing program. We also show applications of our synthetic actors with various hair styles and different styles of mustaches and beards.  相似文献   

14.
PH值控制的在线仿真   总被引:1,自引:0,他引:1  
以高校的PH控制为基础,摒弃了惯用的Matlab而在JavaApplet下进行仿真,可将PH控制仿真嵌入到网页中,直接在网上进行仿真,方便了网络教学和远程教学。同时,仿真界面可以根据需要自行设计,其效果更加美观、灵活。  相似文献   

15.
Students are characterized by different learning styles, focusing on different types of information and processing this information in different ways. One of the desirable characteristics of a Web-based education system is that all the students can learn despite their different learning styles. To achieve this goal we have to detect how students learn: reflecting or acting; steadily or in fits and starts; intuitively or sensitively. In this work, we evaluate Bayesian networks at detecting the learning style of a student in a Web-based education system. The Bayesian network models different aspects of a student behavior while he/she works with this system. Then, it infers his/her learning styles according to the modeled behaviors. The proposed Bayesian model was evaluated in the context of an Artificial Intelligence Web-based course. The results obtained are promising as regards the detection of students’ learning styles. Different levels of precision were found for the different dimensions or aspects of a learning style.  相似文献   

16.
回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的汉语零形回指解析方法。该文从语言学角度对这些理论研究进行介绍,旨在指出语言信息工作者在注重工程实践的同时,应关注并借鉴语言学基础理论研究的成果,而从事中文信息处理的语言学家也应加强语言形式化的研究。  相似文献   

17.
刘轶  雷勇 《测控技术》2011,30(8):31-33
在某型号发动机全流程参数测量的基础上,以VC++软件为开发平台,利用Access数据库管理工具,采用对话框文档模式,开发了航空发动机全流程参数测量数据处理平台.该系统包括数据输入、性能参数计算、测点位置计算及温度场可视化等功能模块.相比过去的数据处理方法,该平台操作简便、界面友好、实用性强、工作效率高,为发动机全流程参...  相似文献   

18.
Connectionist natural language processing research has been in the literature for less than a decade and yet it is already claimed that it has established novel styles of representation. This article presents a survey of some of the main representational techniques employed in connectionist research on natural language processing and assesses claims as to their novelty value, i.e. whether or not they add anything new to Classical representation schemes. The main aims are (i) to introduce readers (particularly AI researchers and computational linguists) to the nuts and bolts of the different styles of connectionist representations and (ii) to lay out the direction of research on the new uniquely connectionist representations. These latter representations hold a great deal of promise for the beginning of a new theory of Artificial Intelligence (AI).1  相似文献   

19.
本文介绍了网格环境日志分析框架 (LARGE) 的结构设计和工作原理。LARGE 将整个日志分析流程分为采集、分析、反馈三个模块,并针对环境中系统日志和 SCE 日志这两种不同的日志类型提出了针对性的处理方法。LARGE 系统部署在中科院超级计算环境中,对维护系统正常运行、及时发现并处理异常起到重要的支撑作用,同时对系统和用户行为的进一步分析提供了很好的基础。  相似文献   

20.
基于形象语义特征的敦煌壁画检索   总被引:4,自引:0,他引:4  
鲁东明  潘云鹤 《计算机学报》1998,21(11):1022-1026
敦煌壁画艺术保护是一个重要的课题。本文从分析壁画风格出发,讨论体现风格的基本特征,形象特征与语义特征,以及基于特征的“符号-符号”,“形象-符号-形象”与“形象-形象”第三类检索方式,提出基于语言变量的特征表达,壁画数据模式,通用的壁画查询语言与实现算法,然后,研究检索算法实现中特征相互转换问题,以及色彩特征,线描特征的匹配算子,最后,介绍原型系统的实现情况及进一步研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号