首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
THUUyMorph (Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版http: //uy.ts.cn/下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为: 爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。  相似文献   

2.
班智达藏文语料切分词典的建立与算法研究   总被引:2,自引:0,他引:2  
才藏太 《计算机应用》2009,29(7):2019-2021
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。  相似文献   

3.
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N-Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正.  相似文献   

4.
“汉英-泰互译有声语料库”的开发,在泰文舆情分析领域,解决了词典分词算法中训练语料缺乏的问题. 本文采用计算机化信息处理技术,对大量的收集来的泰文语料进行整理、规范、加工与存储,统计出泰文词汇8000多个. 然后利用词典翻译和人工校对其进行语料对齐. 最后,结合泰文语言语法特征以及句法的语义特点,分类归纳和规范标注泰语语料,构建了5万条左右的的汉英-泰语料数据库.  相似文献   

5.
在构建助词知识库、标注大规模语料过程中使用了基于规则的助词用法自动标注的方法;对标注后的语料,发现基于规则的助词用法自动标注方法能够自动发现语料的部分词性、分词错误.这些错误的发现对研制高质量的语料库起到了积极的促进作用,并将语料加工深度向前推进.  相似文献   

6.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。  相似文献   

7.
中文文本语料库分词一致性检验技术的初探*   总被引:5,自引:0,他引:5  
对大规模语料库中的分词不一致现象进行分析,提出了语料库分词一致性检查和校对的新方法。该方法提取词与词之间语法、语义搭配信息,利用支持向量机的理论对候选序列进行判断,给出一个切分结果,进而提高汉语语料库切分的准确率。  相似文献   

8.
词义标注语料库建设综述   总被引:3,自引:2,他引:1  
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。  相似文献   

9.
汉语语料库词性标注自动校对方法研究   总被引:1,自引:0,他引:1  
从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。  相似文献   

10.
大规模语义角色标注语料库的构建可以为计算机理解自然语言的语义提供有用的训练数据。该文主要研究服务于语义角色标注语料库构建的语义角色标注规则。在人工语义角色标注的基础上,分析句式和句模的对应关系,并总结出一套基于句式的语义角色标注规则,在测试集上达到78.73%的正确率。基于上述规则,可以在构建语义角色标注语料库时完成自动标注的工作,标注人员在此基础上进行人工校对,可有效地减少工作量。  相似文献   

11.
目前Wiki系统处于初始发展阶段,各种应用系统具有不同的功能和特点,并没有统一的标准。为了建立标准的Wiki系统,本文将面向对象建模语言UML引入Wiki系统的设计和实现过程中,采用Rational Rose2003建立其功能需求模型、数据模型和Web模型。建模语言的标准化和Wiki系统模型,提高了Wiki系统的软件重用和开发效率,并有利于Wiki系统的标准化和多样性。  相似文献   

12.
Trustworthy Web services: actions for now   总被引:3,自引:0,他引:3  
It is possible to build in trustworthiness by creating a layer atop the current Web services framework. At present, the framework stops with WS-Security, a standard that IBM and Microsoft jointly proposed to enhance the quality of protection for Web services. The framework needs a new trustworthiness layer that defines criteria for determining that a Web service is indeed trustworthy and that measures, enhances, and guarantees trustworthiness. Web services can become untrustworthy for four reasons: unfulfilled requirements, malicious acts and code changes, erratic Internet behaviors or resource scarcity that result in unacceptable delays, and the poor interoperation of selected services. When Web services become mainstream, which could be soon, trustworthiness will become the bottleneck to their extensive adoption. A set of trustworthiness criteria and guidelines will provide an open and standard infrastructure for ensuring trustworthiness in this domain. Researchers must then set to work devising a technical strategy and roadmap, coupled with a standards-based architecture that is comprehensive yet flexible enough to meet the Web services trustworthiness needs of real business. There is serious work ahead, but the results will be far more rewarding if researchers take the first step now: Standardize on a precise and comprehensive definition of Web services trustworthiness. The rest of the tasks will follow logically from that.  相似文献   

13.
一种基于结构化语料库的概念语义网络自动生成算法   总被引:4,自引:0,他引:4  
概念语义网络是为了解决信息检索中的词汇不匹配的问题而提出的,是提高检索效果的基本途径之一.以面向自然语言的网络答疑为应用背景,提出了一种基于半结构化语料库的概念语义网络自动生成算法.通过分析语料的组成特点,对不同的概念关系类型,采取不同的模板进行文档抽取,并设定不同的窗口单元计算概念间的相关度;然后经过阈值筛选和角色转换,获得各种类型的概念关系,在此基础上进行语义网络的优化调整.实验结果表明,本算法获得的概念语义网络可以有效地提高问题检索的效果.  相似文献   

14.
Knowledge extraction from Chinese wiki encyclopedias   总被引:1,自引:0,他引:1  
  相似文献   

15.
双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.  相似文献   

16.
为了提高Web应用系统开发效率,提出了模型驱动下的Web应用系统自动生成方法。这种生成方法是以Me—taEdit+作为元建模工具,首先创建Web应用系统元模型、定制DSL,进而建立Web应用系统领域模型,然后通过MetaEdit+提供的生成器定义语言MERL,软件开发人员可以很方便地设计出Web应用系统所需的JSP生成器、Servlet生成器、Jayabeans生成器和数据库生成器,从Web应用系统图形模型直接生成整个Web应用系统。最后通过一个WebShopping实例详细介绍了模型驱动下的Web应用系统生成方法及生成过程。经测试,所生成的Web应用系统可以在Windows操作系统中的Web应用服务器上正确运行。  相似文献   

17.
有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。  相似文献   

18.
一种Web服务组合的可信评估方法   总被引:1,自引:1,他引:0  
唐佳俊  黄志球  王进 《计算机科学》2013,40(2):163-166,171
软件可信性日益成为软件工程研究中的热点问题,作为软件资源主要形态的Web服务的可信性也受到了越 来越多的关注。目前对于Web服务可信性的研究主要集中在单一服务QoS属性的可信评价,而针对服务组合的可信 性研究较少。提出了一种通用的原子服务可信评佑模型,并结合原子服务在服务组合执行时的权重,给出了一种基于 结构分析的服务组合可信性的评估方法。最后,结合网络购物实例描述了服务组合可信性评估方法的实验过程。  相似文献   

19.
目前互联网Web2.0的广泛应用和Wiki系统的发展已经成为人们广泛关注的焦点。介绍了新一代互联网Web2.0的特征和应用。概要地介绍了Wiki的来源、发展历史以及具体应用系统。详细研究了Wiki语言的实现机制和Wiki系统的实现机制及其功能,包括Wiki页面编辑、版本比较、知识分类、系统管理等。给出了具体应用实例。  相似文献   

20.
The last decade bears witness to an exponential growth in the use of the World Wide Web. As a result, a huge number of documents are accessible online through search engines, whose pattern‐matching capabilities have turned out to be useful for mining the Web space as a particular kind of linguistic corpus, commonly known as the Web Corpus. This article presents a novel, argumentative approach to providing proactive assistance for language usage assessment on the basis of usage indices, which are good indicators of the suitability of an expression on the basis of the Web Corpus. The user preferences consist of a number of (possibly defeasible) rules and facts that encode different aspects of adequate language usage, defining the acceptability of different terms on the basis of the computed usage indices. A defeasible argumentation system determines if a given expression is ultimately acceptable by analyzing a defeasible logic program that encodes the user's preferences. © 2006 Wiley Periodicals, Inc. Int J Int Syst 21: 1151–1180, 2006.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号