共查询到20条相似文献,搜索用时 312 毫秒
1.
THUUyMorph (Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版http: //uy.ts.cn/下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为: 爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。 相似文献
2.
班智达藏文语料切分词典的建立与算法研究 总被引:2,自引:0,他引:2
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。 相似文献
3.
4.
5.
6.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。 相似文献
7.
8.
9.
10.
11.
目前Wiki系统处于初始发展阶段,各种应用系统具有不同的功能和特点,并没有统一的标准。为了建立标准的Wiki系统,本文将面向对象建模语言UML引入Wiki系统的设计和实现过程中,采用Rational Rose2003建立其功能需求模型、数据模型和Web模型。建模语言的标准化和Wiki系统模型,提高了Wiki系统的软件重用和开发效率,并有利于Wiki系统的标准化和多样性。 相似文献
12.
Trustworthy Web services: actions for now 总被引:3,自引:0,他引:3
Jia Zhang 《IT Professional》2005,7(1):32-36
It is possible to build in trustworthiness by creating a layer atop the current Web services framework. At present, the framework stops with WS-Security, a standard that IBM and Microsoft jointly proposed to enhance the quality of protection for Web services. The framework needs a new trustworthiness layer that defines criteria for determining that a Web service is indeed trustworthy and that measures, enhances, and guarantees trustworthiness. Web services can become untrustworthy for four reasons: unfulfilled requirements, malicious acts and code changes, erratic Internet behaviors or resource scarcity that result in unacceptable delays, and the poor interoperation of selected services. When Web services become mainstream, which could be soon, trustworthiness will become the bottleneck to their extensive adoption. A set of trustworthiness criteria and guidelines will provide an open and standard infrastructure for ensuring trustworthiness in this domain. Researchers must then set to work devising a technical strategy and roadmap, coupled with a standards-based architecture that is comprehensive yet flexible enough to meet the Web services trustworthiness needs of real business. There is serious work ahead, but the results will be far more rewarding if researchers take the first step now: Standardize on a precise and comprehensive definition of Web services trustworthiness. The rest of the tasks will follow logically from that. 相似文献
13.
一种基于结构化语料库的概念语义网络自动生成算法 总被引:4,自引:0,他引:4
概念语义网络是为了解决信息检索中的词汇不匹配的问题而提出的,是提高检索效果的基本途径之一.以面向自然语言的网络答疑为应用背景,提出了一种基于半结构化语料库的概念语义网络自动生成算法.通过分析语料的组成特点,对不同的概念关系类型,采取不同的模板进行文档抽取,并设定不同的窗口单元计算概念间的相关度;然后经过阈值筛选和角色转换,获得各种类型的概念关系,在此基础上进行语义网络的优化调整.实验结果表明,本算法获得的概念语义网络可以有效地提高问题检索的效果. 相似文献
14.
Knowledge extraction from Chinese wiki encyclopedias 总被引:1,自引:0,他引:1
Jeff Z.PAN 《浙江大学学报:C卷英文版》2012,(4):268-280
15.
16.
为了提高Web应用系统开发效率,提出了模型驱动下的Web应用系统自动生成方法。这种生成方法是以Me—taEdit+作为元建模工具,首先创建Web应用系统元模型、定制DSL,进而建立Web应用系统领域模型,然后通过MetaEdit+提供的生成器定义语言MERL,软件开发人员可以很方便地设计出Web应用系统所需的JSP生成器、Servlet生成器、Jayabeans生成器和数据库生成器,从Web应用系统图形模型直接生成整个Web应用系统。最后通过一个WebShopping实例详细介绍了模型驱动下的Web应用系统生成方法及生成过程。经测试,所生成的Web应用系统可以在Windows操作系统中的Web应用服务器上正确运行。 相似文献
17.
有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。 相似文献
18.
19.
20.
The last decade bears witness to an exponential growth in the use of the World Wide Web. As a result, a huge number of documents are accessible online through search engines, whose pattern‐matching capabilities have turned out to be useful for mining the Web space as a particular kind of linguistic corpus, commonly known as the Web Corpus. This article presents a novel, argumentative approach to providing proactive assistance for language usage assessment on the basis of usage indices, which are good indicators of the suitability of an expression on the basis of the Web Corpus. The user preferences consist of a number of (possibly defeasible) rules and facts that encode different aspects of adequate language usage, defining the acceptability of different terms on the basis of the computed usage indices. A defeasible argumentation system determines if a given expression is ultimately acceptable by analyzing a defeasible logic program that encodes the user's preferences. © 2006 Wiley Periodicals, Inc. Int J Int Syst 21: 1151–1180, 2006. 相似文献