排序方式: 共有15条查询结果,搜索用时 16 毫秒
1.
中文网络聊天语言的奇异性与动态性研究 总被引:1,自引:0,他引:1
随着互联网走入社会生活,网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的日益丰富,给语言信息处理带来了新的挑战。研究发现,困难主要来自网络聊天语言的奇异性和动态性。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源–信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源–信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。 相似文献
2.
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。 相似文献
3.
IHSMTS采用了多策略的翻译方式,融合了RBMT,EBMT和机助人译等思想,提高了自动构造文的质量,并实现了良好的经验记忆和知识自动获取,同时,采用智能人的机交互技术,构建了一个机组翻译平台,文章介绍了IHSMTS的翻译处理原理和系统关键技术的实现方法。 相似文献
4.
5.
IHSMT中的实例优化策略 总被引:1,自引:0,他引:1
在基于实例的机器翻译方法中,通常采用双语句子实例的形式,但由于自然语言表达的无限多样性,使得这种存储粒度过大的句子级翻译实例的利用率较低;而在基于规则的机器翻译方法中,规则和词典具有一定的抽象性,其重复利用率高,但其中存在大量的歧义,提出了一种IHSMT中的实例自动优化算法,该算法引入了实例粒度的概念,根据规则和实例使用率,将粒度大的实例分解为较小的单元,并建立相应的词典,以提高实例的使用频率和检索效率,同时在翻译过程中,根据用户修改的统计和上下文信息,对粒度小并且有歧义的实例进行合并,以提高翻译质量和推理效率,从而使实例粒度更加合理,存储结构更优化,系统的效率更高。 相似文献
6.
7.
8.
在众多的面向对象编程语言中,MicrosoftVisualC++4.0以其卓越的面向对象性能和丰富的面向对象编程工具,以不可阻挡的趋势走在软件开发领域的前列。本文在实践的基础上,对VisualC++4.0的面向对象性能作了浅显的分析,并将这一性能的应用加以介绍。 相似文献
9.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 相似文献
10.