共查询到20条相似文献,搜索用时 149 毫秒
1.
基于双语对齐口语语料的翻译词典的自动生成 总被引:2,自引:0,他引:2
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法,首先利用释义词典过渡双语文本,得到“过滤词典”,继而通过统计共现概率,计算出所有词对的相互关联值,并且生成“汉英(英汉)相互关联值表”,对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对,分别赋予信任值1,然后统计每个候选词对人信任值作为翻译词典的分级标准,得到4个不同级别的词典,其中“过滤词典+4级词典”在召回率为93.5%的情况下,正确率达到93.389%。 相似文献
2.
3.
教师个人或小的教学团体在掌握电子语料库的基本理论和研究方法后,着手构建小型电子语料库往往面临软件的获取和选用、语料的分类这两个现实问题,而语料的分类思路又决定了语料的收集思路。该文就构建教学用小型语料库时要注意的以上两个问题进行了探讨。 相似文献
4.
5.
沈伟 《计算机光盘软件与应用》2014,(8):254-255
语言是人类互动的基本手段也是人机交互的重要方式,是通信的必要手段。语音是语言存在的形式。语音和语言的研究日益受到重视,语音研究的目的是揭示言语交际的机理,获取自然语音中的各种知识和信息,并为人类的信息交流服务。因此,语音处理成为目前发展最为迅速的一个研究领域,并形成了一门新兴的交叉学,而语音数据库中语料的设计是建立数据库首要的和关键的一个环节,本文从语料的单词、词语、数字、句子、短文等几个方面做了研究。 相似文献
6.
7.
为了解决自动问答系统中对买家的提出问题自动分类,在分析买家聊天记录基础上,运用改进的朴素贝叶斯分类算法,构建了结构化的语料库。通过设计的语料标注系统可完成买家聊天记录的自动分类,测试结果表明,改进后的文本分类算法提高了对问题自动回答的准确度。 相似文献
8.
《模式识别与人工智能》2014,(7)
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 相似文献
9.
篇章分析系统性研究的开展依赖于大规模高质量的标注语料.现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求.因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式.该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析.项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标注效率和标注质量,可为大规模、协同汉语篇章语料标注打下基础. 相似文献
10.
11.
12.
属性分类是属性级情感分析中的一个重要任务。该任务旨在对文本包含的某些具体属性进行自动分类。已有的属性分类方法研究基本都是面向新闻、评论等文本类型。与已有研究不同的是,该文的研究主要面向问答文本的属性分类任务。针对问答文本的属性分类问题,该文提出了一种多维文本表示的方法。首先,该方法进行中文句子切分;其次,使用LSTM模型对每个子问题和答案学习一个隐层表示;再其次,通过融合多个隐层表示,形成多维文本表示;最后,使用卷积层处理多维文本表示,获得最终分类结果。实验结果表明该方法明显优于传统的属性分类方法。 相似文献
13.
Automatic Classification of Provisions in Legislative Texts 总被引:1,自引:1,他引:0
Legislation usually lacks a systematic organization which makes the management and the access to norms a hard problem to face.
A more analytic semantic unit of reference (provision) for legislative texts was identified. A model of provisions (provisions types and their arguments) allows to describe the semantics of rules in legislative texts. It can be used to
develop advanced semantic-based applications and services on legislation. In this paper an automatic bottom-up strategy to
qualify existing legislative texts in terms of provision types is described. 相似文献
14.
本文以实践经验为基础,对网页的源程序公共结构进行了分析,并充分考虑到中文网页的文字特点,给出了一种中文网页的分类方法与实现手段,结果表明该方法行之有效。 相似文献
15.
中文文本的关键词自动抽取和模糊分类 总被引:41,自引:3,他引:38
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离,一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。 相似文献
16.
中文文本体裁的自动分类机制 总被引:1,自引:0,他引:1
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。 相似文献
17.
18.
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 相似文献
19.
基于SVM的中文文本自动分类研究 总被引:1,自引:0,他引:1
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。 相似文献
20.
该文提出了古籍版本异文自动发现方法 首先由bigram计算得到句珠相似度,根据相似度发现最有可能的句珠配对,然后在异文句珠中不断地去掉最长“同文”并输出异文。研究个案是三传春秋经,结果表明,句珠配对全部正确,异文配对算法也能够正确发现全部符合定义的异文。 相似文献