首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
构建中医汉英双语语料库平台并介绍其主要功能。该平台以经典中医文献语料为生语料,通过语料匹配程序和智能自增词典等技术实现语料加工入库功能,运用B_树动态索引技术实现语料检索和统计分析功能并降低了检索时间。  相似文献   

2.
余一骄  刘芹 《计算机科学》2015,42(2):217-223
大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术。Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索。实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引。对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词。  相似文献   

3.
教师个人或小的教学团体在掌握电子语料库的基本理论和研究方法后,着手构建小型电子语料库往往面临软件的获取和选用、语料的分类这两个现实问题,而语料的分类思路又决定了语料的收集思路。该文就构建教学用小型语料库时要注意的以上两个问题进行了探讨。  相似文献   

4.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

5.
基于句子级的唇读语料库及其切分算法   总被引:1,自引:0,他引:1  
论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。  相似文献   

6.
作为一项重要的基础资源,双语平行语料库在人工智能领域的研究起着举足轻重的作用。我国涉及少数民族语言的双语语料库的探索工作相对较少,本文介绍了汉维双语语料库的建立过程,并对语料的收集整理和组织做了初步的设想。  相似文献   

7.
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。  相似文献   

8.
汉语语料的自动分类   总被引:19,自引:3,他引:16  
语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展, 获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的, 在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念, 并利用不同类语料相关系数不同的特点进行分类, 取得了93%的大类分类正确率。  相似文献   

9.
平行语料库中双语术语词典的自动抽取   总被引:7,自引:5,他引:2  
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果。  相似文献   

10.
信息检索是语料库提供的基本服务之一。随着语料库在汉语词汇学和词典学研究领域中的重要性不断增强,更为符合用户需求的新型语料库检索方式也日益得到重视。现有的中文语料库检索方法未充分考虑汉字编码、繁简体字和异体字等特殊性质,也未充分贴近中文语料库的用户需求。针对中文语料库检索中存在的不足,提出了一类简化的新型检索表达式,仅需一个元字符即可满足典型的检索需求,具有表达直观、易于应用和逻辑清晰的特点,随后给出了新型检索表达式到正则表达式的翻译策略和实现方法,并在中古汉语词汇研究和《汉语大词典》研究中开展了实际应用。  相似文献   

11.
12.
13.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

14.
针对国家烟草管理的现状,有关主管部门在全国推行“行业卷烟生产经营决策管理系统工程”,利用条码等自动识别技术手段实时掌握全国的生产经营信息。但某卷烟厂此前的物流环节已经是“件烟成垛”运输,如何在尽可能保持原有企业管理体系的前提下,达到有关部门的数据统计要求,解决成垛卷烟的物流和信息流的交互与统一问题成为技改的核心。该项目成功的将条码识别与射频识别有机结合起来,为烟草行业信息化提供了生动的应用案例。  相似文献   

15.
16.
17.
煤矿多功能物联网读写器的设计   总被引:1,自引:1,他引:0  
介绍了物联网的概念和结构组成,分析了物联网在煤矿中的具体应用,详细介绍了一种具有煤矿特色的多功能物联网读写器的设计与实现。该读写器应用在物联网的感知层,能够进行物体识别和各类物理信号与环境参数的传送,为煤矿应用物联网提供了一个很好的感知层解决方案。  相似文献   

18.
19.
机械臂绝对定位精度测量   总被引:2,自引:1,他引:1  
提出了用激光跟踪仪标定机械臂的D-H参数、测量机械臂绝对位姿以及对机械臂的绝对定位精度进行分析的方法;用激光跟踪仪测量机械臂各个关节单独运动时得到的一系列离散点,就可确定机械臂各个关节的轴线,由此建立机械臂的D-H坐标系,并对D-H参数进行标定;然后,给出了由6D激光头位姿确定机械臂末端位姿的方法;最后,推出了由测量位姿值与命令位姿值相比较,得到机械臂绝对定位的位置和姿态偏差的方法;这些方法可以有效、迅速地完成对机械臂绝对定位精度的测量.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号