期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值. 相似文献

7.

网络虚拟实验室实现技术研究

杨怿菲《福建电脑》2009,25(5):16-16

针对如何共享高教实验资源的问题。提出了建立虚拟实验室的解决方案。论述了利用Java语言实现远程虚拟实验的原理和技术，以大学电学实验为例，详细讨论了基于B／S结构的网上虚拟实验室的设计和实现。相似文献

8.

构建基于Web Services的视频点播系统 总被引：2，自引：0，他引：2

刘友生曹光忠陈一平《计算机工程与设计》2006,27(9):1694-1696

在分析目前网上视频点播系统缺陷的基础上,提出了利用WebServices技术实现网上视频点播的思路,并介绍了视频点播的实现原理、实现方法和实现过程;简要分析了WebServices的工作原理,利用System,IO对象模型成功地在ASP.NET中实现了视频点播功能. 相似文献

9.

基于.NET技术的网上办公模型研究 总被引：7，自引：0，他引：7

金正淑闫文耀陈亚军王学通《计算机工程》2006,32(12):263-265,268

基于．NET技术和工作流原理，通过分析企事业单位日常办公流程，提出了工作流的两种基本模型，并讨论了其优缺点，指出了在实际系统中要综合考虑这两种模型，即混合模型；探讨了网上办公模型的具体实现方法，并实现了网上办公系统。该系统的实现为异地办公及跨企业，甚至是跨国间的合作办公提供了良好工作基础。相似文献

10.

网上辅助教学通信设计及数据库系统的实现

胡少锋赵克等《微机发展》2003,13(1):27-29

通过对网上辅助教学智能系统的分析 ,提出了系统的结构以及工作原理 ,详细介绍了其中的客户 /服务器通信模块的实现 ,给出了部分主要程序。之后 ,讨论了利用SQLSever技术的数据库构建以及与JDBC驱动层之间的接口。相似文献

11.

平行语料检索技术研究

程南昌侯敏《计算机工程与应用》2012,48(31):134-139

以中国传媒大学平行语料检索软件（CUC_ParaConc）为例论述平行语料检索技术,主要以纯文本形式的对齐语料为例进行阐述,包括平行语料的存储、读取技术以及双语、多语关键词检索技术。平行语料检索可分为“一对一”与“一对多”两种形式。在一对一平行语料检索中,以汉英平行语料为例分别论述了以汉语为对象的非拼音文字语料的检索技术,以英语为对象的拼音文字语料检索技术,对两者的异同进行了对比;在一对多平行语料检索中,重点论述了多语关键词检索技术。相似文献

12.

PSO-GP中文文本情感分类方法研究

黄熠王娟《计算机科学》2017,44(Z6):446-450

中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。相似文献

13.

网上信息搜索技术与搜索引擎 总被引：6，自引：1，他引：6

姚国祥罗伟其《计算机科学》2000,27(7):35-38

随着Internet在全球范围内的迅速兴起,面对纷繁复杂的Web空间,如何在浩翰如海的信息空间里快速找到并取得所需的信息,便成为人们所关注的主要问题。搜索引擎的出现,极大地方便了Internet用户,使快速有效地获取信息成为可能。目前网上搜索引擎各种各样,有Yahoo!、Excite、AltaVista、Lycos、Infoseek、OpenText、WebCrawler、WWW Worm等几十种。相似文献

14.

一种针对维汉的跨语言远程监督方法

杨振宇王磊马博杨雅婷董瑞艾孜麦提·艾瓦尼尔王震《计算机工程》2023,49(2):271-278

远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。相似文献

15.

DTZH1505：大规模开源中文普通话语音库

下载免费PDF全文

王东王丽媛王大亮齐红威《计算机工程与应用》2022,58(11):295-301

近年来,深度学习在语音识别领域取得了突破性进展,并推动语音识别技术广泛应用到人们的日常生活中。语音识别模型的进一步优化需要更大规模标定数据的驱动,然而,目前开源的语音数据集规模仍太小,语料多为偏向书面用语的新闻类长文本。针对人机交互、智能客服等热门语音识别应用,通过众包模式采集朗读式语音,构建并开源了迄今为止最大规模的中文普通话语音数据集DTZH1505。数据集记录了6?408位来自中国八大方言地域、33个省份的说话人的自然语音,时长达1?505?h,语料内容涵盖社交聊天、人机交互、智能客服以及车载命令等,可广泛用于语料库语言学、会话分析、语音识别、说话人识别等研究。开展一系列基准语音识别实验,实验结果表明：相较于同规模中文语音数据集aishell2,基于此数据集训练的语音识别模型效果更好。相似文献

16.

基于汉语复句的语义相关度计算及类别的标识

杨进才陈忠忠沈显君胡金柱《计算机科学》2017,44(5):280-284

语义相关度计算作为中文信息处理领域中的一项关键技术,在信息检索、语义消岐、文本分类中起着重要的作用。利用汉语复句的句法理论和关系标记搭配理论,以汉语复句语料库以及搜索引擎获取的复句为语料,提出了一种基于汉语复句的语义相关度计算方法——SRCCS。本方法不仅能够计算词语的相关度,而且能够表明相关的性质与类别。与通过短文计算相关度的方法相比,本方法选取的计算对象范围更小,因而结果更准确,计算复杂度更低。在同一测试集上与搜索引擎方法的对比分析证明了基于汉语复句的语义相关度计算方法的有效性与优越性。相似文献

17.

基于Lucene的搜索引擎技术的研究与改进

陈凤娇《电脑与微电子技术》2011,(15):18-20

介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。相似文献

18.

基于Lucene的搜索引擎技术的研究与改进

陈凤娇《现代计算机》2011,(17):18-20

介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。相似文献

19.

基于TF-IDF算法的分层搜索引擎设计

张贤亮张尤赛《计算机与数字工程》2021,49(3):456-461

随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求.据此,论文提出了一种两阶段的搜索引擎设计方案.在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第二阶段基于TF-IDF算法搜索词条语料库,得到与待查询语句最相近的词条.该引擎利用Flask框架构建... 相似文献

20.

基于语料库的字母词语自动提取研究 总被引：5，自引：1，他引：5

郑泽之张普杨建国《中文信息学报》2005,19(2):79-86

目前,很多最新的术语和专有名词,首先以字母词语的形式出现在汉语中,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词,其正确识别,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上,分析了字母词语组成情况的复杂特征和自动识别的难点,结合字母词语的各种统计特征和其独有的特点———字母串“锚点”,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单,但有效。召回率为100 % ,准确率在80 %以上。相似文献