首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向量训练模型KWSE,用于获取包含语义及分写倾向性信息的字符向量。其次,将朝鲜语分写增强字符向量与LSTM-CRF模型结合,完成朝鲜语自动分写任务。实验结果表明该方法的单词级分写F1值为92.86%,优于其他方法。  相似文献   

2.
在使用计算机处理中文信息时,对词语的自动化发现技术有迫切的需求.因为在互联网时代,词语集合的更新换代非常之快,词语以非常快的节奏产生和消亡,这直接影响着对中文信息自动化处理的准确度和可靠性.为了解决这个难题,本文提出一种基于词激活力模型的中文词语发现方法.该方法将海量汉语语料建模成为有序的汉字序列,建立词激活力模型,分析字与字之间的联系程度,从而对任意两个汉字是否构成词语进行估计.在大规模语料集上的数据实验表明,该方法能够有效地对预料中的潜在词语进行自动化发现,达到了预期目标.  相似文献   

3.
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。  相似文献   

4.
基于语义相似度计算的词汇语义自动分类系统   总被引:2,自引:0,他引:2  
词汇语义分类在文本聚类、信息检索、机器翻译等多个研究领域中拥有重要的理论及实践意义.介绍的知网语义相似度计算的词汇语义自动分类系统通过设计双向索引结构.高效的组织和挖掘了知网已有数据资源,并利用成熟的知网词语相似度计算方法,为词汇语义自动分类提供了不同于统计方法的新思路.目前系统的研究已取得实质性成果.在知网义原1564个分类的基础上,对知网提供的6万余条汉语常用词进行初步语义分类,进而开发了二次分类模块,针对初步分类结果进一步细化为适合实际需要的子类.实验结果证明该系统在分类性能上明显优于基于统计方法的分类系统,所作分类更加细腻、平滑.  相似文献   

5.
复杂场景中的目标定位是目标检测和识别的重要过程,为了更好地对复杂场景中的目标进行定位,基于视觉的概率模型,提出了一种目标定位的新方法。区别于一般的区域分割和边缘检测方法,该方法首先通过建立平滑、纹理、阴影和杂乱等4种不同类型区域特性的概率模型,对场景中的前景和背景进行了概率分析;然后结合不同的尺度大小,标记出图像中显著度较高的目标区域;最后经过边缘轮廓的概率建模和连通性分析来提取完整目标区域。实验结果表明,该方法具有较好的鲁棒性和通用性,不仅符合人的视觉注意特性,而且具有一定的抗背景干扰能力。  相似文献   

6.
基于维基百科的自动词义消歧方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对传统词义消歧仅基于上下文语境而导致准确率低的问题,提出一种多策略的无监督自动词义消歧方法。利用从维基百科在线中提炼出的丰富语义知识,线性融合上下文语境、背景知识和语义信息3大特征,根据逻辑回归算法学习各特征的权重,选取最大融合值所对应的候选项作为最优词义。在SENSEVAL数据集上取得了85.50%的平均准确率,验证了该方法的有效性。  相似文献   

7.
为了实现高效公正的组卷和判卷,Office操作题自动测评系统应运而生。结合实际开发的Office操作题测评系统,以Word操作题测评为例,探讨自动测评的关键技术原理.并着重研究Word对象模型在测评技术中的具体应用。  相似文献   

8.
殷昊  徐健  李寿山  周国栋 《计算机科学》2018,45(Z11):105-112
文本情绪识别是自然语言处理问题中的一项基本任务。该任务旨在通过分析文本判断该文本是否含有情绪。针对该任务,提出了一种基于字词融合特征的微博情绪识别方法。相对于传统方法,所提方法能够充分考虑微博语言的特点,充分利用字词融合特征提升识别性能。具体而言,首先将微博文本分别用字特征和词特征表示;然后利用LSTM模型(或双向LSTM模型)分别从字特征和词特征表示的微博文本中提取隐层特征;最后融合两组隐层特征,得到字词融合特征,从而进行情绪识别。实验结果表明,该方法能够获得更好的情绪识别性能。  相似文献   

9.
This paper proposes new parallel versions of some estimation of distribution algorithms (EDAs). Focus is on maintenance of the behavior of sequential EDAs that use probabilistic graphical models (Bayesian networks and Gaussian networks), implementing a master–slave workload distribution for the most computationally intensive phases: learning the probability distribution and, in one algorithm, “sampling and evaluation of individuals.” In discrete domains, we explain the parallelization of$ EBNA_ BIC$and$ EBNA_ PC$algorithms, while in continuous domains, the selected algorithms are$ EGNA_ BIC$and$ EGNA_ EE$. Implementation has been done using two APIs: message passing interface and POSIX threads. The parallel programs can run efficiently on a range of target parallel computers. Experiments to evaluate the programs in terms of speed up and efficiency have been carried out on a cluster of multiprocessors. Compared with the sequential versions, they show reasonable gains in terms of speed.  相似文献   

10.
压缩域说话人识别算法(Compressed-domain automatic speaker recognition,CD-ASR)即从压缩语音数据中直接提取压缩参数进行说话人识别,无需参数译码和波形合成.本文提出了基于概率统计直方图的VoIP压缩域说话人识别算法,包括矢量量化统计直方图和高斯混合模型统计直方图两种方法.在给出了G.729,G.723.1(6.3 kb/s),G.723.1(5.3 kb/s)压缩码流的压缩域特征提取方案后,分别以矢量量化统计直方图和高斯混合模型统计直方图作为识别模型进行说话人识别.实验结果表明,概率统计直方图法比在压缩码漉中提取同样识别参数的GMM模型,识别率有很大提高.  相似文献   

11.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

12.
张燕  唐振民  李燕萍 《计算机工程》2009,35(10):188-189
证实普通话可以分解为辅音音素和单元音音素通过过度音的连接,提出一种单字音特征提取方法。该方法在传统的帧特征提取基础上,对相关帧进行二次处理,得到单字语音中的多个代表帧,将代表帧进行拼接作为单字的特征矢量。这种特征提取方法能更好地表现说话人单字发音中相邻语音帧之间的连续性。仿真实验表明该方法在说话人识别系统的应用中达到较高的识别率,使识别时间进一步缩短。  相似文献   

13.
阐述了Word文档内部结构特点以及识别文档结构的技术要点,对Delphi控制Word自动阅卷技术的实现技巧给予了详细介绍,并结合示例进行了分析研究.  相似文献   

14.
目前越来越多的课程采用在线考试系统完成考试,题库是考试系统的核心内容。利用OLE 技术编写程序,实 现将Word 文档的题目自动转换成Excel。详细地介绍了自动转换的方法和步骤,并给出了部分实现代码。  相似文献   

15.
提出一种利用均值漂移算法做预处理,将概率图谱与图割算法相结合的肝脏自动分割方法。该方法一方面有效利用概率图谱所代表的形状信息,并且以无参形状建模;另一方面,均值漂移算法对灰度和形状信息组成的综合信息进行过分割处理,利用过分割的区域代替单个像素参与图割算法,降低了优化算法的复杂度。实验结果表明,该方法有效结合了概率图谱和均值漂移算法的优点,提高了图割算法的精度和速度。  相似文献   

16.
《计算机工程》2017,(12):184-191
词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度。实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好。  相似文献   

17.
基于最大匹配的中文分词概率算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。  相似文献   

18.
19.
针对基于数据驱动的人脸画像合成算法像素特征缺乏对光照变化和复杂背景的鲁棒性,常合成低质量的画像的问题,文中提出基于深度概率图模型的鲁棒人脸画像合成算法.采用预处理方法调整测试照片的光照亮度和人脸姿态,使之与训练照片一致.采用深度特征代替像素特征进行近邻匹配,采用深度概率图模型对画像重建权重和深度特征权重联合建模,得到合成画像的最佳重构表示.为了提高画像合成速度,提出快速近邻搜索方法.实验验证文中算法的鲁棒性和快速性.  相似文献   

20.
问答社区中候选答案过多会增加提问用户选择最佳答案的负担。为此,提出一种基于概率潜在语义分析(PLSA)模型的自动答案选择方法。在主题建模思想的基础上,利用问答社区中的用户资料,以PLSA模型表达问答社区中的用户兴趣分布,依据答案和问题之间的主题匹配度对候选答案进行排序。实验结果表明,该方法可有效挖掘用户兴趣,提高答案选择的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号