首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
双语词典抽取作为机器翻译的基础是自然语言处理领域的重要任务.由于不需要任何监督信息,无监督双语词典抽取方法逐渐成为研究热点.无监督方法依赖于不同语言词向量之间的同构性,但是目前却少有提升词向量同构性的方法.本文提出了一种基于混合语料的同构性增强方法来提升不同语言词向量之间同构性,进而提升双语词典性能.该方法在中英维基百科上的抽取词典的性能有明显的提升.  相似文献   

2.
栗雨晴  礼欣  韩煦  宋丹丹  廖乐健 《电子学报》2016,44(9):2068-2073
现有微博文本情感分析方法多面向单一语种语料,如:中文语料.但是,中英文搭配使用的表达习惯已逐渐成为个体意见表达的重要形式.本文提出一种基于双语词典的多类情感分析方法,通过构建双语多类情感词典对微博文本进行多分类语义倾向性分析,以便更准确有效捕捉群体意见,及时发现社会舆论倾向.通过与多数投票算法、支持向量机算法、基于余弦距离的K近邻分类算法相比,本文提出的基于双语词典的多类情感分析模型具有良好的分类效果,其在分类准确率、F1值等方面都有明显提高.  相似文献   

3.
《现代电子技术》2016,(15):108-111
针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题,提出基于平行语料库的双语术语抽取方法,同时,分析此方法的不足,结合多种方法进行改善。在此基础上开发了一个双语术语抽取系统,并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响,而且该系统已经作为商品化软件投入实际应用。  相似文献   

4.
基于词典和句长及位置的双语对齐方法的改进   总被引:1,自引:1,他引:0  
基于词典和句子的长度和位置信息的双语句子对齐方法在解决真实双语文本对齐问题时具有一定的普适性。在分析该方法的基础上,提出了在解决某一指定领域内的维汉互译文本时,对基于长度和位置信息的双语句子对齐方法的改进,在此方法引入维语与汉语句子长度比的期望值,能够使数据更平滑,更有效地解决了维汉互译文本句子对齐的问题。  相似文献   

5.
苏江文 《电子设计工程》2022,30(2):106-109,114
为更好判定远程监督语句中的实体语义关系,实现对语言处理信息的准确提取,提出基于深度学习的远程监督关系抽取方法.借助远程监督方法,获取关系三元组中已存储的信息参量,再通过待学习数据标注的方式,完成远程监督关系的抽取数据集构建.在此基础上,设计监督执行框架,利用已定义的句子级别特征条件,实现对待抽取标签的学习处理,完成基于...  相似文献   

6.
本文针对中医医案的内容和结构特征,从段落、记录单元以及详细信息3个层面分步实现了医案文本的信息抽取,建立了层次化信息抽取模型,以供参考.  相似文献   

7.
基于无监督聚类的入侵检测方法   总被引:32,自引:0,他引:32       下载免费PDF全文
罗敏  王丽娜  张焕国 《电子学报》2003,31(11):1713-1716
研究了基于无监督聚类的入侵检测算法.算法的基本思想是首先通过比较无类标训练集样本间的距离来生成聚类,并根据正常类比例N来确定异常数据类别,然后再用于真实数据的检测.该方法的优点在于不需要用人工的或其他的方法来对训练集进行分类.实验采用了KDD99的测试数据,结果表明,该方法能够比较有效的检测真实网络数据中的未知入侵行为.  相似文献   

8.
神经机器翻译模型主要是在监督环境下学习模型参数,即编码器将源语言编码为连续的向量表示,解码器从这组连续向量表示中解码出目标语言.对于稀缺资源的语言来说,监督学习方法表现得并不理想.虽然迁移学习方法能够缓解上述问题,但是模型泛化能力较弱,得不到期望的译文.本文受迁移学习启发,提出一种无监督的元学习策略来构建翻译模型,将利...  相似文献   

9.
在无线网络的实际运营中,性能异常检测主要依靠人工规则和阈值,对网络容量和覆盖等进行判断,检测手段单一,难以适应复杂多变的无线网络变化趋势。针对该问题,就无线移动网络性能异常的诊断识别问题,给出了三类通用的检测方法,分别为基于统计特征的异常检测、基于密度的异常检测以及基于聚类的异常检测,并选取现网性能指标数据,对三种算法进行评估分析,结果表明,基于聚类的异常检测算法在对无线网络诊断识别上效果最好。  相似文献   

10.
11.
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。  相似文献   

12.
针对传统短语对齐方法依赖外部资源,且较少涉及平行句对内在特征的问题,提出了融入双语词向量的韩汉名词短语对齐方法.利用平行语料,分别训练单语词向量再进行跨语言映射得到双语词向量,并构建了基于短语构成规律的短语抽取和融入双语词向量、短语长度和词性相似度的短语对齐模型.实验结果证明,融入韩汉双语词向量,能更有效地提取短语特征从而实现短语对齐.  相似文献   

13.
最近邻搜索在大规模图像检索中变得越来越重要。在最近邻搜索中,许多哈希方法因为快速查询和低内存被提出。然而,现有方法在哈希函数构造过程中对数据稀疏结构研究的不足,本文提出了一种无监督的稀疏自编码的图像哈希方法。基于稀疏自编码的图像哈希方法将稀疏构造过程引入哈希函数的学习过程中,即通过利用稀疏自编码器的KL距离对哈希码进行稀疏约束以增强局部保持映射过程中的判别性,同时利用L2范数来哈希编码的量化误差。实验中用两个公共图像检索数据集CIFAR-10和YouTube Faces验证了本文算法相比其他无监督哈希算法的优越性。  相似文献   

14.
词语是文本中的情感表达的最小单位,而词语语义的情感倾向性分析是文本情感分类的基础.利用中文情感词构建出一个基础情感词典来判断未知情感词的情感极性.本文即是在HOWNET情感词语集的基础上,利用义原相似度算法,构建了中文基础情感词典,并提出以信息融合方法,将此词典与同济大学的褒贬词典进行整合,建立了特定情感词与特定情感标注以及相应的情感权值的映射关系,实验结果表明,该方法取得不错的分类效果.  相似文献   

15.
Aiming to solve the misclassification problems of unsupervised polarimetric Wishart classification algorithm based on Freeman decomposition, an unsupervised Polarimetric Synthetic Aperture Radar (SAR) Interferomery (PolInSAR) classification algorithm based on optimal coherence set parameters is studied and proposed. This algorithm uses the result of Freeman decomposition to divide the image into three basic categories including surface scattering, volume scattering, and double-bounce. Then, the PolInSAR optimal coherence set parameters are used to finely divide each of the three basic categories into 9 categories, and the whole image is divided into 27 categories. Because both the Freeman decomposition result and optimal coherence set parameters indicate specific scattering characteristics, the whole image is merged into 16 categories based on physical meaning. At last, the Wishart cluster is employed to obtain the final classification result. To preserve the purity of scattering characteristics, pixels with similar scattering characteristics are restricted to be classified with other pixels. The final classification results effectively resolve the misclassification problem, not only the buildings can be effectively distinguished from vegetation in urban areas, but also the road is well distinguished from grass. In this paper, the E-SAR PolInSAR data of German Aerospace Center (DLR), are used to verify the effectiveness of the algorithm.  相似文献   

16.
黄勇  王建国  黄顺吉 《信号处理》2003,19(Z1):191-194
本文提出一种基于分段的变化检测方法,该方法首先实现全局最优的图像分段,再根据位置信息产生最佳的变化检测分段图像,最后根据图像灰度和纹理信息对图像进行变化检测,利用合成孔径雷达(SAR)图像进行的实验表明了该方法的有效性.  相似文献   

17.
快速准确地确定单个样本的所属类别以及总体样本类别数是解决非监督模式识别的前提,然而它们的确定通常是非常困难的.通过研究基于遗传算法的相似性度量最优分类算法以及最优分类数确定算法,提高非监督识别的准确性,并将所研究的算法应用到飞机识别当中.实验结果表明,本算法可以进行最优分类及分类数的确定.  相似文献   

18.
Unsupervised Extreme Learning Machine (US-ELM) is a machine learning method widely used. With good performance in anti-noise and data representation, as well as fast clustering speed, US-ELM is suitable for processing noise containing nuclear magnetic resonance (NMR) image. Therefore, in this paper, a brain NMR image segmentation approach based on US-ELM is proposed. Firstly, a median filter is adopted to reduce the influence of noise; Secondly, US-ELM maps the original data into the embedded space, which makes it increasingly effective to represent the characteristic of pixel points, and then uses the k-means method to perform the image segmentation, named NS-UE; After that, spatial fuzzy C-means (spFCM) provides a better solution for handling NMR image with noise caused by the intensity inhomogeneity than k-means does. As a result, an image segmentation approach based on US-ELM and spFCM (NS-UF) is proposed, so as to improve the effect of clustering in embedded space. Finally, extensive experiments on real data demonstrated the efficiency and effectiveness of our proposed approaches with various experimental settings.  相似文献   

19.
基于FCM的无监督最优模糊聚类算法   总被引:1,自引:0,他引:1  
基于模糊c-均值算法的无监督最优模糊聚类算法集合了模糊c均值算法与无监督最优聚类算法的优点,它通过逐渐改变聚类数c,依据一些有效性衡量尺度,能无监督搜索出最优聚类数c.通过对距离测量尺度的改进,使聚类不受类形状的影响,以达到具备更高准确率的聚类效果.仿真实验结果表明,新算法不仅能准确找出聚类数,而且跟单纯的模糊c均值算法比,具有更好的聚类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号