首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果  相似文献   

2.
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。  相似文献   

3.
对裁判文书中判决结果的倾向性分析是完成律师推荐系统的前提,如何高效的实现判决结果倾向性分析是本文的重点.本文提出了基于注意力机制和BiGRU的判决结果倾向性分析模型.首先,训练词向量,得到词向量表;然后,通过查找词向量表,将文书数据转化为词向量序列,将词向量序列作为输入来训练判决结果倾向性分析模型.实验结果表明:注意力机制和BiGRU算法在判决结果倾向性分析中具有一定的有效性.该模型能够对裁判文书中判决结果的倾向性做一个合理的判断,为后期律师推荐系统的实现提供一个合理的评分依据.  相似文献   

4.
词向量是词的一种特征表示,是很多自然语言处理任务的基础步骤.本文介绍了一种用深度学习训练词向量的方法,训练好的词向量具有维度低、保留语义相似性的特征.对某个特定语料库训练词向量,用统计语言模型进行中文分词,去掉停用词之后,构造词库;利用CBOW模型在词库上面训练得到词向量.论文学习并且实现了一种分布式词向量表示,主要工...  相似文献   

5.
针对Word2vec等静态词向量模型对于每个词只有唯一的词向量表示,无法学习在不同上下文中的词汇多义性问题,提出一种基于动态词向量和注意力机制的文本情感分类方法.在大型语料库上利用深度双向语言模型预训练通用词向量;在情感分类任务的训练语料上对向量模型进行微调,得到最终的上下文相关的动态词向量作为输入特征;搭建双向长短期记忆网络模型,并引入注意力机制以提高特征提取的准确性.实验结果表明,该方法在IMDB和Yelp13数据集上的分类准确率分别提高了0.017和0.011.  相似文献   

6.
词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除了利用语料中词语上下文关系外,还将本体知识作为约束条件进行词向量的训练,增强了词向量的语义表达。基于skip-gram模型,采用多任务的神经网络训练方法,在自己收集的语料上训练得到了针对领域的词向量。实验表明,基于领域知识的增强约束词向量能够更准确地表达词的语义信息。  相似文献   

7.
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loop-aware方法是对SLP方法的改进,其思想是首先通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多,再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子,构建循环向量化方法选择方案,同时提出不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法识别率提升107.5%,性能提升12.1%.  相似文献   

8.
使用词向量表示方法能够很好的捕捉词语的语法和语义信息,为了能够提高词向量语义信息表示的准确性,本文通过分析GloVe模型共现矩阵的特点,利用分布式假设,提出了一种基于GloVe词向量训练模型的改进方法.该方法主要通过对维基百科统计词频分析,总结出过滤共现矩阵中无关词和噪声词的一般规律,最后给出了词向量在词语类比数据集和词语相关性数据集的评估结果.实验表明,在相同的实验环境中,本文的方法能够有效的缩短词向量的训练时间,并且在词语语义类比实验中准确率得到提高.  相似文献   

9.
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。  相似文献   

10.
词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与其他词产生的关系中,而词语关系包含关联单位、关系类型和关系方向三个属性,因此,该文提出了一种新的基于神经网络的词向量训练模型,它具有三个顶层,分别对应关系的三个属性,更合理地利用词语关系对词向量进行训练,借助大规模未标记文本,利用依存关系和上下文关系来训练词向量。将训练得到的词向量在类比任务和蛋白质关系抽取任务上进行评价,以验证关系模型的有效性。实验表明,与skip-gram模型和CBOW模型相比,由关系模型训练得到的词向量能够更准确地表达词语的语义信息。  相似文献   

11.
当支持向量机中存在相互混叠的海量训练样本时,不但支持向量求取困难,且支持向量数目巨大,这两个问题已成为限制其应用的瓶颈问题。该文通过对支持向量几何意义的分析,首先研究了支持向量的分布特性,并提出了基于几何分析的支持向量机快速算法,该算法首先从训练样本中选择出部分近邻向量,然后在进行混叠度分析的基础上,选择真实的边界向量样本子空间用来代替全部训练集,这样既大大减少了训练样本数目,同时去除了混叠严重的奇异样本的影响,并大大减少了支持向量的数目。实验结果表明:该算法在不影响分类性能的条件下,可以加快支持向量机的训练速度和分类速度。  相似文献   

12.
支持向量机(support vector machine, SVM)具有良好的泛化性能而被广泛应用于机器学习及模式识别领域。然而,当训练集较大时,训练SVM需要极大的时间及空间开销。另一方面,SVM训练所得的判定函数取决于支持向量,使用支持向量集取代训练样本集进行学习,可以在不影响结果分类器分类精度的同时缩短训练时间。采用混合方法来削减训练数据集,实现潜在支持向量的选择,从而降低SVM训练所需的时间及空间复杂度。实验结果表明,该算法在极大提高SVM训练速度的同时,基本维持了原始分类器的泛化性能。  相似文献   

13.
基于向量投影的支撑向量预选取   总被引:21,自引:0,他引:21  
支撑向量机是近年来新兴的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出了突出的优点.但在支撑向量机中,支撑向量的选取相当困难,这也成为限制其应用的瓶颈问题.该文对支撑向量机的机理经过认真分析,研究其支撑向量的分布特性,在不影响分类性能的前提下,提出了基于向量投影的支撑向量预选取法,从训练样本中预先选择具有一定特征的边界向量来代替训练样本进行训练,这样就减少了训练样本,大大加快了支撑向量机的训练速度。  相似文献   

14.
近似支持向量机((PSVM)是一个正则化最小二乘问题,有解析解,但是它失去了支持向量机(SVM)的稀疏 性,使得所有的训练样例都成为支持向量。为了有效地控制近似支持向量机的稀疏性,提出了增量密度加权近似支持 向量机(mWPSVM),它在训练集中选取最基本的支持向量。实验表明,IvWPSVM方法与SVM, PSVM和DWPS- VM方法相比,其精度相似,收敛速度快,可有效地控制近似支持向量机的稀疏性。  相似文献   

15.
王晶  卫金茂 《计算机应用》2006,26(2):508-0509
为了改善支持向量机的泛化能力,提出了一种改进的支持向量机——SUB SVM,它把对所有训练数据训练得到的主支持向量再次训练,用得到的次支持向量构造SVM非线性分类器,将该算法应用在癌症诊断中,取得了比传统SVM分类器更高的识别率。  相似文献   

16.
Recently, researchers are focusing more on the study of support vector machine (SVM) due to its useful applications in a number of areas, such as pattern recognition, multimedia, image processing and bioinformatics. One of the main research issues is how to improve the efficiency of the original SVM model, while preventing any deterioration of the classification performance of the model. In this paper, we propose a modified SVM based on the properties of support vectors and a pruning strategy to preserve support vectors, while eliminating redundant training vectors at the same time. The experiments on real images show that (1) our proposed approach can reduce the number of input training vectors, while preserving the support vectors, which leads to a significant reduction in the computational cost while attaining similar levels of accuracy. (2)The approach also works well when applied to image segmentation.  相似文献   

17.
基于类边界壳向量的快速SVM增量学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为进一步提高SVM增量训练的速度,在有效保留含有重要分类信息的历史样本的基础上,对当前增量训练样本集进行了约简,提出了一种基于类边界壳向量的快速SVM增量学习算法,定义了类边界壳向量。算法中增量训练样本集由壳向量集和新增样本集构成,在每一次增量训练过程中,首先从几何角度出发求出当前训练样本集的壳向量,然后利用中心距离比值法选择出类边界壳向量后进行增量SVM训练。分别使用人工数据集和UCI标准数据库中的数据进行了实验,结果表明了方法的有效性。  相似文献   

18.
马成龙  颜永红 《自动化学报》2016,42(11):1711-1717
在短文本分类中,面对特征稀疏的短文本,如何充分利用文本中的每一个词语成为关键.本文提出概率语义分布模型的思想,首先通过查询词矢量词典,将文本转换为词矢量数据;其次,在概率语义分布模型的假设下利用混合高斯模型对无标注的文本数据进行通用背景语义模型训练;利用训练数据对通用模型进行自适应得到各个领域的目标领域语义分布模型;最后,在测试过程中,计算短文本属于领域模型的概率,得到最终的分类结果.实验结果表明,本文提出的方法能够从一定程度上利用短文本所提供的信息,有效降低了对训练数据的依赖性,相比于支持向量机(Support vector machine,SVM)和最大熵分类方法性能相对提高了17.7%.  相似文献   

19.
针对传统的半监督SVM训练方法把大量时间花费在非支持向量优化上的问题,提出了在凹半监督支持向量机方法中采用遗传FCM(Genetic Fuzzy C Mean,遗传模糊C均值)进行工作集样本预选取的方法。半监督SVM优化学习过程中,在原来训练集上(标签数据)加入了工作集(无标签数据),从而构成了新的训练集。该方法首先利用遗传FCM算法将未知数据划分成某个数量的子集,然后用凹半监督SVM对新数据进行训练得到决策边界与支持矢量,最后对无标识数据进行分类。这样通过减小工作样本集,选择那些可能成为支持向量的边界向量来加入训练集,减少参与训练的样本总数,从而减小了内存开销。并且以随机三维数据为例进行分析,实验结果表明,工作集减小至原工作集的一定范围内,按比例减少工作集后的分类准确率、支持向量数与用原工作集相比差别不大,而分类时间却大为减少,获得了较为理想的样本预选取效果。  相似文献   

20.
This paper presents a four-step training method for increasing the efficiency of support vector machine (SVM). First, a SVM is initially trained by all the training samples, thereby producing a number of support vectors. Second, the support vectors, which make the hypersurface highly convoluted, are excluded from the training set. Third, the SVM is re-trained only by the remaining samples in the training set. Finally, the complexity of the trained SVM is further reduced by approximating the separation hypersurface with a subset of the support vectors. Compared to the initially trained SVM by all samples, the efficiency of the finally-trained SVM is highly improved, without system degradation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号