首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法(如Textcat、LIGA、logLIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.  相似文献   

2.
独立于语种的文本分类方法   总被引:44,自引:4,他引:40  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。  相似文献   

3.
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,实验结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。  相似文献   

4.
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。  相似文献   

5.
一种基于微结构特征的多文种文本无关笔迹鉴别方法   总被引:4,自引:0,他引:4  
李昕  丁晓青  彭良瑞 《自动化学报》2009,35(9):1199-1208
与字符识别一样, 计算机自动笔迹鉴别是一个涉及到不同文种的研究课题. 本文提出了一种基于网格窗口微结构特征的文本无关的笔迹鉴别方法, 能适用于各种不同文种的笔迹. 该方法对笔迹中局部细微结构的书写变化趋势进行描述, 并采用加权距离度量方法进行笔迹相似性度量. 利用该方法实现了文本无关的多文种笔迹检索系统, 并在实际汉字、英文、藏文和维吾尔文的笔迹库上进行了测试. 实验证明, 该方法是一种高效且适用性较广、限制性较少的笔迹鉴别方法.  相似文献   

6.
聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法.  相似文献   

7.
阐述了利用图像特征实现文本图像语种识别的基本过程.该过程分为两个步骤,即文字的识别和语种的识别,文字识别的目的是区分出亚洲文字和拉丁文字,在此基础之上分别应用不同的方法实现具体语种的识别.该方法对本文所讨论的拉丁语种的识别率都在95%以上,对亚洲语种的识别率平均在96%以上.  相似文献   

8.
本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了特征选择和大量预处理过程。我们系统地研究了模型中的关键因素以及它们对分类结果的影响,并详细介绍了评价方法。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。  相似文献   

9.
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。  相似文献   

10.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法.  相似文献   

11.
一种基于向量空间模型的文本分类方法   总被引:21,自引:1,他引:21  
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。  相似文献   

12.
基于后缀树模型的文本实时分类系统的研究和实现   总被引:8,自引:1,他引:8  
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM) ,并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N) ,远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。  相似文献   

13.
网页信息抽取及其自动文本分类的实现   总被引:2,自引:1,他引:2  
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息.文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题.为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法.该方法可以提高网页正文提取及其自动文本分类的效率.实验证明,该方法是可行的.  相似文献   

14.
支持向量机(SVM)是在统计学习理论的基础上发展起来的一种新的通用学习方法。自动语种辨识是语音信号处理中新出现的分支,也是一项较难的课题。该文提出的模糊判决支持向量机(FDSVM)是对支持向量机的判决结果的合理化改进,并应用于自动语种辨识系统。利用OGI-TS电话语音库对新算法的性能进行测试,然后给出实验结果。结果表明,该算法相对于传统算法是一种更有效的方法。  相似文献   

15.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型.提出一个新的评价函数,即互信息差值.特其用于改进的贝叶斯文本分类模型"树桩网络".结果表明,在大多数数据集上该方法具有良好的分类效果.  相似文献   

16.
研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性.传统分类方法难以获得高正确率.为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法.利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类.用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率.  相似文献   

17.
自然语言生成是研究如何用计算机来生成自然语言文本的研究领域 ,经典结构是宏观规划、微观规划和表层生成的流水线结构 .分析了多语种自然语言生成系统 ACNL G中的微观规划器 ,提出了“基于语言资源预映射的句子优化器”,它不仅对句子进行优化 ,而且负责将语种无关的文章内容映射到具体语种的表达方式中 .其核心思想就是将处理过程同具体语种的语言资源相分离 ,但同时又以语言资源为导向 ,既继承了现有方法的优点 ,同时也解决了多语种条件下各语种之间细微差别的处理问题 ,使句子优化能够针对目标语种的特点进行优化操作 ,从而使优化效果有实质的提高 ,进一步发展了多语种文本生成的理论  相似文献   

18.
笔迹鉴别是一种行为特征的识别方法,笔迹容易获取并且具有唯一性,因此,基于笔迹的身份验证在安全等领域有广阔的应用前景.笔迹鉴别可分为在线、离线两种形式,鉴别方法有文本依存和文本独立两大类.文中结合维吾尔语自身的文字特点,主要针对离线的文本无关的维吾尔文笔迹鉴别中预处理和笔迹的边缘提取技术进行细致的研究.该研究为维吾尔文计算机笔迹鉴别系统的最终实现提供了关键的技术支持,推动了少数民族语言文字笔迹鉴别自动化的进程  相似文献   

19.
维吾尔语笔迹鉴别方法研究   总被引:2,自引:0,他引:2  
笔迹鉴别是通过机器分析手写笔迹风格的差异特征来判断书写人身份的一门科学与技术.就像语音、指纹、虹膜和脸谱等生物特征识别技术一样是一个典型的模式识别问题.笔迹鉴别可分为在线、离线两种.笔迹鉴别方法可以分为两大类:文本依存的方法和文本独立的方法.主要针对离线维吾尔语手写体笔迹鉴别方法展开研究,力求提取笔迹图像的全局特征,以提供更多更有效的鉴别信息,结合维吾尔语自身特点对与文本无关的笔迹鉴别中预处理和特征提取技术进行了细致的研究.  相似文献   

20.
研究纹理防伪标签自动识别问题,由于纹理防伪标签人眼鉴别比较困难、耗时较长,不能实现自动鉴别的问题,提出一种基于变换域的纹理防伪标签自动鉴别算法,用于实现纹理防伪标签的自动鉴别,可自动鉴别标签真伪.首先对纹理防伪标签图像进行DWT和DFT,在变换域中提取一个视觉特征向量,并存入数据库,最后通过特征向量之间的归一化相关系数来鉴别.如何提取一个抗几何攻击的特征向量是算法的难点.实验结果表明,改进方法可以有效抵抗几何攻击,可实现纹理防伪标签的自动鉴别.与现有的纹理防伪技术相比,改进算法可减小占据的数据库存储空间,缩小鉴别时间,有更好的灵活性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号