首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。  相似文献   

2.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

3.
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。  相似文献   

4.
采用支持向量机(SVM)方法实现搜索引擎日志中"N+V+N"、"V+N+N"型短语功能类别识别。通过选取不同特征,构建多特征模板,实现对"N+V+N"、"V+N+N"型短语中名词短语、动词短语、主谓短语三种功能短语的自动识别,并且针对不同词性标注集对实验结果是否有影响进行了实验。实验结果显示,SVM在搜索引擎日志短语识别中有很高的识别率。  相似文献   

5.
为了解决唇语识别中唇部特征提取和时序关系识别存在的问题,提出了一种双向长短时记忆网络(BiLSTM)和注意力机制(Attention Mechanism)相结合的深度学习模型。首先将唇部20个关键点得到的唇部不同位置的高度和宽度作为唇部的特征,使用BiLSTM对唇部特征序列进行时序编码,然后利用注意力机制来发掘不同时刻唇部时序特征对于整体唇语识别的不同权重,最后利用Softmax进行分类。在公开的唇语识别数据集GRID和MIRACL-VC上与传统的唇语识别模型进行实验对比。在GRID数据集上准确率至少提高了13.4%,在MIRACL-VC单词数据集上准确率至少提高了15.3%,短语数据集上准确率至少提高了9.2%。同时还与其他编码模型进行了实验对比,实验结果表明该模型能有效地提高唇语识别的准确率。  相似文献   

6.
基于关联度评价的中心词扩展的英文文本语块识别   总被引:2,自引:0,他引:2  
传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决.实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律.关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块.它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果.通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94.05%,与目前的最好结果相当.  相似文献   

7.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

8.
通过对语料库中越南语名词短语的邻接词与邻接词性进行统计调查,发现越南语名词短语蕴含着丰富的边界信息,这对越南语名词短语识别具有重要价值。提出两种将越南语名词短语边界信息融入深度学习模型的方法。一是计算每个词与预训练名词短语(Noun Phrase,NP)向量的相似度得到边界相似度向量(Border Similarity Vector,BS Vector);二是计算每个词与每个预训练标签类别向量的相似度得到(Label Similarity Vector,LS Vector)。实验结果表明,在加入BS Vector后,模型的整体标注准确率提升了0.43%,在加入LS Vector后,模型的整体标注准确率提升了0.6%。该方法不仅对越南语名词短语识别任务具有提升作用,对其他语种、其他领域的识别任务也有很大的参考和借鉴意义。  相似文献   

9.
连词能够连接词语、短语、小句、句子乃至句群,连词结构短语是连词所连接对象的一种,不同的连词形成不同长度、不同关系的连词结构短语。该文根据虚词用法知识库中的连词用法,构建了连词结构短语识别规则,实现了基于规则的连词结构短语识别,并将连词用法作为特征采用条件随机场模型实现了基于统计的连词结构短语识别。实验结果表明,统计的识别效果高于规则的识别效果,连词用法能够较好地用于连词结构短语的识别中。  相似文献   

10.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号