期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汉语比较句识别研究 总被引：2，自引：0，他引：2

黄小江万小军杨建武肖建国《中文信息学报》2008,22(5):30-38

比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为“比较”和“非比较”两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。相似文献

2.

基于关联特征词表的中文比较句识别

杜文韬刘培玉费绍栋张朕《计算机应用》2013,33(6):1591-1594

中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。相似文献

3.

基于语义分类的比较句识别与比较要素抽取研究

周红照侯明午侯敏滕永林《中文信息学报》2014,28(3):136-141

比较是人们常用的评估不同事物优劣、异同的表达方式,利用机器识别比较句并进一步抽取比较要素是语言信息处理领域一项新颖又有实用价值的课题。该文依据比较句与比较要素之间是一种“你中有我,我中有你”的共生关系,将比较句识别与比较要素抽取两个任务合二为一完成;根据词意分类,构建由领域词典、情感词典、标记词典、普通词典构成的词典系统;根据汉语比较句句义分类,构建比较句识别与比较要素抽取规则库。以第四届中文倾向性评测(COAE2012)发布的测试语料为实验对象,该系统取得了较好的实验(评测)结果。相似文献

4.

维吾尔语音节语音识别与识别基元的研究 总被引：1，自引：0，他引：1

王昆仑《计算机科学》2003,30(7):182-184

1 引言现代维吾尔语(以下简称维语)是维吾尔族人民的主要交际工具,是我国新疆维吾尔自治区的法定工作用语之一,也是新疆其它少数民族共同的交际用语之一。维语属阿尔泰语系,突厥语族。维语语音有元音8个、辅音24个。由辅音和元音构成维语语音音节,每个音节必须且只能有一个元音,单元音可构成音节。维语句子由词构成。句子中有意群重音和句重音。部分音节在语流中产生语流音变现象,常见的有同化、弱化、脱落以及元音和谐等现象。相似文献

5.

现代维吾尔语简单句识别研究

李达辉琼州学院电子信息工程学院《计算机光盘软件与应用》2014,(13):211-212

本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。相似文献

6.

现代维吾尔语简单句识别研究

穆妮热?穆合塔尔艾孜尔古丽玉素甫?艾白都拉新疆师范大学《计算机光盘软件与应用》2014,(13):218-219

本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。相似文献

7.

维吾尔语语音识别语料库中的OOV研究

张小燕宿建军薛化建王磊《计算机工程与设计》2012,33(2):772-776

鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现.应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库.实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率. 相似文献

8.

中文比较句识别及比较关系抽取 总被引：1，自引：0，他引：1

宋锐林鸿飞常富洋《中文信息学报》2009,23(2):102-107

比较是一种具有一定说服力的评估方式,利用机器进行比较句的识别以及比较关系的抽取可以对观点挖掘、信息推荐等应用提供重要的依据。该文通过构建中文比较模式库以实现中文比较句的自动识别。在此基础上,该文通过选取比较主体、比较客体及其上下文的词、词性、位置、语义以及比较属性的领域知识等特征,利用条件随机域模型进行中文比较关系抽取。实验结果表明,中文比较模式库的构建有助于比较句的自动识别,而在词、词性、位置等Baseline特征中融入语义、领域知识及启发式规则特征后,基于条件随机域的比较关系抽取结果有了显著的提高。相似文献

9.

维吾尔语停用词抽取方法研究

塞麦提·麦麦提敏司马义·阿不都热依木《计算机工程》2019,45(10)

为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。相似文献

10.

端到端维吾尔语语音识别研究

丁枫林郭武孙健《小型微型计算机系统》2020,(1):19-23

近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%. 相似文献

11.

维吾尔语陈述句韵律层级停顿模型研究

努尔比娅·塔依尔艾斯卡尔·肉孜古丽娜尔·艾力地里木拉提·吐尔逊《计算机与现代化》2010,(7):180-183,187

以提高合成语音自然度为研究背景,以建立陈述句中各韵律层级时长模型为研究目的,首先制定维吾尔语韵律层级划分规则,针对已筛选的40630个典型文本句子进行各韵律层级的人工标注,利用统计方法建立各个韵律层级的时长模型。实验结果表明,本文研究思路和方法切实可行,为提高语音合成自然度打下一个坚实的基础。相似文献

12.

基于N-gram超核的中文倾向性句子识别

廖祥文李艺红《中文信息学报》2011,25(5):89-94

倾向性句子识别是文本倾向性分析的重要组成部分,其目的是识别文档中具有情感倾向的主观性句子。中文句子的倾向性不仅与倾向词有关,而且还跟句法、语义等因素有关,这使得倾向性句子识别不能简单地从词语的倾向性来统计得到。该文提出了一种基于N-gram超核的中文倾向性句子识别分类算法。该算法基于句子的句法、语义等特征构造N-gram超核函数,并采用基于该超核函数的支持向量机分类器识别中文倾向性句子。实验结果表明,与多项式核、N-gram核等单核函数相比,基于N-gram超核的中文倾向性句子识别算法在一定程度上能有效识别倾向性句子。相似文献

13.

基于产品属性的条件句倾向性分析 总被引：1，自引：1，他引：0

杨源林鸿飞《中文信息学报》2011,25(3):86-93

该文主要识别产品评论中的条件句并分析其倾向性,判断评论者对产品属性持积极或是消极的态度。条件句中一般都含有条件连接词,但是有些条件句中没有条件连接词,称为隐式条件句。经过观察,发现隐式条件句中含有一些体现条件关系的词,称之为隐式条件词。识别条件句时,主要依据条件连接词和隐式条件词及其词性以及类序列规则进行分类;分析属性倾向性时,依据条件连接词和隐式条件词把条件句分为假设条件句、让步条件句、特定条件句和无条件句四类,并把条件句的类别用于SVM分类。通过实验证明了该方法有助于条件句倾向性分类。相似文献

14.

基于稳健词素序列和LSTM的维吾尔语短文本分类

沙尔旦尔·帕尔哈提米吉提·阿不里米提艾斯卡尔·艾木都拉《中文信息学报》2020,34(1):63-70

维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间。然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48%的分类准确率。从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能。相似文献

15.

一种结合GAAC和K-means的维吾尔文文本聚类算法

吐尔地·托合提艾海麦提江·阿布来提米也塞·艾尼玩艾斯卡尔·艾木都拉《计算机工程与科学》2013,35(7):149

介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响.在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和K-means的维吾尔文聚类算法.本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类.实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高. 相似文献

16.

基于语义串抽取及主题相似度度量的维吾尔文文本分类

吐尔地·托合提维尼拉·木沙江艾斯卡尔·艾木都拉《中文信息学报》2017,31(4):100-107

该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。相似文献

17.

维吾尔文网页正文抽取系统的研究与实现

蔡李单艳薛化建苏国平《计算机工程与设计》2012,33(2):551-555

从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法.该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文.整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷.实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性. 相似文献