期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李增伟刘帅《计算机系统应用》2024,33(6):201-210

本研究针对目前跨度级别的方面情感三元组抽取模型忽视词性和句法知识的问题且存在三元组冲突的情况, 提出了语义和句法依赖增强的跨度级方面情感三元组抽取模型SSES-SPAN (semantic and syntactic enhanced span-based aspect sentiment triplet extraction). 首先, 在特征编码器中引入词性知识和句法依赖知识, 使模型能够更精准地区分文本中的方面词和观点词, 并且更深入地理解它们之间的关系. 具体而言, 对于词性信息, 采用了一种加权求和的方法, 将词性上下文表示与句子上下文表示融合得到语义增强表示, 以帮助模型准确提取方面词和观点词. 对于句法依赖信息, 采用注意力机制引导的图卷积网络捕捉句法依赖特征得到句法依赖增强表示, 以处理方面词和观点词之间的复杂关系. 此外, 鉴于跨度级别的输入缺乏互斥性的保证, 采用推理策略以消除冲突三元组. 在基准数据集上进行的大量实验表明, 我们提出的模型在效果和鲁棒性方面超过了最先进的方法. 相似文献

2.

汉语统计语言模型的N值分析 总被引：10，自引：0，他引：10

张树武黄泰翼《中文信息学报》1998,12(1):36-42

N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。相似文献

3.

基于中心/修饰依存重排序模型的短语SMT

刘水李生赵铁军刘鹏远《软件学报》2012,23(5):1120-1131

为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合.该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量.在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息.实验结果显示,该模型可以明显地改善机器翻译系统的局部调序. 相似文献

4.

基于N元语言模型的文本分类方法 总被引：6，自引：0，他引：6

周新栋王挺《计算机应用》2005,25(1):11-13

分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。相似文献

5.

融合语言特性的越南语兼类词消歧

郭剑毅赵晨刘艳超毛存礼余正涛《数据采集与处理》2019,34(4):577-584

兼类词歧义直接影响词性标注的准确率。本文针对越南语兼类词歧义问题提出一种融合语言特性的越南语兼类词消歧方法。通过构建越南语兼类词词典和兼类词语料库,分析越南语的语言特征和兼类词特点,选取有效的特征集;然后利用条件随机场能添加任意特征等优点,在使用词和词性上下文信息的同时,引入句法成分和指示词特征,得到消歧模型。最后在兼类词语料上实验,准确率达到了87.23%。实验表明本文所提出的越南语兼类词消歧方法有效可行,可以提高词性标注正确率。相似文献

6.

基于N元模型的维吾尔语词性标注实验研究

尼加提·纳吉米买合木提·买买提吐尔根·依布拉音《计算机工程与应用》2012,48(25):137-140,173

词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。相似文献

7.

词性分类优先在搜索引擎中的应用

张景春管士学马媛《计算机光盘软件与应用》2011,(4)

该论文首先介绍了搜索引擎的三种基本排序算法,然后介绍了中文词性标注的原理和算法,本文重点是将词性标注原理引入到了搜索引擎的应用中,从输入的索引词着手,提出了运用词性分类优先的方法来影响索引文档的排序,即不同词性给予不同的优先级,根据优先级大小依次筛选文档,进而提高索引精度.该方法是在牺牲有效性的基础上提高索引可靠性的. 相似文献

8.

文档检索中句法信息的有效利用研究 总被引：1，自引：0，他引：1

丁凡王斌白硕刘宜轩李亚楠《中文信息学报》2008,22(4):66-74

利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。相似文献

9.

基于中心/修饰依存重排序模型的短语SMT ?

刘水李生赵铁军刘鹏远《软件学报》2013,(5)

为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中。该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合。该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量。在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息。实验结果显示,该模型可以明显地改善机器翻译系统的局部调序。相似文献

10.

基于循环神经网络语言模型的N-best重打分算法

张剑屈丹李真《数据采集与处理》2016,31(2):347-354

循环神经网络语言模型能够克服统计语言模型中存在的数据稀疏问题,同时具有更强的长距离约束能力,是一种重要的语言模型建模方法。但在语音解码时,由于该模型使词图的扩展次数过多,造成搜索空间过大而难以使用。本文提出了一种基于循环神经网络语言模型的N-best重打分算法,利用N-best引入循环神经网络语言模型概率得分,对识别结果进行重排序,并引入缓存模型对解码过程进行优化,得到最优的识别结果。实验结果表明,本文方法能够有效降低语音识别系统的词错误率。相似文献

11.

基于变换的汉语句法功能标注探讨 总被引：4，自引：1，他引：4

周明潘海华《中文信息学报》1997,11(4):2-11

本文尝试利用基于变换的方法标注中文句子词汇的句法功能。系统输入已分词并标注了词性的句子, 输出每个词的依存关系。我们首先设计了一个由44种依存关系组成的汉语依存体系, 然后以人-机互助的方式标注了1300句中文句子。其中1100句作为训练文本用来获取标注规则, 余下200句用做测试。设计了17类变换模板, 采用基于变换的算法获取了60条有序的依存关系标注规则。在测试时, 对新词标注以该词词性所对应的最高频的依存关系作为初始标注以提高鲁棒性。实验表明这种方法简单可行, 取得了初步满意的效果。相似文献

12.

基于规则和统计的日语分词和词性标注的研究

姜尚仆陈群秀《中文信息学报》2010,24(1):117-123

日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了基于规则的词语的邻接属性作为特征。在小规模测试集上的实验结果表明,这种方法分词的F值达到了98.2%,分词加词性标注的F值达到了94.8%。该文所采用的方法已经成功应用到日汉机器翻译系统中。相似文献

13.

非结构化中文自然语言地址描述的自动识别

赵卫锋张勤《计算机工程与应用》2016,52(23):19-24

互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。相似文献

14.

基于句法和语义的需求依赖关系自动获取

关慧吕颖贾成真《计算机技术与发展》2021,(2)

为了研究复杂系统中需求之间的依赖关系,针对需求文本固有的特点以及可能存在的上下文关系,结合各个词之间的词义以及特定语境下的语义知识,提出了一种基于句法和语义的需求依赖关系自动获取方法。在以自然语言描述的需求文本上,首先,通过对每条需求提取关键词,并结合领域知识对其添加领域词汇,对每个关键词进行词性标注并封装成集合来形式化需求;其次,通过对不同需求的关键词做语义分析,定义关联需求的语义词库表,将关系词库和集合中的词性特征结合来判断两个需求之间的依赖关系,并给出抽取关系的方法,基于该方法设计并实现了一个系统,通过自动分析各个词之间的语义依存关系得出需求之间的依赖关系。最后,通过实例证明了该方法的可行性和有效性。相似文献

15.

Advanced feature extraction for keyblock-based image retrieval 总被引：1，自引：0，他引：1

Lei Zhu Aibing Rao Aidong Zhang 《Information Systems》2002,27(8):290-557

Keyblock, which is a new framework we proposed for content-based image retrieval, is a generalization of the text-based information retrieval technology in the image domain. In this framework, keyblocks, which are analogous to keywords in text document retrieval, can be constructed by exploiting the vector quantization method which has been used for image compression. Then an image can be represented as a code matrix in which the elements are the indices of the keyblocks in a codebook. Based on this image representation, information retrieval and database analysis techniques developed in the text domain can be generalized to image retrieval. In this paper, we present new models named n-block models which are the generalization of the n-gram models in language modeling to extract comprehensive image features. The effort to capture context in a text document motivated the n-gram models. Similarly, the attempt to capture the content in an image motivates us to consider the correlations of keyblocks within an image. By comparing the performance of our approach with conventional techniques using color feature and wavelet texture feature, the experimental results demonstrate the effectiveness of these n-block models. 相似文献

16.

Ranking and Reranking with Perceptron

Libin Shen Aravind K. Joshi 《Machine Learning》2005,60(1-3):73-96

This work is inspired by the so-called reranking tasks in natural language processing. In this paper, we first study the ranking, reranking, and ordinal regression algorithms proposed recently in the context of ranks and margins. Then we propose a general framework for ranking and reranking, and introduce a series of variants of the perceptron algorithm for ranking and reranking in the new framework. Compared to the approach of using pairwise objects as training samples, the new algorithms reduces the data complexity and training time. We apply the new perceptron algorithms to the parse reranking and machine translation reranking tasks, and study the performance of reranking by employing various definitions of the margins.Editors: Dan Roth and Pascale Fung 相似文献

17.

基于二元与三元模型相结合的句法规则层次化分析算法

张海玲邵玉斌贾继康龙华杜庆治《计算机工程与科学》2021,43(7):1316-1323

句法分析是自然语言处理领域中应用前景非常广阔的一个研究方向。针对目前句法分析多数是从字、词的角度出发且存在诸多不足,提出了二、三元词模型相结合的句法规则层次化分析算法,并结合分词、词性标注以及句子组织信息之间的结合度来解决词元间优先合成的问题,同时利用句子成分之间的语法结构关系对词性、词序的影响,实现句法规则的层次化分析实验。实验结果表明,二元与三元词模型相结合的句法规则层次化分析算法相比于独立二、三元词模型,准确率和召回率分别提高了82.04%和8083%,与现有基于二分结构句法分析的RNN-INT算法和词汇化模型算法相比,准确率和召回率均有明显提升。相似文献

18.

基于多颗粒度文本表征的中文命名实体识别方法

田雨张桂平蔡东风陈华威宋彦《中文信息学报》2022,36(4):90-99

中文命名实体识别常使用字符嵌入作为神经网络模型的输入,但是中文没有明确的词语边界,字符嵌入的方法会导致部分语义信息的丢失。针对此问题,该文提出了一种基于多颗粒度文本表征的中文命名实体识别模型。首先,在模型输入端结合了字词表征,然后借助N-gram编码器挖掘N-gram中潜在的成词信息,有效地联合了三种不同颗粒度的文本表征,丰富了序列的上下文表示。该文在Weibo、Resume和OntoNotes4数据集上进行了实验,实验结果的F₁值分别达到了72.41%、96.52%、82.83%。与基准模型相比,该文提出的模型具有更好的性能。相似文献

19.

Prominence Detection Using Auditory Attention Cues and Task-Dependent High Level Information

《IEEE transactions on audio, speech, and language processing》2009,17(5):1009-1024

Auditory attention is a complex mechanism that involves the processing of low-level acoustic cues together with higher level cognitive cues. In this paper, a novel method is proposed that combines biologically inspired auditory attention cues with higher level lexical and syntactic information to model task-dependent influences on a given spoken language processing task. A set of low-level multiscale features (intensity, frequency contrast, temporal contrast, orientation, and pitch) is extracted in parallel from the auditory spectrum of the sound based on the processing stages in the central auditory system to create feature maps that are converted to auditory gist features that capture the essence of a sound scene. The auditory attention model biases the gist features in a task-dependent way to maximize target detection in a given scene. Furthermore, the top-down task-dependent influence of lexical and syntactic information is incorporated into the model using a probabilistic approach. The lexical information is incorporated by using a probabilistic language model, and the syntactic knowledge is modeled using part-of-speech (POS) tags. The combined model is tested on automatically detecting prominent syllables in speech using the BU Radio News Corpus. The model achieves 88.33% prominence detection accuracy at the syllable level and 85.71% accuracy at the word level. These results compare well with reported human performance on this task. 相似文献