首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 625 毫秒
1.
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1. 88%.  相似文献   

2.
提出了一种基于词向量的两层词性标注方法,使用少量人工提取的特征,大部分特征可使用词向量和第1层标注向量自动训练得到.该方法将标注集分成两类,分别作为不同层的标注集.首先,对容易标注的类别进行标注;然后,对难以标注的动词或者名词进行第2层标注,将其标注为具体的某类动词或名词.利用该方法对中国学生写的英语文章进行词性标注的准确率可从95.23%提高到95.63%,超过了现有基于词向量词性标注器对相同语料词性标注的准确率.  相似文献   

3.
郭沫若文学作品中出现了不少量词与名词、动词的特异搭配.从构成手法来看,主要是通过迁嫁改造量词的惯常搭配,或活用名词、动词、形容词为量词,或借入文言、方言和日语中的量词搭配.这些量词的特异搭配极具修辞色彩,增添了作品语言表达的魅力.  相似文献   

4.
针对汽车领域命名实体识别中汽车属性名识别的准确率和召回率较低的问题,提出了一种基于本体特征的汽车领域命名实体识别方法。通过扩展现有叙词表,基于叙词表构建汽车领域本体,提取语料中的本体特征,利用CRFs模型对汽车领域命名实体进行识别。实验结果表明,本体特征能够有效地识别出汽车属性实体,准确率、召回率和F值分别为75.60%,66.12%和70.54%。  相似文献   

5.
文章基于术语数据库,分别考察了包含命名实体、数词、标点符号的术语以及字母词术语,采用统计的方法获取有效的术语内部词性序列以及高频术语内部词性序列,该研究有助于术语的语言学研究,以及术语识别与抽取等应用领域的研究。  相似文献   

6.
在汉语里量词是和名词、动词、形容词等地位相当的独立词类,而德语中并没有量词概念。德语中的某些名词承担了量词的功能。从德语名词分类着手尝试分析德语中不同数量词结构中可能存在的各类的名词。通过举例分析特定的德语量词结构相对应特定的德语名词种类。  相似文献   

7.
针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题,提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化,然后使用CRF模型,以词及词性作为特征进行训练,结合互联网文本的日常性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。实验结果表明,该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%,能够有效地进行命名实体识别。  相似文献   

8.
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。  相似文献   

9.
论述了近年来国内外在常规命名实体识别方面研究工作的进展状况,针对其中最为关键的产品命名实体识别技术,考虑到领域本体对产品命名实体识别的支持,提出了将本体特征融入到统计模型中,结合词性特征、上下文特征,以及本体特征的多特征模型进行产品命名实体识别实验,实验结果证明,该方法能有效地提高产品命名实体识别的性能。  相似文献   

10.
针对回顾式话题检测方法存在的话题检测时效性较差的问题,提出了改进的位置敏感哈希(LSH)算法,并应用于互联网新闻层次化话题检测. 在挖掘新闻内容特征的同时,应用潜在狄利克雷分布主题模型挖掘新闻的语义特征,将非二进制空间的内容特征向量和主题特征向量转换到二进制特征空间上,依次应用LSH算法对新闻文本基于内容特征和主题特征聚类,得到具有"主题-内容"层次的话题. 实验结果表明,该方法通过挖掘新闻的内容特征和主题特征,能更准确和完整地表现新闻内容;将内容特征和主题特征转换到统一的二进制空间,有效降低了聚类过程的时间复杂度,在保证话题检测准确率和话题在语义层面上扩展性的前提下,提高了话题检测的效率.  相似文献   

11.
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。  相似文献   

12.
传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合,通过计算概念集合的内积空间得到词之间的相似度,进而根据词相似度计算文本相似度,最后根据概念相似度计算实现话题的自动检测。实验结果表明,本方法能够有效提高话题检测的准确率和召回率。  相似文献   

13.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

14.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

15.
名词新译   总被引:2,自引:0,他引:2  
试图以索绪尔语义联想场的观点,通过开展丰富的联想,找出名词在某一特定的语境中与之对应的表性质意义的形容词来进行翻译。翻译过程中可根据具体情况,采取联想、增译 、变通、直译等手法,从而尽量达到准确翻译的目的。  相似文献   

16.
AVS体系在形名语义组合中的运用和发展   总被引:1,自引:0,他引:1  
形容词与名词的语义组合,一般采用AVS体系来进行计算。Smith、Blutner和Frank的研究分别解决了组合中的典型性、语境性和否定性。为了进一步研究形容词的多义性,我们把系统中的值与多个特征联接起来。新提出的形容词概念语义模型能够更加有效地对汉语形容词进行释义,并解释相关的形名语义组合,这扩展了AVS体系的解释力。同时,应用模板自动获取这种AVS的想法在研究中被证明是可行的。  相似文献   

17.
针对微博用语不规范,噪声多,更新快,缩略语多,且数据量大等相关特点,本文提出基于深度学习的方法进行微博命名体的识别。本文首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,本文提出卷积方法替代窗口移动方法,以此获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,本文所给出的深度学习方法能够提高微博中命名体识别的F1值,说明了本文算法的有效性。  相似文献   

18.
面向英语文章的词性标注是对英语文章实现自动批改的基础,虽然研究者对英语词性标注做了大量有益的研究,但是大多数的研究都面向英语为第一语言的用户,而面向英语为第二语言用户的相关研究则很少. 为此,对以英语为第二语言用户的英语文章进行了人工标注,在此基础上提出了一种面向英语文章的词性标注算法,融合了词聚类、无标语料统计信息、单词发音等特征. 实验结果表明,该算法能有效提高词性标注性能,标注正确率从94.49%可提高到97.07%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号