首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于大规模语料库的新词检测   总被引:12,自引:0,他引:12  
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.  相似文献   

2.
情感词是情感分析中的基础单元,因此情感词典在情感分析中起着决定性的作用,目前构建情感词典的方法只是用到了单词的语义信息和构词信息,忽略了其所在语境。基于此,对于一些语义未知的词,传统语义方法难以得出其情感权重,而对于一些由于语境变化而产生新用法的词,使用语义方法很难计算出其真实权重。针对这种情况,首先提出了从构字到篇章的情感分析层次体系,每层都有对应到上层的表示方法和情感值计算公式,将分析单元细分到单词维度。在此基础上,提出了基于词语构字和语境的情感语义单元自动构建方法。该方法利用已知情感词典,同时根据情感词的构字和情感词的语境情感倾向计算该词的情感权重,得到的结果更加准确。在社交网络真实数据集上的实验表明,本文方法构建的情感单元较之前的方法在准确率上有3%的提升。同时,情感单元可直接用到情感分析任务中,情感分析的准确率在基于规则的情感分析实验中有9%的提升,在深度学习方法上有3%的提升。  相似文献   

3.
相关反馈技术被有效的应用于基于内容的图像检索.传统的相关反馈未能充分利用检索的历史信息.为了进一步提高检索的效率与准确性,提出一种基于历史检索信息学习的相关反馈检索方法.该方法将每次检索的结果作为历史检索信息保存.进行新的检索时,判断当前查询图像与历史检索信息的语义相关性,预测检索结果,以期减少相关反馈次数.对包含80 00幅图像的图像库实验表明,与传统相关反馈技术相比,该方法明显的改善了检索性能.  相似文献   

4.
该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。  相似文献   

5.
基于知识本体的语义信息检索框架设计   总被引:4,自引:2,他引:4  
基于关键词匹配的信息检索方式不能反映出被检关键字在现实世界中的语义,因此这种检索方式不可避免地导致查准率和查全率低的缺陷,而概念检索中的主体词典表达领域知识的能力有限。提出了一个基于知识本体的能够实现语义信息检索的多主体系统,它包括描述信息收集、存储、语义匹配和语义相关性扩展等几个主要部分,可以在很大程度上提高检索结果的查准率和查全率。  相似文献   

6.
基于贝叶斯分类器的图像检索相关反馈算法   总被引:9,自引:1,他引:9  
苏中  张宏江  马少平 《软件学报》2002,13(10):2001-2006
由于图像底层特征及其本身所包含的上层语义信息的巨大差距,使得基于内容的图像检索很难取得令人满意的效果.作为一种有效的解决方案,在过去的几年中,相关反馈在该研究领域取得了一定的成功.提出了一种新的具有学习能力的反馈算法.该算法基于贝叶斯分类原理,运用不同的反馈策略分别处理正、负反馈,同时它具有学习能力,可以运用用户的反馈信息不断地修正检索参数,使系统的检索能力得到不断的提高.通过在大图片库上的检索实验 ,该算法产生的效果大大优于当前其他的反馈方法.  相似文献   

7.
现代汉语中具有"字义基元化,词义组合化"的特点,本文根据这一特点,从汉字动态组合形成新词的角度,对汉语中新词语的释义进行了分析.通过对比词典收录的词语义项和新词语释义,发现字义在网络环境出现的新词中有了拓展.针对这些义项进一步分析发现,字义的核心语义内容没有发生根本的变化,而是表述对象的拓展.本文以组成网络新词比较活跃的"裸"字为例进行了具体说明,研究结果有助于汉语新词处理.  相似文献   

8.
结合流形学习和相关反馈技术的图像检索方法关键是结合低层可视化信息,从少量用户反馈信息中学习用户语义,以获得语义子空间流形.为获得更真实的语义子空间,文中在区分对待低层可视化和用户反馈信息的同时,基于低层可视化信息选择学习反馈信息中的类内和类间关系,提出一种选择关系嵌入算法应用于图像检索.该方法可保留更真实的语义流形结构,从而提高在低维空间中的检索精度.实验结果表明文中方法可将图像映射到更广范围的低维空间,在反馈迭代两次之后检索精度提高最高可达16.3%.  相似文献   

9.
委婉语是语言交流中不可或缺的交际手段,委婉语研究一直是语言学界的热门话题之一,但在自然语言处理领域,尚未有委婉语相关研究。该文借助现有纸质词典,基于语料库检索和专家人工判别的方式,初步构建了规模为63 000余条语料的汉语委婉语语言资源;并根据自然语言处理的相关任务需求,结合词典释义对委婉语进行分类。该文提出了利用同类委婉语的上下文语境辅助进行标注的方法。经过实验,对简单语义委婉语的语义判别准确率达89.71%,对语义复杂的兼类委婉语的语义判别准确率达74.65%,初步验证了利用计算机辅助人工标注构建委婉语语言资源的可行性。  相似文献   

10.
提出了一种基于本体语义模型的信息检索方法。该方法充分利用领域本体提供的概念之间的语义相关性,从语义模型扩展、概念相似度、相关度计算,并以用户反馈等角度探讨了基于语义模型的自动推理方法在信息检索中的应用,文章介绍了系统实现框架。该系统将应用在学习资源的智能检索中。  相似文献   

11.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。  相似文献   

12.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

13.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。  相似文献   

14.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

15.
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。  相似文献   

16.
一种基于信息熵的中文高频词抽取算法   总被引:9,自引:0,他引:9  
任禾  曾隽芳 《中文信息学报》2006,20(5):42-43,90
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。  相似文献   

17.
字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。  相似文献   

18.
基于Hash结构的机械统计分词系统研究   总被引:3,自引:1,他引:3  
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。  相似文献   

19.
《全衡》词典的设计与建设   总被引:2,自引:0,他引:2  
《全衡》是第一个较全面考虑香港和国际的需求的网上汉字输入系统,其核心部件是词典。《全衡》使用的是一部拥有六万余词条的词典,每一词条讲述一个词语,信息包括该词语的简体字形式、繁体字形式、汉语拼音表达式、粤语拼音表达式、仓颉输入法代码、速成输入法代码等。由其中任何一项入手,借助于系统中的检索程序可以方便地查找其它各项信息。这不仅有力地支持了汉字输入,对于汉语学习也很有帮助。本文简要介绍《全衡》的词典建设。  相似文献   

20.
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号