首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
具有概念联想功能的特定领域分词词典的自动构建   总被引:3,自引:0,他引:3  
张彦  邵志清 《计算机工程》2004,30(20):148-150
提出了一种基于PAT树型结构的高频字串提取的改进算法。并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingScnder中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多。而且提供了概念联想的功能。  相似文献   

2.
基于双语对齐口语语料的翻译词典的自动生成   总被引:2,自引:0,他引:2  
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法,首先利用释义词典过渡双语文本,得到“过滤词典”,继而通过统计共现概率,计算出所有词对的相互关联值,并且生成“汉英(英汉)相互关联值表”,对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对,分别赋予信任值1,然后统计每个候选词对人信任值作为翻译词典的分级标准,得到4个不同级别的词典,其中“过滤词典+4级词典”在召回率为93.5%的情况下,正确率达到93.389%。  相似文献   

3.
罗浩  魏祖宽  金在弘 《计算机应用》2010,30(7):1941-1943
提出了一种面向地理信息系统领域的基于专有名词优先的中文分词方法:利用专业词典、通用词典和同义词词典相结合的词典机制,优先切分专有名词,对粗分结果利用Trigram模型进行消歧而获取最终结果。实验证明,该分词算法对专业文献的分词处理具有较好速度和准确性。  相似文献   

4.
本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。  相似文献   

5.
针对现有对话模型生成的回复语句缺乏情感共鸣、拟人效果不够理想的问题,提出一种基于改进编解码器和情感词典的对话生成模型。利用AgSeq2Seq模型对语料库进行训练并构建高质量对话生成系统,结合情感词典识别输入语句的情绪特征并计算回复语句的情感值,基于情绪对比机制根据不同的情感特征生成相应的拟人回复。实验结果表明,相对传统的对话生成模型,提出模型可以主动识别用户情绪,生成更加合乎逻辑、适应语境的回复,实现拟人程度更高的情感对话过程。  相似文献   

6.
该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。  相似文献   

7.
视觉词典方法(Bag of visual words,BoVW)是当前图像检索领域的主流方法,然而,传统的视觉词典方法存在计算量大、词典区分性不强以及抗干扰能力差等问题,难以适应大数据环境.针对这些问题,本文提出了一种基于视觉词典优化和查询扩展的图像检索方法.首先,利用基于密度的聚类方法对SIFT特征进行聚类生成视觉词典,提高视觉词典的生成效率和质量;然后,通过卡方模型分析视觉单词与图像目标的相关性,去除不包含目标信息的视觉单词,增强视觉词典的分辨能力;最后,采用基于图结构的查询扩展方法对初始检索结果进行重排序.在Oxford5K和Paris6K图像集上的实验结果表明,新方法在一定程度上提高了视觉词典的质量和语义分辨能力,性能优于当前主流方法.  相似文献   

8.
细粒度意见挖掘的主要目标是从观点文本中获取情感要素并判断情感倾向。现有方法大多基于序列标注模型,但很少利用情感词典资源。该文提出一种基于领域情感词典特征表示的细粒度意见挖掘方法,使用领域情感词典在观点文本上构建特征表示并将其加入序列标注模型的输入部分。首先构建一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,基于电商领域情感词典的特征表示方法在两种模型上都取得了良好的效果,并且超过其他情感词典。  相似文献   

9.
针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。  相似文献   

10.
本文结合Alexander Maedche等的循环获取过程和Mike Uscholddede & King的“骨架”法,提出了一种基于词典的领域本体建立方法,并参考航空百科辞典和航空分类词典两种资源建立了一个航空领域的本体,最后使用protégé工具将本体以OWL语言的形式化方法进行表示,方便后续调用和处理。  相似文献   

11.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

12.
一种新的基于统计的词典扩展方法   总被引:6,自引:3,他引:3  
在建立统计语言模型时,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料,这一问题尤为严重。针对这一问题,本文提出了一种新的基于统计的识别新词方法——右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计,利用右边缘扩展的方法判断词的边界。在实验中,我们将右边缘扩展法与基于Witten-Bell back off方法的两两合并法相结合,循环地调整词典,优化语言模型。实验结果表明,该算法具有很高的识别正确率与检出率,可以有效地识别出语料中出现的新词汇,尤其是专业术语。  相似文献   

13.
文本情感分析是目前自然语言处理领域的一个热点研究问题,具有广泛的实用价值和理论研究意义。情感词典构建则是文本情感分析的一项基础任务,即将词语按照情感倾向分为褒义、中性或者贬义。然而,中文情感词典构建存在两个主要问题 1)许多情感词存在多义、歧义的现象,即一个词语在不同语境中它的语义倾向也不尽相同,这给词语的情感计算带来困难;2)由国内外相关研究现状可知,中文情感字典建设的可用资源相对较少。考虑到英文情感分析研究中存在大量语料和词典,该文借助机器翻译系统,结合双语言资源的约束信息,利用标签传播算法(LP)计算词语的情感信息。在四个领域的实验结果显示我们的方法能获得一个分类精度高、覆盖领域语境的中文情感词典。  相似文献   

14.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

15.
跨境民族文化领域实体通常由描述民族文化特征的领域词汇组合构成,使用当前主流的基于字符表征的实体识别方法会面临领域实体边界模糊问题,造成实体识别错误。为此,该文提出一种融入词集合信息的跨境民族文化实体识别方法,利用领域词典获取的词集合增强领域实体的词边界和词语义信息。首先,构建跨境民族文化领域词典,用于获取词集合信息;其次,通过词集合注意力机制获取词集合向量之间的权重,并融入位置编码增强词集合位置信息;最后,在特征提取层融入词集合信息,增强领域实体边界信息并缓解仅使用字符特征表示所带来的词语义缺失问题。实验结果表明,在跨境民族文化文本数据集上所提出方法相比于基线方法的F1值提升了2.71%。  相似文献   

16.
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高。这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量。为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果。为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验。实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高。  相似文献   

17.
情感词典自动构建方法综述   总被引:13,自引:1,他引:12  
王科  夏睿 《自动化学报》2016,42(4):495-511
情感词典作为判断词语和文本情感倾向的重要工具, 其自动构建方法已成为情感分析和观点挖掘领域的一项重要研究内容. 本文整理了现有的中、英文情感词典资源, 同时分别从知识库、语料库、以及两者结合的角度, 归纳现有英文和中文情感词典的构建方法, 分析了各种方法的优缺点, 并总结了情感词典构建中的若干难点问题. 之后, 我们回顾了情感词典性能评估方法及相关评测竞赛. 最后总结了情感词典构建任务的发展前景以及一些亟需解决的问题.  相似文献   

18.
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实验结果显示,在科技文献测试语料上,基于Active Learning训练的分词系统在各项评测指标上均有提高。
  相似文献   

19.
在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%。该方法还可与新词发现等方法结合,改善未登录词的处理效果。  相似文献   

20.
旅游在线评论情感分析的基础是情感词典的构建。在领域情感词典构建过程中,通常仅使用词频作为筛选种子词集的标准,而并未考虑其内部词语的关联程度,这会导致种子词集聚类效果不明显,进而影响情感词语归类精度。因此,基于词向量模型,提出一种情感词典种子词集筛选方法。该方法将情感词语以向量形式表征并计算词向量间距离,形成种子词集的筛选标准和分类依据,再通过类别判断形成在线评论的情感词典。最后,构建了山岳型旅游景区在线评论情感词典,并通过对比实验验证了方法的有效性,对提高情感词语归类精度和旅游在线评论情感词典的构建起到了积极的作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号