首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率.  相似文献   

3.
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.  相似文献   

4.
在使用计算机处理中文信息时,对词语的自动化发现技术有迫切的需求.因为在互联网时代,词语集合的更新换代非常之快,词语以非常快的节奏产生和消亡,这直接影响着对中文信息自动化处理的准确度和可靠性.为了解决这个难题,本文提出一种基于词激活力模型的中文词语发现方法.该方法将海量汉语语料建模成为有序的汉字序列,建立词激活力模型,分析字与字之间的联系程度,从而对任意两个汉字是否构成词语进行估计.在大规模语料集上的数据实验表明,该方法能够有效地对预料中的潜在词语进行自动化发现,达到了预期目标.  相似文献   

5.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

6.
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以为网络信息智能处理、网络有效信息识别提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了提高新概念发现的准确率,算法不但采用了传统的分词、串频统计技术,而且还采用了字偏旁部首自动组合、网站间串频同现等新技术。实验证明,算法识别的潜在新概念中可接受率完全可以满足当前的应用需求。  相似文献   

7.
基于概率统计技术和规则方法的新词发现   总被引:9,自引:1,他引:8  
贾自艳  史忠植 《计算机工程》2004,30(20):19-21,83
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。  相似文献   

8.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

9.
基于标记的规则统计模型与未登录词识别算法   总被引:8,自引:0,他引:8  
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。  相似文献   

10.
基于词聚类的话题发现方法中,普遍存在聚类结果不稳定(聚类结果较大程度依赖于聚类对象的初始化操作)的问题,为此通过将文档集建模为词共现网络,设计词共现网络的过滤方法,然后提出基于词共现网络的遗传聚类算法,实现从网络文档中提取热点话题。与已有方法相比,该方法所发现的话题相对稳定,这在实验中亦得到了验证,因而该方法在实际应用中具有更好的现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号