首页 | 本学科首页   官方微博 | 高级检索  
     

多策略中文微博实体词消歧及实体链接
作者单位:;1.西南大学计算机与信息科学学院
摘    要:在社交网络迅猛发展的今天,如何对有歧义的微博实体进行消歧和如何将微博实体连接到知识库已成为当今研究热点。对实体消歧和实体链接提出了多种策略方案。首先利用ICTCLAS对微博文本进行分词处理,利用百度百科、实体专家库对实体进行规范化处理。然后利用由爬虫爬取的百度百科信息、微博数据、网络词语构建了消歧文本数据库,再结合TF-IDF算法和FastNewman聚类算法对实体进行消歧和链接。使用第二届自然语言处理与中文计算会议(NLP&CC 2013)中的中文微博实体链接任务给的数据进行测试,测评中准确率为84.99%,继续改进模型后准确率达91.40%。

关 键 词:中文微博  实体消歧  TF-IDF  Fast-Newman聚类

ENTITY WORDS DISAMBIGUATION AND ENTITY LINKING WITH MULTI-STRATEGY IN CHINESE MICROBLOGS
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号