首页 | 本学科首页   官方微博 | 高级检索  
     

短信息的会话检测及组织
作者姓名:田野  王文东  饶京海  王冠  郭亮  陈灿峰  马建
作者单位:1. 网络与交换国家重点实验室北京邮电大学,北京 100876
2. 诺基亚研究院,北京 100176
3. 无锡物联网产业研究院,江苏 无锡 214135
基金项目:国家重点基础研究发展计划(973)(2009CB320504);国家高技术研究发展计划(863)(2011AA01A101)
摘    要:如何挖掘存储在手机上的大量短信息背后所隐含的会话信息,是一个非常具有挑战性的问题,因为它们并不具备"主题"、"回复"等经常被用于邮件线索分析的元数据.基于此,提出了一种基于时间聚类算法和话题检测的短信息会话识别模型.首先,根据短信息流的时间分布特性,将会话双方的所有短信息划分到一个一个的候选会话中,进而运用基于latent Dirichlet allocation(LDA)训练出来的语义话题模型,对候选会话进行更深层次的分析;利用该话题模型度量了各个候选会话在话题上的相关度.最后,在综合时间和话题相关度的基础上,通过对候选会话的合并识别出隐含的会话信息.通过对包含了50名大学生在6个月中产生的122 359条短信进行实验验证,证明了该算法的有效性.

关 键 词:短信息  时间聚类  话题  latent Dirichlet allocation
收稿时间:2011-05-17
修稿时间:2012-01-16
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号