首页 | 本学科首页   官方微博 | 高级检索  
     

企业社会媒体主题信息提取算法研究
引用本文:孙宝华.企业社会媒体主题信息提取算法研究[J].煤,2014(1).
作者姓名:孙宝华
作者单位:潞安矿业集团公司租赁站;
摘    要:鉴于已有信息提取方法的可改进之处,结合对HTML网页性质的统计和分析,针对社会媒体中的用户生成数据,提出一种网页主题信息提取算法。算法依据DOM的树型结构特点,充分考虑节点中非链接文字总数和超链接总数这些语义信息,对其进行基于HTML标签的过滤和基于语义的剪枝,能够准确地提取出网页HTML文档的主题信息。实验证明,提取到的主题信息具有较高的准确性和完整性。

关 键 词:社会媒体  网页主题信息  DOM树
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号