企业社会媒体主题信息提取算法研究 |
| |
引用本文: | 孙宝华.企业社会媒体主题信息提取算法研究[J].煤,2014(1). |
| |
作者姓名: | 孙宝华 |
| |
作者单位: | 潞安矿业集团公司租赁站; |
| |
摘 要: | 鉴于已有信息提取方法的可改进之处,结合对HTML网页性质的统计和分析,针对社会媒体中的用户生成数据,提出一种网页主题信息提取算法。算法依据DOM的树型结构特点,充分考虑节点中非链接文字总数和超链接总数这些语义信息,对其进行基于HTML标签的过滤和基于语义的剪枝,能够准确地提取出网页HTML文档的主题信息。实验证明,提取到的主题信息具有较高的准确性和完整性。
|
关 键 词: | 社会媒体 网页主题信息 DOM树 |
本文献已被 CNKI 等数据库收录! |
|