面向多源数据的可扩展主题建模分析框架 |
| |
引用本文: | 唐爽,张灵箫,赵俊峰,谢冰,邹艳珍.面向多源数据的可扩展主题建模分析框架[J].计算机科学与探索,2019,13(5):742-752. |
| |
作者姓名: | 唐爽 张灵箫 赵俊峰 谢冰 邹艳珍 |
| |
作者单位: | 北京大学 信息科学技术学院,北京 100871;高可信软件技术教育部重点实验室,北京 100871;北京大学 信息科学技术学院,北京 100871;高可信软件技术教育部重点实验室,北京 100871;北京大学(天津滨海)新一代信息技术研究院,天津 300450 |
| |
摘 要: | 随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。
|
关 键 词: | 主题建模技术 潜在狄利克雷分布(LDA) 结构化数据分析 可视化 |
Extensible Topic Modeling and Analysis Framework for Multisource Data |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|