共查询到19条相似文献,搜索用时 171 毫秒
1.
词共现文本主题聚类算法 总被引:1,自引:0,他引:1
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果. 相似文献
2.
文章介绍了适合于军事领域中进行情报数据的挖掘方法,建立了军事情报中非结构化文本情报数据处理方法,结合军孥睛报的特点,提出了军事情报中数据挖掘的框架模型,探讨了军事情报挖掘中文文本的方法。实现了对情报文本数据的分词、关键字提取、词频分析、关联分析等。 相似文献
3.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 相似文献
4.
情报数据存在多源异构、关联缺失、重复冗余等问题,有限的数据处理能力已经无法满足不断增长的数据获取能力。事件共指消解任务旨在将互为共指关系的事件识别为同一事件并进行融合处理。对融合多源情报进行研究,提出一种端到端的事件共指消解方法。从情报文本中自动抽取情报事件;编码整个情报文档得到待消解事件的表示,计算每对事件提及的共指得分,以此构建文档内事件共指链;通过算法利用文档内事件共指链融合多源情报文档中的共指事件。实验结果表明,提出方法对消除冗余信息、简化情报文本、融合情报信息具有明显增益。 相似文献
5.
6.
7.
8.
9.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词. 相似文献
10.
成少梅 《网络安全技术与应用》2010,(9):47-49
文本挖掘是发现文本中所包含的内容和意义的过程。向量空间模型是文本挖掘中成熟的文本表示模型,而特征项的选择对其性能有着重要的影响。但以前的研究都把目光聚焦于文本中出现的特征项,忽略了文档之间的相关性。这种局限使这些特征项不能提供丰富的语义信息。始于2005年的Web2.0大潮席卷了整个互联网,在此背景下应运而生的社会化标注成了相关文档的语义桥梁,此文本挖掘带来了新的生机。据此本文利用IRF(Iterative Reinforcement Framwork)模型为文档产生了丰富的特征项,大大提高了文档的检索率。 相似文献
11.
12.
13.
随着信息技术的不断发展,计算机犯罪问题也不断出现,计算机取证技术是将计算机调查和分析技术应用于对潜在的、有法律效力的证据的确定与获取。数据挖掘技术广泛应用于统计、模式识别、高性能并行计算和可视化研究中。本文对基于数据挖掘技术的计算机取证系统进行了探讨。 相似文献
14.
CUDA并行计算技术在情报信息研判中的应用 总被引:3,自引:0,他引:3
文章在研究公安情报信息研判技术的基础上,提出了一种基于CUDA并行计算技术的方法,实现对公安情报信息中文本信息快速分类的方法,实现将CUDA技术的快速计算能力应用到公安情报研判工作中。该文从介绍CUDA技术的概况出发,阐述了基于CUDA并行计算技术的文本分类方法,以及该方法的详细实现过程,解决了高效处理海量文本信息的问题。实验结果证明,CUDA并行计算技术在公安情报信息研判工作中卓有成效。 相似文献
15.
16.
配电网电力大数据的三维场景重构是实现数据优化挖掘的关键,提出基于人工智能的配电网电力大数据三维场景可视化分析方法。建立配电网电力大数据三维场景的网格分布结构模型,并进行配电网电力大数据三维场景实时数据监测,根据监测结果进行配电网电力大数据的统计特征分析,对配电网电力大数据三维场景实时数据采用信息融合和模糊层析性分析方法进行信息融合和自适应调度,提取配电网电力大数据的三维可视化分布特征量,采用视觉特征重构技术,实现对配电网电力大数据三维场景可视化重构,在人工智能算法控制下提高电力大数据三维场景可视化重构的精度。仿真结果表明,采用该方法进行配电网电力大数据三维场景可视化重构的精度较高,提高了配电网电力大数据挖掘的效能。 相似文献
17.
H.-J. Zimmermann 《控制论与系统》2013,44(6):509-531
During the last two to three decades, many scientific as well business areas have moved from a situation of a lack of (electronically) readable information into a situation of abundant data. Data warehouses appeared, and the problem of extracting information from large masses of data became more and more important. Also knowledge became a very precious commodity, and its efficient use often makes the difference between success and failure. Finding useful information or patterns in raw data is known in the literature under various names, such as knowledge discovery in data bases, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, etc. Many research areas, such as machine learning, pattern recognition, artificial intelligence, knowledge acquisition for expert systems, data visualization, and others are concerned with these activities, and the terminology used is not unequivocally defined. In this article, we shall first consider the different interpretations of the notions previously mentioned, and we shall then describe in more detail a recent technology that is very useful for data mining as well as for related areas. 相似文献
18.
19.
郑宗良 《计算机工程与科学》2012,34(9):149-153
为进一步解决应急预案编制中的规范性问题,本文将文本挖掘技术与预案编制结合,提出了一种改进的DBSCAN算法。该算法采用最小二乘拟合法拟合预案文本相似度曲线,在聚类迭代过程中采用可调整的Eps邻域阈值以提高算法的精度与召回率,从而为政务工作人员在编制预案过程中提供智能参考组方案。仿真结果表明,该算法能够为预案编制提供有效的参考预案组。 相似文献