首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
魏博识    卢涛   《武汉工程大学学报》2021,43(4):455-461
针对现有数值型作物推荐算法忽略了文本域数据对于作物推荐的指导性意义,无法挖掘数值域数据与文本域数据之间的内在关联,导致推荐模型预测精度较低的问题,提出了一种基于土壤数据广度与深度模型的作物推荐算法。对残缺、重复、不平衡的土壤数据进行数据预处理,采用数值归一化和向量嵌入的方法融合数值域数据与文本域数据,然后使用广度与深度模型联合训练的方法挖掘其内在关联,改进多分类激活函数实现多分类。实验结果表明:该方法的预测精度优于现有数值型作物推荐算法。  相似文献   

2.
为快速准确地提取和挖掘信息系统运维服务过程中的关键咨询问题,本文利用分布式技术,基于Hadoop的客服运维文本聚类算法,对海量文本数据进行聚类研究。给出了基于Hadoop的运维数据分布式并行计算模型,并在Hadoop框架中对系统中所有运维数据进行分析处理。同时,给出了分布式文本聚类算法,并以10万余条电力信息系统运维数据为数据源,对设计的分布式聚类算法和传统聚类算法进行分析对比。实验结果表明,本文设计的分布式聚类算法所需时间低于传统聚类算法,不仅解决了传统聚类算法在处理海量数据方面由于数据规模过大引起的速度慢、效率低的问题,而且还借助大数据中蕴含的价值和动力,提升了企业运维服务水平。该研究具有较高的实用价值和理论意义。  相似文献   

3.
基于数据挖掘的文本人物结构以及事件专题研究   总被引:1,自引:0,他引:1  
利用数据挖掘技术对文本人物结构以及事件专题进行信息挖掘.提出一种基于树结构的人物结构挖掘算法,构建一种按照自顶向下的层次等级分布的人物结构图,给出一种查找核心成员的算法.针对文本中事件专题挖掘,提出事件模型学习算法.以《红楼梦》为实例验证人物结构以及事件专题的文本挖掘,结果证明该方法可行.  相似文献   

4.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

5.
针对电力客服对话文本存在的错误文本较多、口语化程度高和标注数据少等问题,提出了一种基于双向传播框架的电力客服对话文本挖掘算法.该算法使用外部语料获取情感词和评价属性来扩展电力客服对话评价要素,使用基于词向量的语料相似度计算方法识别长尾词,挖掘出电力客服对话文本的情感词和评价属性.实验结果表明,所提出的算法相比于传统反向...  相似文献   

6.
在文本大数据挖掘过程中受到语义模糊性因素的影响,导致大数据挖掘查准性不好,故提出了一种基于模糊层次聚类分析和语义相似性关联特征提取的大数据挖掘算法.该算法采用泛化映射构造语义概念树,结合二元语义分析方法进行大数据分布式本体模型构建,并采用模糊层次分析方法进行大数据的语义相似性和关联性判断,提取大数据信息流的语义关联特征,结合模糊C均值算法对提取的特征量进行聚类分析,自适应均匀遍历学习方法进行大数据挖掘中关联特征量的信息融合处理,求得挖掘目标函数的最优解,实现大数据优化挖掘.仿真结果表明,采用该算法的语义指向性较好,数据的聚焦性能较优,提高了数据挖掘的查全率和查准率,总体性能稳定可靠.  相似文献   

7.
现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据。根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理。分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱。挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进。实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性。  相似文献   

8.
为了提高信息挖掘方法的效率和动态性,支持在线定义知识提取模式,提出一种快速文本匹配框架.该框架包括上下文索引、上下文挖掘语言、上下文匹配算法等模块.框架从索引中直接获得提取内容的上下文信息,无需依赖文本过滤,从而提高信息提取性能.理论分析和实验表明:本框架提取方法同文本提取方法、倒排提取方法等相比,其运行时间在不同大小和结构的数据集上更为稳定高效,提取模式的长度对本框架的影响较小,因此,适合海量数据的在线提取.  相似文献   

9.
提出了一种在单独数据流中挖掘近期频繁项的算法MRFI。该算法采用基于对时间敏感的滑动窗口的模式,保证了挖掘结果的时效性,并利用循环队列和二叉排序树实现了简单高效的数据存储和处理,该方法是一种近似算法,它可以消除历史数据对挖掘结果的影响。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。  相似文献   

10.
为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号