共查询到20条相似文献,搜索用时 46 毫秒
1.
《现代电子技术》2018,(1):125-128
传统文本信息挖掘技术系统能够对文本信息进行系统的信息挖掘,但是在大数据环境下容易产生系统的数据识别乱码以及数据干扰。针对上述问题,提出一种大数据环境下文本信息挖掘系统设计方案,在系统的硬件设备上增加数据简化器,通过数据简化器能够对数据进行一定的过滤筛选,保证数据进入识别阶段的准确率,同时促进了数据挖掘过程的效率,对文本信息挖掘的过程使用质数矩阵模型,通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法,保证了对文本信息的优先识别度,避免了传统方法中出现的数据混乱以及数据干扰问题。为了验证设计的大数据环境下文本信息挖掘系统的有效性,设计了对比仿真实验,通过实验数据的分析,有效地证明了设计的大数据环境下文本信息挖掘系统的有效性,避免了传统方法中出现的数据混乱以及数据干扰问题。 相似文献
2.
随着人工智能领域的快速发展,智能化的评论数据分析成为用户生成内容分析的一大研究热点。在实际评论过程中,由于评论者的素质差异及评论用语的随意性,使部分评论文本相干性不强且情感词模糊。本文以亚马逊商品评论数据集作为样本研究数据,建立分析模型对钉钉评论数据进行评论相干性和情感极性的分析,提出基于相干机制的评论数据处理模型,对评论长度较长的评论,使用N元语法模型和信息量的办法,结合情感词的上下文语境,采用自适应的办法对情感词的情感范围进行情感极性的计算,提高了长评论文本的情感极性准确率。与现有的情感词典分词的方法相比,达到了更好的效果。 相似文献
3.
本文基于scrapy构建分布式爬虫系统爬取今日头条、微博、微信公众号等新闻媒体文章以及相关评论,通过文本去重、文本过滤等数据清理手段,采用分词、关键词提取、文本摘要等自然语言处理算法挖掘文本价值,并以此为基础建立基于neo4j图数据库的知识图谱,通过知识图谱建立智能语义分析系统。 相似文献
4.
5.
6.
刘云萍 《智能计算机与应用》2021,11(3):113-114
为解决传统挖掘方法进行数据挖掘时,存在规定时间范围内数据挖掘量少,导致挖掘效率不高的问题,提出Apriori算法在无线网络数据智能挖掘中的应用研究.通过数据挖掘关联规则设计、基于Apriori算法的无线网络数据文本分类和无线网络数据离群点智能过滤,实现无线网络数据智能挖掘.通过实验证明,所提挖掘方法与传统方法相比挖掘效率得到明显提升. 相似文献
7.
基于改进遗传算法的Web文本挖掘系统 总被引:1,自引:1,他引:0
余燕芳 《微电子学与计算机》2010,27(4)
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法很难适用于大规模的文本数据集.为此,提出了一种基于改进遗传算法的文本挖掘系统.提出的改进遗传算法极大地提高了文本挖掘系统的分类效率.实验结果表明,该方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快. 相似文献
8.
《现代电子技术》2017,(19):138-141
提出利用基于多目标优化软子空间聚类理论的关联规则数据挖掘方法对高维数据集中局部离散文本数据实现数据特征有效挖掘。首先,利用多目标优化软子空间聚类思想结合非支配排序遗传理论优化加权类内紧致及加权类间分离函数,获取优化后的目标函数及非占优Pareto最优解集,运用加权子空间划分方法对最优解集完成特征聚类;其次,基于关联规则思想运用一种特征提取和关联文本的识别方法,对聚类后的文本特征进行文本间及文本内部的特征识别和分类,即实现了文本信息数据的有效挖掘。实验证明,利用多目标优化软子空间聚类数据挖掘方法可以有效实现高维集中局部离散文本数据的挖掘。 相似文献
9.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。 相似文献
10.
本文以文本信息中的情感偏向性数据挖掘作为出发点,对中国用户使用产品的评论文本信息加以分析和讨论,采用Apriori算法解读文本信息的特征挖掘,并结合监督形式的情感分析技术,实现了对使用产品评论信息的情感倾向性数据挖掘,以便于更好地帮助生产服务商改进自我的生产缺陷,提高行业内的竞争力。 相似文献
11.
彭其华 《微电子学与计算机》2013,(10)
研究基于关联度挖掘的海量网络文本挖掘方法;随着计算机和网络技术的快速发展,网络上的文本呈现海量增长的趋势,传统的网络文本挖掘方法采用基于特征提取的方法实现,能够实现小数据量下的文本挖掘,但是在信息量的快速增长下,传统方法已经不能适应;提出一种基于关联度挖掘的海量网络文本挖掘方法,首先采用特征提取的方法对海量文本进行初步的分类和特征识别,然后采用关联度挖掘的方法对各个文本特征之间的关联度进行计算处理,根据关联度的大小最终实现文本挖掘,由于关联度可以很好的体现特征文本之间的相互关系;最后采用一组随机的网络热门词汇进行测试实验,结果显示,算法能够很好适应海量文本下的挖掘实现,具有很好的应用价值。 相似文献
12.
基于协同过滤模型一直被数据的稀疏性问题限制了推荐效果,诸多研究利用深度模型去挖掘评论文本中的抽象特征,但却忽略协同过滤中矩阵分解的隐向量特征。为解决上述问题,文中提出一种融合文本与评分的多头注意力推荐算法模型MTS,将矩阵分解的隐向量特征作为多头注意力的key与CNN抽取的评论特征相结合,并计算用户与物品的相似矩阵,提取用户物品间的相互关联,最终输入FM实现特征融合并预测评分。实验表明,该模型与多个代表模型相比MAE都有较大提升,MAE的误差最大降低了22.17%。 相似文献
13.
14.
15.
16.
17.
18.
本文针对现有商品评论情感分析模型均没有对商品评论文本进行细粒度划分的缺点,提出一种基于双向门控循环网络(Bi-GRU)和双层注意力机制的商品评论情感分类模型。该模型将商品评论文本划分成词级和句子级,通过Bi-GRU提取商品评论在词级和句子级的特征,同时在词级和句子级分别应用注意力机制对相应信息进行权重重分布,通过层级递进的方式获取到商品评论的情感倾向。实验结果表明,本研究提出的商品评论情感分析模型在评论数据集中取得了93.78%的准确率,相对于使用单层注意力机制的Bi-GRU提升了2.6%。 相似文献
19.
对海量的短文数据进行自动分析和挖掘,从中获取有价值的隐含知识已经成为一项迫切的需求。动态文本会话抽取是针对MSN,QQ等动态数据,将属于同一会话但相互交错的不同消息文本组织在一起,属于在线话题发现追踪的新兴领域,在信息检索,文本挖掘和话题检测追踪等方面有着重要应用。首先介绍了文本会话抽取的必要性和重要性,介绍其主要研究内容和结果评测方法;然后对其中多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。 相似文献
20.
由于电网中存在大量的缺陷文本,传统方法无法精准区分缺陷类型,导致文本挖掘精准度较低,为此提出了基于信息抽取的电网缺陷文本挖掘系统设计.使用数据存储模块直接访问系统内存,通过负载均衡服务器执行请求响应.设计多进程浏览器架构,负责浏览多进程应用程序.构建文本挖掘模型,将大量信息元素整理成电网缺陷术语表形式,输入电网缺陷文本后,利用术语注解标准形式识别术语表内容,并计算标签在固定周期中的覆盖率,记录平均时间间隔和偏离度,由此得到电网缺陷标签标记的周期.在该周期内,确定缺陷种类,完成数据挖掘.实验结果表明,该系统的挖掘精度最低为85%,说明该方法的挖掘结果较为可靠,具有实际应用价值. 相似文献