首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
当前方法对电力营销数据进行去重管理时,重复数据检测准确率、去重率低,因此提出基于信息系统的电力营销数据去重管理方法。构建电力营销信息系统,采用营销时空特征数据云模型中存在的映射规则对电力营销数据进行降维处理。对降维处理后的电力营销数据进行聚类分析,并获得对应的包装器,识别有效电力营销数据,通过相似度函数判断电力营销数据是否重复,实现电力营销数据的去重管理。实验结果表明,本文方法的重复数据检测准确率高、去重率高,说明本文方法的去重效果较好。  相似文献   

2.
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。  相似文献   

3.
针对高维数据分类问题的特点,提出一种基于改进型局部线性嵌入LLE(Locally Linear Embedding)算法的数据降维算法,结合支持向量机SVM(Support Vector Machine)算法实现数据分类。首先,通过LLE算法降维后的数据集,按照数据集内的离差最小化,数据集间的离差最大化的原则,计算得到最优化邻近点个数;其次,将最优邻近点个数所得的降维数据作为最优结果,按一定比例选取训练集,输入SVM算法建立数据分类器;最后,将测试集输入训练完成的分类器中,实现最优化数据分类。选取Iris flower,Yale等多类数据集与传统算法进行对比实验,验证算法的可行性。实验结果表明:所提出的算法可以有效地完成数据分类,针对低维数据和高维数据分类问题具有较好的适用性和优越性,在人脸检测中也取得较好的结果。  相似文献   

4.
随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成为了一个迫在眉睫的重要研究课题。本文通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行了讨论和研究,并将此算法应用到了中国移动的投诉数据分类系统中。在系统实施后,非常有效地提高了投诉数据的处理效率,从而印证所提出分类算法及系统框架的有效性。  相似文献   

5.
基于文本分类的文档相似度计算   总被引:1,自引:0,他引:1  
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。  相似文献   

6.
7.
基于改进KNN算法的中文文本分类方法   总被引:1,自引:0,他引:1  
介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本相似度时存在的不足,提出了改进方案。新方案引入了中心向量分类法的思想。通过实验,对改进的KNN算法、中心向量算法和传统的KNN算法应用于文本分类效果进行了比较。实验结果表明,改进的KNN算法较中心向量法和传统的KNN算法在处理中文文本分类问题上有较好的分类效果,验证了对KNN算法改进的有效性和可行性。  相似文献   

8.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制.  相似文献   

9.
一种基于概念相似度的数据分类方法   总被引:7,自引:0,他引:7  
依据数据属性间的相似信息,提出了一种分类方法.该方法将属性矢量化,属性作为m维空间的基本矢量,数据记录作为属性矢量的和.利用属性间先验的概念相似信息,给出了求取任意属性矢量对的相似距离算法,并将数据间相关度计算转换为属性矢量及其相互投影的公式,从而得到任意两条数据的相关度;利用相关度,提出了一种分类算法.用详实的实验证明了该算法的有效性.  相似文献   

10.
大数据技术的不断发展和数据泄露事件的频繁发生,催生了保护教育行业数据安全的迫切需求。教育行业的个人教育和成长的精准数据具有极高的价值,因此对教育数据实施保护已迫在眉睫。针对这一问题,文章提出了基于深度学习的教育数据分类方法。首先,根据数据管理主体的不同,定义个人数据、机构数据和业务数据3个类别;其次,提出一种基于字词向量结合的Bi-LSTM神经网络模型,实现教育数据分类的自动化、智能化;最后,通过在两所高校数据集上的实验对文章提出的分类方案进行验证。实验表明,相比于基线模型,文章所提方法在实验数据集上训练得到的模型分类准确率可达95%,且在各指标上均达到最优。  相似文献   

11.
针对短文本中固有的特征稀疏以及传统分类模型存在的“词汇鸿沟”等问题, 我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题, 并且引入传统文本分类模型中不具有的语义关系. 但进一步发现单纯利用 Word2Vec模型忽略了不同词性的词语对短文本的影响力, 因此引入词性改进特征权重计算方法, 将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重, 并结合 Word2Vec 词向量生成短文本向量, 最后利用SVM实现短文本分类. 在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.  相似文献   

12.
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.  相似文献   

13.
为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法.首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词...  相似文献   

14.
随着网民的数量不断增加,用户上网产生的数据量也在成倍增多,随处可见各种各样的评论数据,所以构建一种高效的情感分类模型就非常有必要.本文结合Word2Vec与LSTM神经网络构建了一种三分类的情感分类模型:首先用Word2Vec词向量模型训练出情感词典,然后利用情感词典为当前训练集数据构建出词向量,之后用影响LSTM神经网络模型精度的主要参数来进行训练.实验发现:当数据不进行归一化,使用He初始化权重,学习率为0.001,损失函数选择均方误差,使用RMSProp优化器,同时用tanh函数作为激活函数时,测试集的总体准确率达到了92.28%.与传统的Word2Vec+SVM方法相比,准确率提高了大约10%,情感分类的效果有了明显的提升,为LSTM模型的情感分类问题提供了新的思路.  相似文献   

15.
在信息推荐系统中,传统的方法是通过对内容、行为去预测用户的兴趣点来实现信息推送。国内外研究实验结果表明,这种模型推荐性能较为显著,说明用户行为和内容是相关的。根据相关性的对称原理,文章提出了基于用户行为的Word2Vec协同推荐算法,通过神经网络模型来隐式地抽取商品和用户的相互关系并进行向量化表示,能够更好地计算商品和用户间的相似性,以达到提升模型的推荐效果和泛化能力。  相似文献   

16.
17.
Disease prediction based on electronic medical record generally predicts the disease according to the patient's symptoms, and rarely studies on the time sequence relationship between the diseases. A new representation of electronic medical record is introduced, which considers the context-aware information of medical diseases with time series. Each disease is transformed into a digital vector similar to its "semantics" using Doc2Vec. Based on these vectors, the BiLSTM model is used to predict the potential diseases of elderly patients, which can play an early warning role in diseases of the elderly. Finally, real hospital diagnostic data is used in the experiments, and the results show that the model can effectively predict new diseases of the elderly, and it also has certain stability while ensuring the accuracy of prediction.  相似文献   

18.
基于三维实时渲染技术的虚拟火灾训练系统设计   总被引:4,自引:0,他引:4  
刘昆  王广生 《计算机应用》2005,25(8):1962-1964
基于三维实时渲染技术的火灾训练系统包括:建筑三维地图构造和显示及与用户的交互,火灾的模拟,指导逃生和救援决策。探讨了利用实时三维绘制技术、人工智能和模式识别的相关算法结合火灾的危害模型建立虚拟火灾训练系统的途径。通过研究提出了采用虚拟现实来创建火灾和逃生救援的软件系统的设计方案,以及将OpenGL与DirectX相结合在Windows平台上实现基于C/S结构下的虚拟火灾训练系统的技术。  相似文献   

19.
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义.  相似文献   

20.
为了充分利用高光谱图像的光谱信息和空间结构信息,提出了一种新的基于随机森林的高光谱遥感图像分类方法,首先,利用主成分分析降低数据的维数,并对主成分进行独立成分分析提取其光谱特征,同时消除像元的空间相关性,再采用形态学分析提取像元的空间结构特征,然后,根据像元的谱域和空域特征分别构造随机森林,并引入空间连续性对像元点的预测结果进行约束修正,最后由投票机制决定最后的分类结果。在AVIRIS和ROSIS高光谱图像上的实验结果表明,所提方法的分类性能要优于传统的高光谱图像分类方法,且分类精度高于基于单一特征的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号