排序方式: 共有77条查询结果,搜索用时 15 毫秒
11.
一种增强的局部异常挖掘方法 总被引:6,自引:0,他引:6
异常检测在许多领域有重要应用.在提出度量具有混合属性的对象间差异性方法的基础上,将加权幂平均引入数据挖掘,提出一种基于最近邻的异常检测方法,这种方法采用广义局部异常因子GLOF度量对象的异常程度,不需要阈值或数据集中异常数据个数的先验知识.理论分析表明,GLOF具有好的性质.实验表明:①对象间差异性定义适合于混合属性的数据集;②GLOF比LOF,CBLOF,RNN更准确地刻画了局部异常;③“Bσ”准则简单但切实可行. 相似文献
12.
13.
14.
数据流挖掘算法研究综述 总被引:15,自引:3,他引:15
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。 相似文献
15.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。 相似文献
16.
17.
随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势. 相似文献
18.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。 相似文献
19.
k最近邻分类算法原理简单且分类性能好,但因其时间复杂度高,不适用于实际领域在线垃圾邮件过滤.本文在建模阶段首先对训练邮件进行初始聚类,将训练邮件划分为半径大小几乎相同的初始簇,然后使用共享最近邻图聚类算法对包含邮件的初始簇进行再聚类,最终聚类簇被看成是可以增量更新的分类模型,最后使用经典k最近邻分类算法在该分类模型上对未知邮件进行分类.在公开语料Ling-Spam上的实验结果表明,本文提出的垃圾邮件识别算法不仅具有较高的垃圾邮件识别精度,而且还具有较低的时间复杂度. 相似文献
20.
基于一趟聚类的不平衡数据下抽样算法 总被引:1,自引:0,他引:1
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高. 相似文献