首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
为解决多标签学习中数据不平衡、传统重采样过程标签样本集相互影响以及弱势类信息大量重复和强势类信息大量丢失的问题,提出多标签随机均衡采样算法。该算法在多标签的条件下提出随机均衡采样思想,充分利用强势类和弱势类信息来平衡数据冗余和损失;优化样本复制和删除策略,保证不同标签重采样过程的独立性;提出平均样本数,保持数据的原始分布。实验在3个数据集下对比了3种多标签重采样算法的性能,结果表明,0.2和0.25是所提算法的最佳重采样率,且该算法尤其适用于不平衡度较高的数据集,和其他方法相比具有最好的性能。  相似文献   

2.
针对多标签网页推荐算法中存在信息不精确及新增信息较多,传统精确算法效果并不理想的问题,提出一种多标签网页的粗糙集概率神经网络高斯块植入期望排序推荐方法。首先,针对信息不确定性,利用粗糙集理论改进传统的概率神经网络模型,使之适合处理信息非确定性问题;其次,针对固定概率神经网络在处理多标签网页推荐问题时,存在覆盖率差,结构冗余较大,且对新增标签信息无法快速识别的问题,利用高斯块植入期望排序方式,构建概率功能块的合并、添加和删除操作,提高预测精度同时降低计算复杂度,并有效解决新增信息预测的实时性问题;最后,通过在雅虎多标签数据集实例中的实验对比显示,所提算法具有更高的计算精度和效率。  相似文献   

3.
李航  王进  赵蕊 《智能系统学报》2017,12(5):624-639
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。  相似文献   

4.
《机器人》2017,(6)
为了实时得到搭载双目相机的机器人准确的3维位姿状态和环境信息,提出一种融合直接法与特征法的双目SLAM(同时定位与地图创建)算法.该算法主要分为4个线程:跟踪线程、特征提取线程、局部建图线程和闭环线程.跟踪线程通过最小化图像光度误差,获取双目的初始位姿估计和特征对应关系,而后通过最小化局部地图点的重投影误差,得到更为准确的机器人位姿估计.特征提取线程负责提取关键帧的关键点和描述子,能够保证待处理的关键帧较多时不影响后续局部建图线程的执行.局部建图线程管理局部地图,执行局部BA(光束平差法),优化局部关键帧位姿和局部地图点的位置,提高SLAM的局部一致性.闭环线程通过对关键帧的闭环检测和优化,提高SLAM的全局一致性.另外利用闭环线程处理机器人被绑架后重回已探测环境的定位问题.KITTI数据集、TUM数据集以及采集的双目数据实验表明,本文算法相对于ORB-SLAM2算法,在保证定位精度的同时,有效提高了相机位姿的输出帧率,并且在机器人被绑架的情况下,能够得到更为丰富的姿态信息和环境信息.  相似文献   

5.
利用少量标签数据获得较高聚类精度的半监督聚类技术是近年来数据挖掘和机器学习领域的研究热点。但是现有的半监督聚类算法在处理极少量标签数据和多密度不平衡数据集时的聚类精度比较低。基于主动学习技术研究标签数据选取,提出了一个新的半监督聚类算法。该算法结合最小生成树聚类和主动学习思想,选取包含信息较多的数据点作为标签数据,使用类KNN思想对类标签进行传播。通过在UCI标准数据集和模拟数据集上的测试,结果表明提出的算法比其他算法在处理多密度、不平衡数据集时有更高精度且稳定的聚类结果。  相似文献   

6.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.  相似文献   

7.
基于互信息的RBF神经网络结构优化设计   总被引:1,自引:1,他引:0  
郭伟 《计算机科学》2013,40(6):252-255
以设计最小RBF网络结构为着眼点,提出了一种基于互信息的RBF神经网络结构优化算法.该算法用k近邻统计法估计隐节点输出矩阵与输出节点输出矩阵之间的互信息,获得每个隐节点与输出节点之间的相关性度量,删除相关性最小的隐节点,进而达到优化网络结构的目的.该算法具有自恢复机制,在简化网络结构的同时能有效保证网络的信息处理能力.在人工数据集和真实基准数据集上的仿真实验验证了该算法的有效性与稳定性.  相似文献   

8.
针对大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息的问题。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC),结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无需训练和人工处理。在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR等算法。  相似文献   

9.
采用深度学习算法来实现海浪等级的划分,数据来源于洋山港视频监测及同步海浪测量。针对近岸海浪识别系统中,构建海浪样本数据集中图像处理部分计算量超大的问题,设计一种海浪样本数据集图像处理的并行化运算方案。构建海浪样本数据集时,主要将视频进行关键帧提取,经过加权均值滤波去噪,生成与海浪等级对应标签,实现了海浪样本数据集的构建。在多核计算机上采用Open MP对海浪样本数据集图像处理过程进行并行算法仿真,同时完善相关代码的性能优化。实验结果表明,设计的并行算法比串行算法大大地提高运算速度和多核利用率,当优化后线程K=8时,加速比可以达到24.29。该算法具有扩展性好、性能高、使用简单方便、价格低廉的优点,具有良好的实用价值。  相似文献   

10.
属性约简是粗糙集理论重要研究内容之一,基于可分辨矩阵的属性约简方法需占用大量存储空间,不利于大数据集的处理.为此,引入差别集定义和基于差别集属性约简定义,并指出基于差别集属性约简本质上是在当前差别集中不断寻求关键属性的过程,并给出删除单个条件属性和删除条件属性集两种获取关键属性的属性约简方法,同时证明了这两种属性约简方法是正确的、完备的;进一步,为了获得最小属性约简,采用两个启发式信息来筛选关键属性;在上述基础上,设计基于差别集的启发式属性约简算法.最后,通过实例和实验验证了该算法的有效性和高效性.  相似文献   

11.
基于特征串的大规模中文网页快速去重算法研究   总被引:16,自引:1,他引:16  
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理。实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3% ,去重正确率达99.5%。  相似文献   

12.
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法: 即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。  相似文献   

13.
Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the F 1-score with CEDS is 8.08% and 3.08% higher than existing popular content extraction methods CETR and CEPR-TPR respectively.  相似文献   

14.
The most fascinating advantage of the semantic web would be its capability of understanding and processing the contents of web pages automatically. Basically, the semantic web realization involves two main tasks: (1) Representation and management of a large amount of data and metadata for web contents; (2) Information extraction and annotation on web pages. On the one hand, recognition of named-entities is regarded as a basic and important problem to be solved, before deeper semantics of a web page could be extracted. On the other hand, semantic web information extraction is a language-dependent problem, which requires particular natural language processing techniques. This paper introduces VN-KIM IE, the information extraction module of the semantic web system VN-KIM that we have developed. The function of VN-KIM IE is to automatically recognize named-entities in Vietnamese web pages, by identifying their classes, and addresses if existing, in the knowledge base of discourse. That information is then annotated to those web pages, providing a basis for NE-based searching on them, as compared to the current keyword-based one. The design, implementation, and performance of VN-KIM IE are presented and discussed.  相似文献   

15.
针对在高度密集的射频识别(RFID)系统中因标签碰撞导致系统识别效率降低的问题,提出了一种锁位式双前缀探针防碰撞算法。新算法在双前缀探针算法的基础上,利用曼彻斯特编码特点,通过锁位指令锁定碰撞位,提取碰撞信息,并且在后续的识别过程中仅传输这部分信息,结合双前缀查询思想,在减少碰撞时隙的同时,减少了数据传输量。算法在设计的过程中充分考虑了总时隙数、吞吐率、识别效率这三个重要的性能指标。理论和仿真分析表明,相对于已有算法,新算法具有更高的识别效率和吞吐率,更适合RFID识别系统。  相似文献   

16.
Web is flooded with data. While the crawler is responsible for accessing these web pages and giving it to the indexer for making them available to the users of search engine, the rate at which these web pages change has created the necessity for the crawler to employ refresh strategies to give updated/modified content to the search engine users. Furthermore, Deep web is that part of the web that has alarmingly abundant amounts of quality data (when compared to normal/surface web) but not technically accessible to a search engine’s crawler. The existing deep web crawl methods helps to access the deep web data from the result pages that are generated by filling forms with a set of queries and accessing the web databases through them. However, these methods suffer from not being able to maintain the freshness of the local databases. Both the surface web and the deep web needs an incremental crawl associated with the normal crawl architecture to overcome this problem. Crawling the deep web requires the selection of an appropriate set of queries so that they can cover almost all the records in the data source and in addition the overlapping of records should be low so that network utilization is reduced. An incremental crawl adds to an increase in the network utilization with every increment. Therefore, a reduced query set as described earlier should be used in order to minimize the network utilization. Our contributions in this work are the design of a probabilistic approach based incremental crawler to handle the dynamic changes of the surface web pages, adapting the above mentioned method with a modification to handle the dynamic changes in the deep web databases, a new evaluation measure called the ‘Crawl-hit rate’ to evaluate the efficiency of the incremental crawler in terms of the number of times the crawl is actually necessary in the predicted time and a semantic weighted set covering algorithm for reducing the queries so that the network cost is reduced for every increment of the crawl without any compromise in the number of records retrieved. The evaluation of incremental crawler shows a good improvement in the freshness of the databases and a good Crawl-hit rate (83 % for web pages and 81 % for deep web databases) with a lesser over head when compared to the baseline.  相似文献   

17.
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。  相似文献   

18.
To avoid returning irrelevant web pages for search engine results, technologies that match user queries to web pages have been widely developed. In this study, web pages for search engine results are classified as low-adjacence (each web page includes all query keywords) or high-adjacence (each web page includes some of the query keywords) sets. To match user queries with web pages using formal concept analysis (FCA), a concept lattice of the low-adjacence set is defined and the non-redundancy association rules defined by Zaki for the concept lattice are extended. OR- and AND-RULEs between non-query and query keywords are proposed and an algorithm and mining method for these rules are proposed for the concept lattice. The time complexity of the algorithm is polynomial. An example illustrates the basic steps of the algorithm. Experimental and real application results demonstrate that the algorithm is effective.  相似文献   

19.
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。  相似文献   

20.
传统PageRank算法仅仅通过网页链接结构来确定网页的PageRank值,这通常会导致主题漂移问题,即主题内容不相关的网页PageRank值较高。改进的PageRank算法根据链接的网页之间的内容相关性分配rank值,并且将网页的时间因素考虑在内,提高新的内容相关网页的rank值。实验结果证明,改进后的算法有效解决原算法的主题漂移问题,并使新网页在排序结果中上升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号