排序方式: 共有74条查询结果,搜索用时 15 毫秒
41.
决策树作为一种经典的分类算法,因其分类规则简单易懂被广泛应用于医学数据分析中.然而,医学数据的样本不平衡问题使得决策树算法的分类效果降低.数据重采样是目前解决样本不平衡问题的常见方法,通过改变样本分布提升少数类样本的分类性能.现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效.鉴于此,提出一种基于C4.5算法的混合采样算法.该算法以C4.5算法为迭代采样的评价准则控制过采样和欠采样的迭代过程,同时依据数据的不平衡比动态更新过采样的采样倍率,最终以投票机制组合多个弱分类器预测结果.通过在9组UCI数据集上的对比实验,表明所提出算法的有效性,同时算法也在稽留流产数据上实现了准确的预测. 相似文献
42.
随着共享经济的发展,对于高可信的分布式交易管理具有迫切的需求,然而,传统的中心化信息系统难以满足。区块链技术提供了一种共享账本机制,为构建可信的分布式交易管理奠定了基础。以支持智能合约的区块链2.0平台——以太坊平台作为基础框架,深入研究基于区块链技术的去中心化共享物品交易服务系统的运行机制与实现技术。设计了基于以太坊的去中心化物品共享交易服务系统框架,提出了基于智能合约机制的交易管理处理流程,详细描述了包括用户接口在内的系统实现技术,并对该系统在交易处理上的性能进行了实验测试。实验结果表明,基于以太坊的交易服务系统在保证交易数据可信性的基础上,平均交易处理速度为每秒21.7条,有索引查询速度为每秒117.6条,具有较高的运行效率。 相似文献
45.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现. 相似文献
47.
MapReduce集群中最大收益问题的研究 总被引:2,自引:0,他引:2
MapReduce是目前最为流行的用于大数据分析的并行系统之一.许多企业已经搭建了自己的MapReduce集群,为广大用户提供计算服务.用户可以向集群提交具有完成时限要求的MapReduce作业,若作业被按时完成,则企业可以获得一定的收益.针对这种应用场景,该文首次提出了MapReduce集群中的最大收益问题.为有效地解决该问题,首先提出了一种基于序列的任务调度策略(简称为SEQ策略),并证明了在处理具有完成时限约束的作业时SEQ策略存在优势.基于SEQ策略,该文提出了最大收益的调度算法(Scheduling Algorithm for Maximum Benefit,简称AMB算法),该算法可以快速地确定可接收作业,并给出有效的执行方案,以达到最大化收益的目的.另外,针对在实际应用中的某些异常情况(如节点宕机),该文也设计了有效的超时处理策略,进一步增加了算法的实用性.最后,通过大量的实验验证了该文所提出算法的有效性. 相似文献
48.
针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Base on Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型. 相似文献
49.
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 相似文献
50.
随着Internet的普及,各类社交网络走进人们的视野,用户为满足不同的服务需求,往往不会局限于单一社交网络中,因此,跨社交网络环境下的用户识别问题成为研究者的热门话题.主要利用网络结构信息,针对社交网络对齐问题进行研究,主要包含以下研究点:首先,将网络对齐问题抽象为最大公共子图问题(α-MCS),并提出求解自适应参数α的方法,相比于传统的基于启发式定义参数α的方法,该方法可有效区分不同类型网络中匹配用户与非匹配用户;其次,为快速而准确地解决α-MCS,提出了基于最大公共子图的迭代式网络对齐算法MCS_INA(α-MCS based iterative network alignment algorithm),该算法每次迭代过程主要包含两个阶段.第1个阶段,分别在两个社交网络中选取各自的候选匹配用户,第2个阶段,针对候选匹配用户进行识别.相比于其他算法,MCS_INA时间代价低,且依据不同网络特征,通过参数估计,可保证较高的识别精度;最后,在真实数据集和合成数据集中验证了算法MCS_INA的有效性. 相似文献