排序方式: 共有20条查询结果,搜索用时 15 毫秒
1.
2.
针对目前冲突数据源的质量评价模型仅考虑了准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,定义合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况. 相似文献
3.
由于法院数字档案的信息化尚没有比较具体的国家标准,导致目前市场上的法院档案数字化软件各行其是,软件设计千差万别。在数年开发法院数字档案管理系统的基础上,通过对相关资料的分析,采用rationalrose软件设计出法院诉讼档案的领域模型,为法院数字档案的开发提供支持。 相似文献
4.
以上海徐汇滨江恒基H-2地块发展项目工程为背景,阐述了紧邻龙耀路越江隧道的深基坑混凝土支撑的拆除过程,在充分考虑拆撑对龙耀路越江隧道变形的影响因素后,采用优化拆撑、换撑施工工艺,并选用了以静力无损切割技术为主、配合人工风镐及镐头机为辅的拆除方案。基坑监测结果显示,采用静力无损切割技术相比镐头机拆除技术,减少了拆撑对基坑及周边环境的影响,可为类似工程施工提供参考。 相似文献
5.
6.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类. 相似文献
7.
在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。 相似文献
8.
1.概述深圳R4创新大厦(又名深圳虚拟大学园)多功能国际会议厅为椭圆锥台形,共两层,标高错综复杂,有5.4m、6.4m、8.4m;屋面为向内倾斜屋面,屋面高处标高为12.46m,屋面低处标高为11.07m,屋檐为外斜挑板,挑出宽度四周都不一致。±0.00m标高处长轴半径为13.375m、短轴半径为10.4m,11.79m标高处长轴半径为10.22m,短轴半径为8.341m。结构由剪力墙和框架两部分组成,以短轴为界,与主楼连接的一半为剪力墙结构,墙厚250mm;另外一半为框架结构,由两根800斜圆柱组成。剪力墙端部各有一根600×1500的斜柱,中间有两根三角柱。长短轴方向向内收的比例也… 相似文献
9.
针对目前冲突数据源的质量评价模型仅考虑准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,并定义了合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出了基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况. 相似文献
10.
针对来源于多个业务系统的重复主数据影响主数据质量、主数据同步及主数据挖掘等问题,提出重复主数据检测算法fastCdrDetection。从数据可信度的角度出发,在考虑数据源可信度、数据最后更新时间及数据长度的基础上,建立主数据可信度模型,并实现可信记录生成算法。设计非递归的字符串相似度计算算法FiledMatch,解决了由中文简写、缩写、错误拼写造成的主数据重复问题,采用sourceKeys算法对来源于同一业务系统、具有同样业务主键的重复记录进行预处理,从而提高重复主数据检测效率。通过对某电网基建物资63万余条供应商存量数据及23万余条模拟数据进行实验,结果表明,与PQS算法相比,fastCdrDetection算法的召回率由74%提高到88%,准确率由61%提高到95%,证明了算法的有效性。 相似文献