首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于互联网数据做传染病监测是近年来的研究热点。针对百度指数、微指数在中国流感监测中的作用进行了比较和分析。相关性分析表明,相对于微指数,基于百度指数的关键词搜索数据与实际的流感流行的相关性更强,与流感的流行区间和峰值时间更相似,而且基于它们建立的回归模型能更准确地预测流感的流行。进一步,整合历史的流感流行数据能大大提高该回归模型的效果。因此,百度指数平台可以作为传统流感监测手段的一种有效补充。  相似文献   

2.
“职业举报人”团伙化、规模化、专业化、低龄化作案趋势日趋明显,政府部门对其识别大多采用人工鉴别的方法,造成了大量人力资源的浪费。采用Bootstrapping数据重采样技术,结合文本、时间和举报人属性等特征,在解决类不平衡数据的过拟合问题基础上,实现了“职业举报人”的准确识别。实验结果表明,相比过采样和欠采样技术而言,利用Bootstrapping重采样技术识别准确率更高,采用CFS方法结合BestFirst策略对数据特征进行优化,在保证精度的前提下能够实现更高的计算效率。以全国12358价格监管平台的真实数据为驱动,验证了方法的有效性,对比分析了“职业举报人”和正常消费者的投诉举报行为习惯差异。  相似文献   

3.
社区矫正人员的规范管理技术平台目前正处于研究阶段,由于实际数据的缺乏,用于构建用户画像的社区矫正人员用户标签生成准确性不够。故本文基于改进的Stacking模型融合算法,对某市司法局的社矫人员数据进行清洗、整理以及特征选择后,进行建模分析,进而得出社矫人员“认罪伏法态度”“对社会的心态”“心理健康状况”“矫正惩戒情况”4个标签的预测结果。通过将预测结果与实验结果对比,得到预测准确率,从而表明Stacking模型融合方法对社区矫正人员用户标签的生成具体有效性和准确性。  相似文献   

4.
徐雪松  舒俭 《计算机应用》2014,34(8):2285-2290
针对传统多模型数据集回归分析方法计算时间长、模型识别准确率低的问题,提出了一种新的启发式鲁棒回归分析方法。该方法模拟免疫系统聚类学习的原理,采用B细胞网络作为数据集的分类和存储工具,通过判断数据对模型的符合度进行分类,提高了数据分类的准确性,将模型集抽取过程分解成“聚类”“回归”“再聚类”的反复尝试过程,利用并行启发式搜索逼近模型集的解。仿真结果表明,所提方法回归分析时间明显少于传统算法,模型识别准确率明显高于传统算法。根据8模型数据集分析结果,传统算法中,效果最好的是基于RANSAC的逐次提取算法,其平均模型识别准确率为90.37%,需53.3947s;计算时间小于0.5s的传统算法,其准确率不足1%;所提算法仅需0.5094s,其准确率达到了98.25%。  相似文献   

5.
针对社保业务数据分散、大数据分析能力较低等问题,采用“云结构、积木式架构、容器技术、多级权限设计”构建智慧社保大数据分析平台的整体架构。该平台包含数据交换平台、基础计算平台、流程调度平台、管理分析平台和实时分析平台。采用OGG接口技术获取源系统中的增量数据,通过流程调度服务实现对各层数据和业务工作流的调用和管理。该平台已包括1960万人的基本信息,集成了社保的各项业务和服务,为“最多跑一次”助力。  相似文献   

6.
针对多工作日历下的流水作业调度问题,提出了一种遗传优化方法。首先,提出了基于多工作日历的时间推算方法,解决了多工作日历下流水作业调度的关键问题:以Excel为平台设计了“工作制”工作表和“设备”工作表,在“设备”工作表中为每台设备指定工作制并设定工作时段;在此基础上,以Excel VBA为平台设计了5个基于工作日历的时间推算函数。其次,以Excel VBA为平台设计了遗传算法用于求解问题:个体采用整数编码方式,交叉操作采用“交换交叉”方式,变异操作采用“交换变异”方式,解码过程采用基于多工作日历的时间推算方法准确计算各工序开工和完工时刻。最后,通过案例分析验证了所提方法的有效性。  相似文献   

7.
基于互联网数据的传染病疫情监测成为近年来传染病防治的热点研究内容。通过对2014年9月暴发的以广东省为中心的全国登革热疫情与登革热相关关键词的百度指数的关联性分析,发现地区(省、市)登革热疫情严重程度与该地区"登革热"关键词的百度指数呈很强的正相关性。为了实时地预测疫情动态,建立基于12个登革热相关关键词的百度指数的多元线性回归模型。在留一法交叉验证和反向测试中,该模型对于测试数据的预测值和实际值的皮尔森相关系数分别达到了0.89和0.73。经实验,该预测模型能够比较准确地预测登革热疫情动态,同时该研究对于基于互联网数据的传染病疫情监测和防治具有一定的指导意义。  相似文献   

8.
在教育信息化、全球化的大环境下,如MOOC、可汗学院、高校精品课程等在线教育平台应运而生,这些平台每年都会产生海量的学习活动和教学管理数据,如何有效地利用这些数据提升学生的学习效率已经成为在线教育面临的挑战之一。目前,对在线学习过程中影响学习效果的因素,研究者持有不同的态度。本文利用某高校在线教育平台数据,探索与验证在线教学过程中影响学习者学习效率的相关因素。首先对目前在线教育情况与分析技术进行说明,再结合统计与关联规则挖掘算法的特点,将数据预处理后,通过统计与Apriori关联分析算法进行分析,并将结果可视化呈现。分析发现,教师批阅作业所给出的平均成绩与教师批阅的作业量负相关;学生完成在线作业普遍具有“延迟性”;学习效果与登录次数、在线时间和在线讨论次数正相关。最后通过分析结果,给出在线学习过程中提高学生学习效果的建议。  相似文献   

9.
随着Web服务相关标准和技术的日趋成熟,基于服务质量(QoS)的Web服务推荐对用户体验起着决定性作用。如何准确预测Qos值是当今的研究热点。以往基于近邻或模型的协同过滤算法,采用的是“用户-服务”二维信息,预测的QoS值是静态的且精准性不高。将时间信息维度引入张量模型,建立“用户-服务-时间”的三维张量可使QoS预测值更加符合用户需求特点,用贝叶斯方法求解张量分解,引入概率意义下对于系统的解释和分析,提供一套先验概率引入先验知识的贝叶斯推断框架,提高了QoS预测的精确度。实验表明,使用该算法的预测结果较其他算法相比较有更小的平均绝对误差,很好地解决了数据稀疏度问题。  相似文献   

10.
搜索引擎结果的重排序方法   总被引:7,自引:0,他引:7  
杨广翔  俞宁  谌莉 《计算机应用》2005,25(2):305-308
当前Web搜索引擎返回的搜索结果一般是按“超链分析”进行排序的。采用词频统计、词分布特征量等方法对Web搜索引擎的搜索结果的关键词相关度进行计算,并重新对搜索结果排序,可以使得搜索结果中有关的页面文集更加集中。从而方便了信息的使用,特别是在对于特定内容的信息搜索时。  相似文献   

11.
为了更好地利用 CERN 数据管理与信息共享系统技术平台为广大科研人员提供 CERN 生态学数据资源服务,CERN 需要不断完善平台性能,其中包括提高用户搜索 CERN 数据资源的效率和可靠性.本文分析了导航式搜索、主题式搜索、关键词搜索等三种不同检索方式的优缺点,着重讨论了在关键词搜索方式中,如何引入叙词表的技术来提高检索结果的查全率、查准率和响应速度.本文介绍了叙词表的概念与 CERN 生态学叙词表的构建方法,以及如何将开源的叙词表管理系统 TemaTres 进行汉化,包括关键词浏览功能、关键词扩展功能、关键词自动填完功能、利用扩展后的关键词去搜索 CERN 生态学数据资源元数据功能的汉化实现过程.通过建设并运行 TemaTres 汉化版叙词表管理信息系统,增强了 CERN 生态学元数据中关键词编撰的可控性和规范性,并且在 CERN 数据资源元数据检索中引入了关键词之间的某些简单的语义关系,比如等级关系、等同关系 (即同义词)、相关关系,从而改善了搜索效率,同时为下一步构建生态学本体打下良好基础.  相似文献   

12.
刘志伟  邢永旭  于澔  李涛  张晓东 《软件学报》2019,30(5):1498-1509
在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求出发,且对用户的查询输入也有所限制,尚缺少一套针对企业级海量代码的检索与管理技术方案.提出了一套企业级海量数据代码搜索引擎的方案和系统实现,面向开发过程中用户最直接的需求,通过离线分析与在线分析,完成对海量代码库的索引构建与检索.其中,离线分析负责代码相关数据的获取与分析、构建索引集群.在线过程负责变换用户的query、对搜索的结果进行高级排序、生成摘要.本系统部署在百度代码库上,为数十TB级的Git代码库构建了索引,平均一次检索时间在1s之内.在百度推出应用以来,访问量逐步增加,现每周平均用户有数千人,每周查询平均有数万次,广受百度工程师好评.  相似文献   

13.
The existing solutions to keyword search in the cloud can be divided into two categories: searching on exact keywords and searching on error-tolerant keywords. An error-tolerant keyword search scheme permits to make searches on encrypted data with only an approximation of some keyword. The scheme is suitable to the case where users' searching input might not exactly match those pre-set keywords. In this paper, we first present a general framework for searching on error-tolerant keywords. Then we propose a concrete scheme, based on a fuzzy extractor, which is proved secure against an adaptive adversary under well-defined security definition. The scheme is suitable for all similarity metrics including Hamming distance, edit distance, and set difference. It does not require the user to construct or store anything in advance, other than the key used to calculate the trapdoor of keywords and the key to encrypt data documents. Thus, our scheme tremendously eases the users' burden. What is more, our scheme is able to transform the servers' searching for error-tolerant keywords on ciphertexts to the searching for exact keywords on plaintexts. The server can use any existing approaches of exact keywords search to search plaintexts on an index table.  相似文献   

14.
Baidu, the most popular Chinese search engine, monitors what their users are currently searching and provides top 50 search terms, called trending search terms, in descending order of popularity ranking. The paper focused on predicting the popularity ranking trends of this top trending search terms in Baidu. Based on the data analysis, two issues were identified that could affect accuracy of using the ranking data for predicting the popularity of trending searched terms. Firstly, all trending terms are disappeared from the top 50 terms list when the popularity is getting lower. However, there are several trending terms that reappear to the top 50 terms list after they disappeared. New distinct search terms can be differentiated from reappearances of old terms so we proposed the term distinction model by using the related news articles of a trending search term provided by Baidu. Secondly, it is necessary to handle the missing value when the term is out of the trending term list. To achieve the goal of this paper, we collected top 50 trending search terms from Baidu engine and its related news articles hourly for 6 months (from 1st March 2013 to 31th August 2013). Based on the proposed model, we found that the optimal disappearing interval can be 9 h, and using rank 51 for the missing values was the most successful. We conducted evaluations by using 3 months data (from 1st September 2013 to 30th November 2013), and four machine learning techniques where compared to evaluate the most accurate for predicting the popularity rank of trending search terms. Feed Forward Neural Network was achieved 78.81 % the most highest prediction accuracy, and achieved 85.55 % accuracy in ±3 error range.  相似文献   

15.
随着在线地图应用的普及,基于地图的空间对象检索成为一个重要的工具而被广泛使用,技术也比较成熟。人们在地图上经常进行确定性目标点查询,例如用户提交关键词“咖啡店”,地图应用会在地图上标记所有的咖啡店,用户还可以通过进一步操作获取咖啡店的详细信息。但实际生活中存在另一种需求,例如用户想找到一个区域,在这个区域内要有“咖啡店”、“学校”和“旅店”这三类对象,称这样的查询为不确定性区域检索查询。目前对地图应用的研究无法解决不确定性区域检索的问题。而利用矩形剪枝和top-k推荐能够通过用户提交的关键字,给用户返回若干候选区域。  相似文献   

16.
当前电商用户订单日志不断爆发式增加,日志行为数据亟需应用,在线用户订单量的快速动态预测成为研究的关键方向。为了提高订单量的预测精度,结合BP神经网络、基于Adaboost的BP神经网络和支持向量机的预测优点,提出一种基于融合网络搜索指数的组合预测模型,构建融合百度指数和电商用户订单信息的指标体系,并通过对比实验证明了网络搜索指数作为电商订单量组合预测模型影响因素的有效性。  相似文献   

17.
Similarity searching in medical image databases   总被引:3,自引:0,他引:3  
We propose a method to handle approximate searching by image content in medical image databases. Image content is represented by attributed relational graphs holding features of objects and relationships between objects. The method relies on the assumption that a fixed number of “labeled” or “expected” objects (e.g., “heart”, “lungs”, etc.) are common in all images of a given application domain in addition to a variable number of “unexpected” or “unlabeled” objects (e.g., “tumor”, “hematoma”, etc.). The method can answer queries by example, such as “find all X-rays that are similar to Smith's X-ray”. The stored images are mapped to points in a multidimensional space and are indexed using state-of-the-art database methods (R-trees). The proposed method has several desirable properties: (a) Database search is approximate, so that all images up to a prespecified degree of similarity (tolerance) are retrieved. (b) It has no “false dismissals” (i.e., all images qualifying query selection criteria are retrieved). (c) It is much faster than sequential scanning for searching in the main memory and on the disk (i.e., by up to an order of magnitude), thus scaling-up well for large databases  相似文献   

18.
4H-甲基咪唑苯二氮(?)酮(TIBO)类衍生物是抗爱滋病的一种新药,分子连接性指数是经证明应用广泛、较为成功的一种指数,本文定义并计算了TIBO类衍生物原子的特征值δi,利用量子化学计算方法,建构新的拓扑集成指数G和分子连接性指数mX,基于多元回归技术建立的对TIBO类衍生物药物的油水分配系数,作出精确估算和预测的定量结构-活性相关关系,得到的多元回归方程为:logP=0.782 G-0.1430X 0.2312X-3.829,估算的平均相对误差为2.53%。为了检验模型的稳定性和预测能力,做了留一法交互校验,预测平均相对误差为3.40%。该模型相关系数高,稳定性好,预测能力强。  相似文献   

19.
云计算的核心是在虚拟化技术的基础上,通过互联网技术为用户提供动态易扩展的计算资源。利用中心服务器的计算模式来管控网络上大量云资源使得中心服务器成为整个系统的瓶颈,不利于云计算的大规模应用,因此提出使用对等网络技术构建分布式的云资源索引存储和查询系统,但是结构化拓扑系统维护比较复杂,一般不支持复杂搜索条件查询。本文提出了一种多关键字云资源搜索算法。在基于分层超级节点的云资源搜索算法基础上进行路由算法改进,希望实现多关键字的精确查询。对多关键字的生成、分割及存储做出了详细说明,提出一种有效的基于数据集的索引搜索策略,实现了包含三个或三个以上的关键字高效、准确查询。分析实验结果证明了算法明显提高了资源搜索的命中率,尤其是随着关键字数目的增多,不仅保证了资源搜索的命中率,同时大大增加了资源的召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号