首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
随着知识图谱技术的兴起,利用金融事件大数据中的实体关系来构建金融事件的精准画像成为一个重要的研究方向.通过对金融事件大数据信息进行精准画像,人们可以详细分析金融事件大数据中的属性关系,全面了解金融事件的发展态势,从而分析金融市场发展趋势与规律.然而金融事件大数据存在文本数据噪音多、中文语义复杂以及实体关系抽取不准确等研究难点,导致金融事件大数据画像不精准.针对以上问题,提出一种基于多重注意力的金融事件大数据实体关系抽取算法(REMA)来进行实体关系的抽取,然后利用抽取的实体关系信息结合知识图谱技术进行金融事件大数据的精准画像.实验结果表明:在不使用外部资源的情况下,该算法在金融事件大数据中实体关系抽取的准确率、召回率以及F1值比其他对比算法均有所提升,其中准确率提升了5.6个百分点,召回率提升了4.6个百分点,F1值提升了5个百分点.  相似文献   

2.
为平衡电力资源的输送并发挥出电网调配电能的优势,对电网特征的全貌分析尤为关键。而目前电力大数据在运检维修等面向用户的研究居多,但面向设备特性的输电线路分析的研究上存在空白,而输电线路设备的状态又与用户、经济和环境等外部数据有着密切的联系。为此,本文综合考虑了输电线路设备内、外部影响因素,提出了一种结合了外部因素的输电线路画像模型构建的理论框架并得到了相应的画像模型,通过相关性分析确定了各因素与线路状态的影响程度并构建相关性矩阵,并利用多元因素分析法建立了相应的回归模型,最后通过画像分析技术将其相关性分析的结果进行具象化,形成可视化的输电线路设备画像,为电网规划、运维管理和决策服务提供可靠高效的数据支撑和分析依据。  相似文献   

3.
随着国民经济的发展,企业的数量不断增加。基于企业运营时产生的海量数据,可以利用大数据技术结合企业画像的理论来对企业进行全面分析,为企业成长、行业发展、政府监管等各方面提供可靠的数据分析。文中首先对当前国内外企业画像构建及其技术进行总结和分析,构建了基于大数据平台的企业画像标签体系模型和建模框架;然后根据企业数据的特点,结合比较热门的用户画像技术,提出了几种处理企业的数据方法;最后提出使用大数据技术处理企业数据时值得讨论的几个问题。  相似文献   

4.
随着移动阅读技术、自媒体技术、大数据技术的快速发展,数字阅读已逐渐成为当下最受欢迎的阅读方式。主要从如何构建多元化、个性化、共享化、互动性强的数字阅读平台,以及如何利用大数据技术和用户画像技术,生成"读者画像",为读者用户提供个性化服务等方面进行研究,从而有助于提高高校图书馆的资源利用率。  相似文献   

5.
针对复杂的网络攻击行为,以网站安全日志数据作为研究基础,构建一套基于黑客群体画像的预警模型.根据安全日志数据提取黑客的行为特征构建黑客画像;使用K-Medoide算法对黑客画像进行聚类,构建黑客群体画像,同时分析每个簇的主要特征,根据攻击手段给出相应的预防措施;设计一套基于黑客群体画像的预警模型.实验结果表明,簇数为8时聚类效果最佳,聚类模型响应准确率达到98.3%以上,验证了预警模型的可行性.  相似文献   

6.
从模仿到创新、从跟随到引领,不仅是现阶段我国科学技术发展需要完成的重大转变,更是国家发展的重大战略需求.近年来,国内外相关学者陆续开展了科技发展趋势分析和热点跟踪等方面的研究,但由于缺乏系统的大数据采集与治理体系,其数据分析与挖掘范围往往局限于科技文献这一单一数据样本.文中面向科技发展前瞻预测这一目标,全面分析了影响科学技术发展过程的各类科技文献、学者动态、论坛热点和社交评论等海量异构数据,通过构建数据驱动的大数据治理体系,解决科技大数据在探测发现、精准采集、清洗聚合、融合处理、模型构建、预测计算过程中的数据整治难题.同时,在大数据整治基础上采用LDA模型实现技术趋势预测与分析,研究成果为系统解决海量科技大数据中隐含信息发现和关系推理提供了技术支撑.  相似文献   

7.
以数据中台作为建设中小企业信息基础设施的新模式,并针对性构建轻量化中台,有益于统一管理数据资产,改善数据孤岛问题,提高企业部署大数据应用的能力;以用户画像这一典型大数据应用为切入点,归纳画像构建流程并与数据中台体系整合;以整合后的中台体系为基础,提炼必要的功能模块并从结构、技术栈、部署三个角度进行轻量化设计,从而提出面向用户画像且易于搭建和部署的轻量化数据中台方案;基于Hadoop生态组件搭建轻量化用户数据中台,并使用淘宝用户消费数据构建RFM模型下的用户价值标签,验证轻量化数据中台的可行性。  相似文献   

8.
本文介绍了福建省知识产权科技创新服务平台的主要建设内容,包括知识产权数据资源体系建设和应用功能体系建设,以及平台的体系结构.  相似文献   

9.
针对传统信息推送服务由于缺少对用户个人综合因素的考虑,存在针对性差、推广转化率低的问题,在大数据理论基础上提出了一种基于用户画像的智能信息推送方法。该方法将用户抽象为结构化信息本体,通过构建行为-主题、主题-词汇及行为-词汇三位一体的数学模型,研究基于用户画像的信息本体提取方法。采用包含对象、时间、地点、内容、行为和重返次数六方面内容的事件描述法计算本体权重,以此构建用户画像。设计了基于用户画像的智能信息推送系统,为大数据环境下面向用户的智能信息推送提供了一种新的方法。  相似文献   

10.
在信息社会,各行各业的管理控制转变为以数据、信息为中心。在高等教育领域,高校重视学生信息数据库的建设,通过学生浏览信息的关键词、种类分布和浏览主题等多个维度构建学生画像向量空间模型。本文使用大数据技术构建学生学习画像基础模型框架,研究学生学习画像在个性化学习、问题预警及辅助学校决策等方面的应用,为高校提升学生培养质量提供参考。  相似文献   

11.
科技成果数据呈现跨领域、跨学科特性,传统的信息查询检索技术已难以满足用户日益增长的智能化、精准化的科技成果信息获取需求。分析了知识图谱领域和信息检索领域的研究现状。采用网络爬虫从互联网中高效地爬取科技成果数据,利用实体识别和关系抽取技术识别和发现科技成果数据中的科技实体,构建科技成果知识图谱,并实现科技成果数据的结构化存储。基于ElasticSearch搜索引擎对科技实体构建高效索引,研究科技成果语义相似度计算方法,实现基于知识图谱的科技成果智能查询系统。实验结果验证了所构建的系统能够实现科技成果的高效查询以及相关主题内容的关联发现。  相似文献   

12.
随着我国科学技术的快速发展,中原城市群的信息化建设取得了较大进步,形成了具有地域特色的科技资源,但是总体而言,中原城市群科技服务资源分散,集成化不高,服务效率低,难以做到真正意义上的科技资源共享。为解决上述问题,本文研究数据抽取、处理、校验、标准化和融合技术。通过科技服务数据采集集成引擎,运用大数据整合技术,将分散独立的各类科技服务数据整合为一体;采用HBase列存储数据库和HDFS分布式文件系统存储不同类型数据,支撑结构化、半结构化、非结构化数据的并行处理,进而向平台提供数据检索、数据分析等各类数据服务,解决各类不同来源数据融合的问题,完成中原城市群科技服务资源池的架构设计,提高科技资源利用率,促进科技资源合理利用。  相似文献   

13.
We present an automatic approach to compile language resources for named entity recognition (NER) in Turkish by utilizing Wikipedia article titles. First, a subset of the article titles is annotated with the basic named entity types. This subset is then utilized as training data to automatically classify the remaining titles by employing the k-nearest neighbor algorithm, leading to the construction of a significant lexical resource set for Turkish NER. Experiments on different text genres are conducted after extending an existing NER system with the resources and the results obtained confirm that the resources contribute to NER on different genres.  相似文献   

14.
15.
以网络科技资源应用集成环境平台的研究和开发为背景,针对网络科技资源分布广、共享度低、资源信息形式多样、没有统一的标准等现状,对B/S模式下异构资源汇集与共享的需求进行了分析,提出了基于Web Services的异构资源汇集与共享系统的设计方案并实现。通过该系统可有效的实现国家科技基础条件平台的科技资源汇集,在统一的元数据规范下,对所汇集的科技资源形成统一的存储形式并进行目录管理;使国家各领域平台的科技资源能够快速、准确、高效地被整合利用,以适应国家科技基础条件平台资源应用服务集成的需求,提升网络科技服务系统的技术水平,扩大应用范围,增强服务效能。  相似文献   

16.
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法.首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题.然后,将双向长短...  相似文献   

17.
针对残疾信息化建设中存在的“信息孤岛”现象,该文提出基于天地图建设残联业务综合展示平台。该平台以残疾人基本信息为中心框架,在全面梳理残疾人基础数据库管理系统、业务系统和统计台帐系统的各类信息资源的基础上,对数据进行有效整合,建立统一的信息资源库,为领导决策、综合业务管理和公众信息服务提供强有力的数据支持。  相似文献   

18.
由于电力通信过程中部分信息资源具有动态性特征,无法精准捕获有效数据,导致资源管理系统无法及时录入数据,为此设计了一种支持动态获取资源配置信息的电力通信资源管理系统.首先根据电力通信资源管理系统的特征构建逻辑拓扑结构模型,引入CORBA技术以及SOCKET套接字技术,构建管理系统的信息转发模型及信息传播状态函数,进行有关资源的自动更新,实现信息的动态获取,最后根据映射关系进行是自适应匹配,获取合理数据来源,绘制机架图,完成电力通信资源管理系统的设计.经实验分析可知,本研究所提设计系统在录入动态信息或数据时,具有较高的录入准确性,并有效降低所需时长.  相似文献   

19.
数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。  相似文献   

20.
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1 115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号