共查询到20条相似文献,搜索用时 0 毫秒
1.
针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结合BLSTM和CRF(Conditional Random Fields)对中文简历进行解析(BLSTM-CRF)。为了提高中文简历解析的效率,级联包含字序列信息的词向量和用Word2Vec生成的词向量,融合成一个新的词向量表示;再由BLSTM强大的学习能力融合词的上下文信息,输出所有可能标签序列的分值给CRF层;再由CRF引入标签之间约束关系求解最优序列。利用梯度下降算法训练神经网络,使用预先训练的词向量和Dropout优化神经网络,最终完成对中文简历的解析工作。实验结果表明,所提的特征融合方法优于传统的简历解析方法。 相似文献
2.
在非结构化overlay中,由于底层物理网络和overlay的拓扑失配问题,产生了大量冗余网络负载。为了降低负载,提出了基于位置信息的方法动态构造overlay。通过分布部署用于维护已加入网络的节点信息的infoNode,在不引入较大冗余网络负载的情况下,能够较好地解决拓扑失配问题。实验表明,基于网络测量的方法能显著降低网络负载和查询响应时间。 相似文献
3.
非结构化数据的信息服务系统设计方法 总被引:6,自引:0,他引:6
1概述 信息服务系统是指在 Internet上,以 Intemet/Intranet技术为基础,向广大用户提供丰富而实用的信息的网络服务系统。它以信息内容为中心,以提供完善的信息服务为宗旨,通过网络来满足用户的信息需求。 信息服务系统是以信息内容为中心,表现为一大批各种各样文档和数据。在没有使用数据库的信息服务系统中,只有非结构化的数据存在。它的设计过程如图1所示。下面以海事信息网站的部分数据为例,说明非结构化数据的信息服务系统的设计过程。2超文本概念设计 超文本概念设计的目标是描述应用领域的信息内… 相似文献
4.
在日常生活中,中文组织机构名简称被广泛使用。作为新词的重要来源之一,简称的识别和生成已成为自然语言处理领域研究的重点之一。分析中文组织机构名简称生成的特点,提出一种基于中文分词信息的组织机构名简称生成方法,并使用条件随机场建立自动生成模型。采用上海组织机构简称实际数据的实验结果,其Top-5的覆盖率达到了96.34%。 相似文献
5.
6.
介绍了数据脱敏技术的相关信息,提出了利用BERT预训练语言模型结合Transformer编码器和条件随机场等人工智能技术处理文字、音频、图像、视频中敏感信息的方法,为解决数据安全和数据共享之间的矛盾提供了思路。 相似文献
7.
8.
非结构化数据是大型企业的宝贵数据资产,其基本特征是数据格式多样、数据存储分散、数据总量大、增长速度快,蕴含有提升企业管理水平的大量重要信息.非结构化数据的统一存储、集中管理与深化应用是当今大型企业信息化建设的重要方向之一.文章从非结构化数据和结构化数据的特点、可行性分析,以及对非结构化数据的重要模块语义分析建模及其优化从而高校提炼出结构化信息几个方面来讲述非结构数据的特点.从而为企业解决非结构化数据的集中存储、有效利用等技术难题,提高企业的管理. 相似文献
9.
非结构化产品信息的分布式模型研究 总被引:9,自引:0,他引:9
以CIMS为代表的先进制造技术要求与适应的产品信息模型的支持。产品信息包含结构化和非结构化两种形式。非结构化产品模型往往建立在异构环境之上,无法抽象成单一的数据库的模式。目前对非结构化产品信息还没有形成合适的表达模型和相应的操作模型。提出的一个基于企业级异构环境下的非结构化产品信息的分布式模型,以SGML/XML标准表达非结构化产品信息,其操作模型能在常规Web/INTERNET环境下方便地访问信 相似文献
10.
非结构化数据存储管理的实用化方法 总被引:2,自引:0,他引:2
针对目前广泛采用的非结构化数据文件与其属性数据分开存储的机制中的不安全性问题,本文从实用化角度给出一个“监控”策略和实现方法,通过软件实现可以约束非法的或意外的对非结构化数据源文件的破坏,并且保证了源文件与其在数据库中的索引的一致性。 相似文献
11.
为有效识别科技人物简历中研究领域信息,对部分时间和单位信息精准分类,提出一种基于字词协同的深度学习序列标注模型与梯度提升决策树模型相结合的科技人物简历信息抽取方法.利用字词协同的双向LSTM-CRF模型对科技人物简历文本进行初步解析,在此基础上使用梯度提升决策树模型实现对时间和单位信息的分类矫正.实验结果表明,该方法能够准确获取研究领域信息的关键特征,有效结合序列标注模型与分类模型的优点,对科技人物简历信息识别的F1值达到91.84%. 相似文献
12.
13.
为了解决传统数据存储方法存在的内存消耗过大、读取效率低等多种问题,提出了基于MapReduce模型的非结构化数据分布式存储方法。设计了非结构化数据垂直分片与水平分片方案,并采用聚类算法对分片处理后的非结构化数据进行聚簇处理,在此基础上构建用于数据分布式存储的MapReduce模型,得到非结构化数据分布式存储结果。实验测试结果表明,与传统非结构化数据存储方法相比,研究方法的内存消耗更小、写入量更大、读取效率更高、访问频率动态调节性能好,由此证明该方法的存储性能更优越,实际应用效果更好。 相似文献
14.
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。 相似文献
15.
复杂装备制造企业的售后配件需求不定时发生、需求波动大,导致需求数据呈现典型的间歇性、小样本特点.当面对间歇性程度高、突发需求较大的序列时,现有预测模型难以准确捕获其需求波动规律,无法有效预测配件需求走势.为提高多组配件的预测精度和稳定性,同时考虑序列间结构化信息和序列自身时序演化信息,提出一种新的多变量间歇性时间序列预测方法.首先,提出一种基于张量的轻型梯度提升机模型,通过张量分解,重构原始需求数据,修正序列中的异常需求值,并利用轻型梯度提升机对多组序列进行联合预测;然后,构建一种新的线性衰减修正模型,将修正因子引入线性衰减指数平滑方法,对每条序列分别预测需求量和间隔区间;最后,将2个预测模型进行加权融合,得到最终预测结果.分别在2个复杂装备制造企业的售后配件需求数据集上进行实验验证,实验结果表明,与多个时间序列预测算法相比,所提出方法能够有效预测需求波动趋势,提升预测精度和数值稳定性. 相似文献
16.
目前非结构化的P2P网络系统中,一般以广播方式作为其搜索的基本策略,引发较大的网络流量。因此,提出改进的搜索策略,根据历史查询记录,为每个节点建立朋友节点,同时又在搜索过程中把节点划分为超级节点和普通节点。实验表明改进算法提高了搜索效率,同时减少了网络信息流量。 相似文献
17.
维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。 相似文献
18.
一种面向非结构化信息的知识获取框架 总被引:1,自引:0,他引:1
在文本、图片、音频等非结构化信息中蕴含着大量的知识,如何从海量非结构化信息中,自动获取这些知识是一个亟待解决的问题。该文提出一种非结构化信息知识获取框架KAFUI,该框架以非结构化信息管理架构UIMA为基础,支持异构的非结构化信息资源的接入,可整合和复用多种分析引擎,分析结果中标注了非结构化信息中的实体及其关系,这些实体和关系,进一步转换为以OWL描述的知识,并可通过推理发现新的事实。该框架的原型已在实际场景中应用,其实验情况表明是可行而有效的。 相似文献
19.
基于XML的非结构化文本数据转换研究与实现 总被引:1,自引:0,他引:1
采用XML作为存储数据的中间过程,通过两次调用Java程序,使非结构化的数据结构化因为XML作为一种半结构化的语言,适合数据存储与数据转换 而Java程序可以让基于XML的非结构化数据转换成结构化的数据,使其完全的结构化.使用该Java程序,可以完成类似的非结构化数据的转换工作. 相似文献
20.
本文针对广义区间系统的参数不确定性,将参数不确定性确定为随机非结构化参数形式,提出一种卡尔曼形式的递推鲁棒滤波算法.研究表明,滤波过程中的随机非结构化参数不确定性可以表示为一系列依赖系统真实状态的不确定性集合,数值仿真结果表明,当广义区间系统参数存在随机非结构化不确定性时,该算法能够实现递推状态估计,从而验证了该算法的有效性. 相似文献