首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。  相似文献   

2.
绿色建筑和建筑节能是建筑行业可持续发展的重要因素,然而建筑信息模型(BIM) 软件种类繁多、数据标准各异、软件之间的数据传递经常丢失信息。为解决不同软件之间的“信 息孤岛”问题和互操作性问题,分析了基于工业基础类标准(IFC)和gbXML 标准的绿色建筑模型 的结构框架,选取BIM 建模软件ArchiCAD 和绿色建筑性能分析软件Ecotec,对基于IFC 和 gbXML 标准的软件之间的互操作性进行了测试和评估,确定了建筑信息模型在交互过程中的问 题。针对相关问题本文提出了减少IFC 标准中的信息冗余、提高IFC 标准领域层对绿色建筑信 息的支持、提高资源层对相关信息定义的针对性等建议。  相似文献   

3.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。  相似文献   

4.
夏飞  陈帅琦  华珉  蒋碧鸿 《计算机应用》2023,(12):3711-3718
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT (Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合机制将词特征直接融入BERT模型,使模型更有效地利用外部知识;其次,通过引入DEEPNORM方法提高模型对于特征的提取能力,并使用贝叶斯信息准则(BIC)确定模型的最佳深度,使BERT模型稳定加深至40层;最后,采用ProbSparse自注意力机制层替换BERT模型中的经典自注意力机制层,并利用粒子群优化(PSO)算法确定采样因子的最优值,在降低模型复杂度的同时确保模型性能不变。在人工标注的电力领域专利文本数据集上进行了分词性能测试。实验结果表明,所提方法在该数据集分词任务中的F1值达到了92.87%,相较于隐马尔可夫模型(HMM)、多标准分词模型METASEG(pre-training model with META learning for Chinese word SEGmentation)与词典增...  相似文献   

5.
谢斌红  秦耀龙  张英俊 《计算机工程》2022,48(3):244-252+262
在场景文本检测领域,存在由于文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况。针对上述问题,提出一种基于学习主动中心轮廓模型的场景文本检测网络。在残差网络ResNet的基础上构建多尺度特征权重融合模型,对输入的场景文本图片进行多尺度特征提取和权重融合,并计算出最终的特征融合图,适应场景文本长宽比变化较大的情况。在此基础上,将融合后的特征图输入到学习主动中心轮廓模型预测文本框的中心点和边界,该模型为场景文本检测提供丰富先验知识,以解决多尺度文本检测框包含过多背景或部分包围文本造成的边界检测错误问题。在MSRA-TD500、IC13、IC15和IC17MLT数据集上的实验结果表明,该网络能够提高多尺度场景文本检测的准确率,其中在MSRA-TD50数据集上F-measure为0.83,相较于MSR方法提升1%,在IC13数据集上F-measure为0.91,相较于PixelLink网络提升2%,在IC15数据集上F-measure值为0.87,相较于PSENet网络提升1%,在IC17MLT数据集上F-measure值为0.74,相较于TridentNet网络提升1%。  相似文献   

6.
为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。  相似文献   

7.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

8.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

9.
BIM技术是建筑行业发展中产生的一种有效的数字化信息模型技术,应用于建筑工程建设中,可以辅助工程设计、工程施工、工程运维等。应用BIM技术,可以实现建筑结构设计的可视化、分析建筑结构性能以及复杂的钢结构节点设计。BIM技术的有效应用,对于建筑领域良好发展起到促进作用,在建筑设计中,需要有效利用BIM技术,不断地进行调整,使建筑工程能在现代化社会中得到进一步的提升,推动建筑领域持续健康发展,贯彻落实科学发展观的理念。  相似文献   

10.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

11.
自动从点云数据生成建筑信息模型(BIM)一直是建筑自动化领域的研究热点。基于 传统算法的建筑自动三维重建的缺点包括人工设计特征,识别过程复杂,应用场景有限等。随 着三维机器学习领域的不断成熟,处理点云便有了新的手段。通过引入实例分割中的 ASIS 网 络框架对点云进行处理,即从扫描点云场景中自动分割和分类建筑构建元素并得到实例分割矩 阵。接着,基于包围盒假设从得到的实例分割矩阵中提取建筑构件外轮廓参数,并将外轮廓参 数和分割的语义分类结果作为 BIM 建模的构件参数。最后,将这些提取的构件参数输入到自制 的 IFC 生成器中,自动生成基于工业基础类(IFC)标准的 BIM 模型。实验表明,利用无噪点点 云方法,可实现基于曼哈顿世界假设下的室内单房间的三维重建。  相似文献   

12.
边根庆  陈蔚韬 《图学学报》2021,42(5):823-832
针对当前工业基础类(IFC)标准文件与 WebGL 框架集成方案存在模型语义完整性差及数据互操 性弱等问题,提出一套建筑信息模型(BIM)数据网络可视化实施方案。该方案以 IFC 标准文件作为输入数据源, 首先对 BIM 模型进行重构,并提出基于 IFC 结构树的构件实例层次拆分策略将原始 IFC 文件实施数模分离; 然后,将重构后的 IFC 模型文件向 glTF 格式文件进行转换,并在转换过程中完成几何空间和语义属性的双重 关系映射;最后,提出基于层次包围体(BVH)结构的 BS-AB 场景构件可视性检测算法对建筑构件进行可见性剔 除。实验结果表明:该方法能够显著减少 BIM 模型数据冗余,且高效完成了对复杂 BIM 场景不可见构件的剔 除工作,降低了渲染管线的开销,为基于 IFC 标准与 WebGL 框架集成方案的 BIM 模型数据网络可视化提供了 一种可行的参考方案。  相似文献   

13.
针对从业者不论是想从本地模型库还是线上共享网站获取所需的BIM 模型只能靠 逐个查找、人工识读的方法,而模型的数量越来越多,获取符合需求的模型需要花费大量的时 间和人力的问题,提出了一种构件级BIM 模型相似度计算方法。从模型的构件出发,以BIM 通用交互格式工业基础类(IFC)文件作数据源,以通用数据标准IFC 2×3 为数据基础,首先提取 模型中构件的几何信息、语义信息等,并利用改进的方向包围盒(OBB)碰撞检测算法查找相连 构件;然后以构件为顶点、构件间连接关系为边将BIM 模型构建为邻接图模型,并用图编辑距 离算法计算邻接图模型的编辑距离;最后即可计算出不同模型之间的相似度。该方法以构件级 BIM 模型的相似度为依据可以大大提升BIM 模型的检索速度与准确率。  相似文献   

14.
在建筑的施工和运维管理过程中,存在大量的传感器采集的数据,但是这些数据 存于各自的监测系统中,产生“信息孤岛”局面,难以对其进一步的融合分析,使其产生更大的 价值。建筑信息模型(BIM)技术支持将传感器数据与工程数据集成管理和应用,但是面向BIM 存储的工业基础类国际标准(IFC)对传感器数据的定义和描述仍有缺陷。为此,提出了基于IFC 的传感器信息存储方法与应用流程,分析了IFC 中与传感器有关的信息描述和关联机制,进而 通过自定义属性集的方式扩展了IFC标准,最后以北京槐房再生水厂项目为应用案例验证了IFC 扩展内容的有效性。  相似文献   

15.
朱慧娴  徐照 《图学学报》2021,42(2):289-298
为顺应国家建筑产业化、智能化发展的政策引导,针对当前装配式建筑专业信息缺乏关联、模 型利用不充分、数据传递效率低下等问题,提出基于建筑信息模型(BIM)技术的自上而下设计方法。以装配式 建筑的设计阶段为切入点,详细阐述了基于 BIM 技术的装配式建筑自上而下设计流程。结合装配式建筑的标 准化构件设计和组装特点,提出一种基于自上而下设计的装配模型,并从层级和专业 2 个角度描述了模型的架 构。针对各专业模型传递时的数据信息标准化、一致性问题,通过工业基础类(IFC)标准对装配模型进行实体和 属性集的扩展,提出基于 IFC 标准的各专业、各阶段的自上而下设计信息协同。经实例验证了 IFC 扩展装配模 型的自上而下设计可行性,为装配式建筑的协同设计提供了有益的方法借鉴。  相似文献   

16.
针对建筑信息模型(Building Information Model,BIM)的共享数据标准为IFC标准,但现有软件导出的IFC格式模型缺少关键数据,不能满足结构非线性抗震分析数据需求的问题,提出建筑抗震弹塑性分析数据基于IFC标准的表达方法,编写C++转换程序将BIM包含的数据正确地转换成不同软件(如Marc和OpenSees等)的模型,从而可以使用不同的结构分析软件实现建筑抗震弹塑性分析.该方法为基于BIM数据实现建筑抗震弹塑性分析提供参考.  相似文献   

17.
绿色建筑评价涉及异构、分散的多专业信息,当前尚无面向我国绿色建筑评价的 BIM 软件,也未形成支持我国绿色建筑评价的信息模型。因此,通过分析我国绿色建筑评价标 准,提取了支持我国绿色建筑评价的有关信息需求,并分析了开放BIM 标准IFC 对我国绿色建 筑评价标准各信息需求的描述和支持能力,对建立和完善面向我国绿色建筑评价的信息模型、 编制相关信息交付标准、研发绿色建筑评价BIM 软件工具具有借鉴指导意义。  相似文献   

18.
一种基于字词联合解码的中文分词方法   总被引:9,自引:1,他引:8  
宋彦  蔡东风  张桂平  赵海 《软件学报》2009,20(9):2366-2375
近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.  相似文献   

19.
在分词模型跨领域分词时,其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型,然后利用领域词典对分词结果进行逆向最大匹配的校正。实验结果表明,在军队遗留系统相关文档语料上,该方法训练的分词模型将F值提高了12.4%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号