首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于中文分词的文本自动校对算法   总被引:1,自引:0,他引:1  
中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向.依据中文分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率.  相似文献   

2.
针对向量空间模型忽略词语出现位置和词序的缺点,结合科技文献结构明显分层的特点,本文提出了基于N层向量空间模型的文本相似度计算方法.该算法首先用N层向量空间模型表示查询短语和科技文献,其次在词频角度上和词序角度上分别计算两者间的相似度,最后得出整体的文本相似度.将本文算法应用于中、朝、英对照科技文献多语种检索模块测试其有效性,测试结果表明,本文设计的文本相似度计算方法算法性能较好,与传统的向量空间模型余弦相似度算法相比,查准率提高了2.7%,MRR提高了2.02%.  相似文献   

3.
针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题,提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码,获取句子的上下文语义特征;密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接,丰富句子的语义特征;基于注意力机制单词级的信息交互,将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合,使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估,与其他强基准模型相比,所提模型的文本匹配准确率显著提升,准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明,所提方法对句子语义相似度具有精准的匹配效果.  相似文献   

4.
基于潜在语义索引技术提出一种大容量文本的快速检索算法.首先,利用奇异值分解方法对向量空间模型进行改进,充分考虑词项之间的相关性,在低维空间中表示待检索文本的各个段落与查询文本;其次,利用随机分块查询算法,以查询文本和待检索文本各段落之间的余弦相似度作为适应度函数进行检索,输出相似度超过阈值的候选段落;最后,通过仿真实验验证了该方法的有效性.实验结果表明,该算法可以根据段落的语义进行文档的搜索,可以为查询大容量文档提供有效的手段.  相似文献   

5.
基于积分图运算的阈值分割将图像二值化,使用仿射变换完成文本字段图像的方向校正,从而实现文本行的定位.在原始卷积循环神经网络(CRNN)的基础上,将骨干网络替换成MobileNet-V3结构,在2层LSTM之间加入注意力机制,同时引入中心损失函数.利用改进的CRNN实现文本行字符的识别.将改进后的CRNN在40 510张芯片文本行图像上进行测试.通过小样本数据集进行模型微调训练得到多个子模型,从而实现集成推理,使用3个模型的综合识别准确率稳定在99.97%左右,单张芯片图像的总识别时间小于60 ms.实验结果表明,改进的CRNN算法的准确率比原始CRNN提升了大约27.48%,多模型集成推理的方法可以实现更高的准确率.  相似文献   

6.
针对信息化咨询中存在的咨询项目与专家匹配不科学、合理的问题,引入了本体语义相似度的概念。分析了基于点和基于边的2种语义相似度计算方法存在的不足,提出了一种混合的语义相似度计算方法。该方法的主要思想:将项目信息文档和专家信息文档转换为2棵本体概念树,通过计算2棵概念树之间的相似度判断项目与专家是否匹配。实例分析结果表明:该方法有效且准确率较高。  相似文献   

7.
中文自动校对系统的研究与实现   总被引:6,自引:0,他引:6  
提出了一种词匹配的语法分析相结合的中文文本自动校对法,采用规则与统计相结合的方法,不使用大规模语料库;而且根据原文的输入方式,用逆向最大匹配和局部语料统计的算法,找出散串,通过词匹配和语法分析处理散串,得到错误串的候选串,通过人机交互的方法对错误串进行自动校正。实验表明,系统的查错率达80%以上,误报率在5%左右,基本满足了应用要求。  相似文献   

8.
作为一种快速实现质谱分子匹配的方法,基于随机映射的质谱库搜索方法选取前几个匹配相似度最高的候选分子组成结果集,但由于缺乏准确的阈值设定依据,该方法容易丢失部分正确结果,致使识别率降低。针对该问题,采用统计学方法对随机映射质谱库搜索方法的结果集进行分析,发现:在匹配成功分子中,有96.60%的匹配相似度大于0.85;在非最高相似度匹配成功的分子中,有97.19%其所对应的相似度与最高相似度的差值不大于0.07。基于此,改进现有的基于随机映射质谱库搜索方法,提出一种更为精准的动态截取结果集提取法。实验结果表明:提出的方法可将现有方法的识别率提高1.89%,平均匹配准确率达98.60%,从而使分子的定性识别更为准确;算法的稳健性进一步提高。  相似文献   

9.
基于相似度计算的主观题阅卷系统设计   总被引:1,自引:0,他引:1  
网络在线考试以其高效性和公正性正逐步取代传统的考试方法,客观题评阅通过将标准答案和学生答案进行精确比较给出评分,而主观题由于其复杂性和多样性成为机器阅卷算法关键点和难点.简单的关键词匹配算法速度较快但准确率不高,本文采用向量空间模型来表示文本,通过计算文本之间的相似度来进行主观题评阅,并在系统中增加一些策略和规则,取得了较好的阅卷效果.  相似文献   

10.
传统的基于内容的三维模型检索的相似性度量方法主要借鉴二维图像检索中所采用的距离度量算法,达到比较两三维模型相似度的目的,该做法限制了模型间匹配的广度.针对这种单核匹配的限制,提出了一种新的多核匹配方法.利用图论中两点间的最短距离的思想,得出两模型最相似那他们的距离最短,因此查询样本跟匹配的样本存在的通路上的模型节点能影响他们的相似度,这样就提高了匹配的广度和精度.同时在已有的特征提取基础上,把标签繁衍算法应用到最短距离求解中,并将基于实例学习的K近邻方法引入到模型匹配算法中,实现了半监督学习,提高了系统的查准率.  相似文献   

11.
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chinese text proofreading is proposed. This model takes full account of the information located before and after the target word wi, and the relationship between un-neighboring words wi and wi in linguistic environment(LE). First,the word association degree between wi and wj is defined by using the distance-weighted factor, wi is l words apart from wi in the LE, then Bayes formula is used to calculate the LE related degree of word wi, and lastly, the LE related degree is taken as criterion to predict the reasonability of word wl that appears in context. Comparing the proposed model with the traditional n-gram in a Chinese text automatic error detection system, the experiments results show that the error detection recall rate and precision rate of the system have been improved.  相似文献   

12.
The positioning accuracy of a satellite image is mainly affected by the estimation accuracy of the rational polynomial coefficients (RPCs). Image point compensation or ground control point correction methods are usually used in the existing algorithms. Because the error characteristics of the design matrix elements are not considered, there are problems such as incomplete systematic error elimination and low parameter estimation accuracy. Considering the influence of the model systematic error, a heteroscedastic estimation method is proposed in this paper. First, the random model of matrix elements is established in the algorithm to describe the system characteristics more accurately. Taking into account the system deviations of the design matrix elements, the least square model is constructed using the Mahalanobis distance as the metric, and parameters are solved using the generalized eigenvalue method. The systematic error can be reduced theoretically. Experiment on different terrain images of TH-1 shows that the image correction accuracy of the proposed method is improved by more than 36 times compared with the traditional method, and the precision consistency is superior, which is of great significance to improving the accuracy of RPC parameters estimation and satellite imagery positioning.  相似文献   

13.
针对机械图样几何特征种类多、线条线型易混淆、人工制图风格多样导致校对效率低、误检、漏检等问题,提出基于迁移学习的机械制图智能评阅方法. 对机械图样进行预处理,采用改进的阀值迭代算法去除背景、噪点和干扰,完成图样图像的分割,提取机械图样的特征投影图像. 通过训练源领域图片的特征提取器,将特征提取器的网络权值迁移到机械图样评阅模型中,完成相似领域的知识迁移. 训练逻辑回归分类器,建立基于神经网络权重参数自适应的智能评阅模型,对几何特征、投影特征、图线、剖面符号等机械图样的制图标准要素进行识别. 实验结果表明,所提出的机械制图智能评阅方法具有较高的错误识别率和鲁棒性能,单个测试样本平均评阅时间为0.95 s,机械图样的平均评阅正确率为98.82%;与人工评阅相比,所提方法能够在提高评阅效率的同时具有较高准确率.  相似文献   

14.
天然气水合物的生成过程是一个多组分、多物态的系统,存在着复杂的结晶成核过程,需要考虑压力、温度、促进剂、搅拌速度等因素的影响,不但涉及动力学问题还涉及热力学问题,对其生成很难进行精确预测。基于支持向量机理论,结合实验数据,建立支持向量机预测模型来进行天然气水合物生成时的相平衡压力预测,采用平均平方误差、平方相关系数,以及平方绝对百分比误差和平均绝对误差等四种误差公式对预测精度进行评估, 结果分别为8.37008×10-5、99.8976%、0.5424%、1.9900%,还对源数据进行了归一化([1,2])预处理以及利用交叉验证方法对核参数g(4)和惩罚因子c(1.4142)进行了优化。模拟结果显示,由支持向量机预测模型得到的相平衡压力与实际实验获得的相平衡压力基本一致,预测效果较理想,证明该模型具有较高的准确性和可靠性。  相似文献   

15.
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源. 基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础. 过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失. 提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别. 所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测. 在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.  相似文献   

16.
针对目前语音语料人工标注效率低的问题,提出了一种朝鲜语连续语音语料的音节自动切分方法.该方法首先采用Seneff听觉模型提取音频的包络检测响应和广义同步检测响应等特征参数,其次结合朝鲜语发音特点确定音节的候选边界位置,最后通过静音段和摩擦音检测消除虚假边界,以提高边界检测的准确率.实验结果表明,该朝鲜语语音语料音节自动切分方法的准确率(93.56%)比传统的基于Seneff听觉模型的分割算法提高了14.59%,召回率(86.43%)比传统的基于Seneff听觉模型的分割算法降低了1.69%; 因此,本文算法总体优于传统的基于Seneff听觉模型的分割算法.  相似文献   

17.
为了将时钟门控技术应用于时序容错系统中,提出具备时序错误检测与自纠正能力的时钟门控单元.该单元通过监测内部虚拟节点电压变化,得到数据晚到信息;利用该监测信息可以重新打开时钟树网络,完成时钟被错误关断情形的当前周期自主现场纠错.给出容错时钟门控单元在现有的多种时钟门控技术中的适用性分析,讨论与之对应的纠错方案选择策略.基于SMIC 40 nm LL工艺库,仅新增12个额外的晶体管实现该单元,从原理图和版图2个层面,对其在宽电压工作下的容错能力进行分析验证,并给出集成到系统设计时所需的时序检查方法.将该单元应用于一款商用处理器C-SKY CK802物理设计中,实验结果表明系统能效相对于传统设计提高了64.7%,而时钟树功耗相对于现有的容错设计下降了32%.  相似文献   

18.
天然气长期负荷预测能够解决城市燃气供需不平衡的问题,为城市燃气公司的管理运行提供帮助。为了提高天然气长期负荷的预测精度,提出了基于SVM-GA(SupportVectorMachines-GeneticAlgorithm)的天然气长期负荷预测模型。分析确定影响天然气用气量的相关因素,应用遗传算法和交叉验证方法分别对支持向量机模型的惩罚因子c 及核函数参数g 进行优化,以期提高支持向量机模型的预测精度,将优化后的参数输入支持向量机模型中,进行天然气长期负荷预测。以某省实际的样本数据为例,将SVM-GA模型的预测结果与SVM 和交叉验证法结合模型及BP(BackPropagation)神经网络模型的预测结果进行比较分析。结果表明,SVM-GA 预测模型分别比SVM 和交叉验证法结合预测模型和BP神经网络模型在衡量预测精度的相对均方误差、归一化均方误差、归一化绝对平方误差、归一化均方根误差、最大绝对误差五个指标分别高0.58%、3.98%、2.99%、4.58%、8.64%和6.13%、26.28%、19.71%、21.09%、31.48%。因此支持向量机与遗传算法相结合的模型能够较准确地预测天然气长期负荷。  相似文献   

19.
MODIS大气可降水量(PWV)空间分辨率高但易受云雨等环境因素影响,精度不高.GNSS PWV空间分辨率较低但具有全天候、不受天气影响、精度高的优点.研究表明两者存在显著的线性相关性,结合两者的优点,基于GNSS PWV校正MODIS PWV可获取大面积高精度的PWV.针对传统的线性回归校正模型没有考虑云、气溶胶等的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号