首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1 损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4 数据集上的实验数据显示,基于改进的F1 损失函数所产生的识别结果优于Hamming 损失函数,各种类型组块识别的总的F1 值为91.61%,优于CRFs(conditional random fields)和SVMs 方法.  相似文献   

2.
基于CRFs模型的敏感话题识别研究   总被引:1,自引:0,他引:1  
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。  相似文献   

3.
本文讨论了动态矩形交查询算法.文中介绍了两个半动态矩形查询的新算法,它们分别基于一维数据结构和二维数据结构.一维查询算法的查询时间复杂度是O(logMk′),更新时间复杂度是O(logMlogn),空间复杂度是OnlogM/).二维查询算法的查询时间复杂度是O(log2Mk),更新时间复杂度是O(log2Mlogn),空间复杂度是Onlog2M).本文分别实现了这两个算法,通过对它们的性能进行比较,发现一维查询算法是一种高效、实用的算法.  相似文献   

4.
针对目前光学字符识别技术(OCR)较难实现对中文文献中的数学公式进行识别,提出一种改进算法来解决印刷体内嵌数学公式的识别问题。通过添加新的特征值进行文本行分类,对内嵌公式行按字符逐一分割,再从分类后的文本行中依次提取出数学公式。实验结果表明,该算法具有识别率高、高效特点,与现有同类算法比较,在解决中文印刷体的数学公式识别问题方面的优势明显。  相似文献   

5.
目的 针对红外与可见光图像融合时易产生边缘细节信息丢失、融合结果有光晕伪影等问题,同时为充分获取多源图像的重要特征,将各向异性导向滤波和相位一致性结合,提出一种红外与可见光图像融合算法。方法 首先,采用各向异性导向滤波从源图像获得包含大尺度变化的基础图和包含小尺度细节的系列细节图;其次,利用相位一致性和高斯滤波计算显著图,进而通过对比像素显著性得到初始权重二值图,再利用各向异性导向滤波优化权重图,达到去除噪声和抑制光晕伪影;最后,通过图像重构得到融合结果。结果 从主客观两个方面,将所提方法与卷积神经网络(convolutional neural network,CNN)、双树复小波变换(dual-tree complex wavelet transform,DTCWT)、导向滤波(guided filtering,GFF)和各向异性扩散(anisotropic diffusion,ADF)等4种经典红外与可见光融合方法在TNO公开数据集上进行实验对比。主观分析上,所提算法结果在边缘细节、背景保存和目标完整度等方面均优于其他4种方法;客观分析上,选取互信息(mutual information,MI)、边缘信息保持度(degree of edge information,QAB/F)、熵(entropy,EN)和基于梯度的特征互信息(gradient based feature mutual information,FMI_gradient)等4种图像质量评价指数进行综合评价。相较于其他4种方法,本文算法的各项指标均有一定幅度的提高,MI平均值较GFF提高了21.67%,QAB/F平均值较CNN提高了20.21%,EN平均值较CNN提高了5.69%,FMI_gradient平均值较GFF提高了3.14%。结论 本文基于各向异性导向滤波融合算法可解决原始导向滤波存在的细节"光晕"问题,有效抑制融合结果中伪影的产生,同时具有尺度感知特性,能更好保留源图像的边缘细节信息和背景信息,提高了融合结果的准确性。  相似文献   

6.
为提高双滤波器结构(Dual filter structure, DFS)一级滤波器W1k)的收敛速度,本文提出一种改进的Haar子带变换(Partial Haar transform, PHT)算法。新算法先对W1k)的输入信号进行PHT变换以压缩滤波器长度;然后通过优化收敛步长使后验误差最小化以提高收敛速度;最后通过分时保存、维护算法的归一化因子以降低算法计算复杂度。通过提高W1k)的收敛速度,新算法可以更少的迭代次数获得稳定的延时估计,从而提高DFS的整体收敛速度。以回声消除为应用背景对新算法进行实验仿真,实验结果表明新算法性能显著优于其他传统的自适应算法。  相似文献   

7.
目的 人体行为识别在视频监控、环境辅助生活、人机交互和智能驾驶等领域展现出了极其广泛的应用前景。由于目标物体遮挡、视频背景阴影、光照变化、视角变化、多尺度变化、人的衣服和外观变化等问题,使得对视频的处理与分析变得非常困难。为此,本文利用时间序列正反演构造基于张量的线性动态模型,估计模型的参数作为动作序列描述符,构造更加完备的观测矩阵。方法 首先从深度图像提取人体关节点,建立张量形式的人体骨骼正反向序列。然后利用基于张量的线性动态系统和Tucker分解学习参数元组(AF,AI,C),其中C表示人体骨架信息的空间信息,AFAI分别描述正向和反向时间序列的动态性。通过参数元组构造观测矩阵,一个动作就可以表示为观测矩阵的子空间,对应着格拉斯曼流形上的一点。最后通过在格拉斯曼流形上进行字典学习和稀疏编码完成动作识别。结果 实验结果表明,在MSR-Action 3D数据集上,该算法比Eigenjoints算法高13.55%,比局部切从支持向量机(LTBSVM)算法高2.79%,比基于张量的线性动态系统(tLDS)算法高1%。在UT-Kinect数据集上,该算法的行为识别率比LTBSVM算法高5.8%,比tLDS算法高1.3%。结论 通过大量实验评估,验证了基于时间序列正反演构造出来的tLDS模型很好地解决了上述问题,提高了人体动作识别率。  相似文献   

8.
实体关系联合抽取旨在从文本中抽取出实体关系三元组, 是构建知识图谱十分重要的步骤之一. 针对实体关系抽取中存在的信息表达能力不强、泛化能力较差、实体重叠和关系冗余等问题, 提出了一种实体关系联合抽取模型RGPNRE. 使用RoBERTa预训练模型作为编码器, 提高了模型的表达信息能力. 在训练过程中引入了对抗训练, 提升了模型的泛化能力. 使用全局指针, 解决了实体重叠的问题. 使用关系预测, 排除不可能的关系, 减少了冗余的关系. 在基于schema的中文医学信息抽取数据集CMeIE上进行的实体关系抽取实验表明, 模型的F1值比基准模型提升了约2个百分点, 在实体对重叠的情况下, 模型的F1值提升了近10个百分点, 在单一实体重叠情况下, 模型的F1值提升了大约1个百分点, 说明该模型能够更准确地提取实体关系三元组, 从而有效提升知识图谱构建的准确度. 在含有1–5个三元组的对比实验中, 在拥有4个三元组的句子中, 模型的F1值提升了约2个百分点, 而在拥有5个及以上三元组的复杂句子中, F1值提升了约1个百分点, 说明该模型能够较好地处理复杂句子场景.  相似文献   

9.
冯朔  申德荣  聂铁铮  寇月  于戈 《软件学报》2019,30(7):2175-2187
随着Internet的普及,各类社交网络走进人们的视野,用户为满足不同的服务需求,往往不会局限于单一社交网络中,因此,跨社交网络环境下的用户识别问题成为研究者的热门话题.主要利用网络结构信息,针对社交网络对齐问题进行研究,主要包含以下研究点:首先,将网络对齐问题抽象为最大公共子图问题(α-MCS),并提出求解自适应参数α的方法,相比于传统的基于启发式定义参数α的方法,该方法可有效区分不同类型网络中匹配用户与非匹配用户;其次,为快速而准确地解决α-MCS,提出了基于最大公共子图的迭代式网络对齐算法MCS_INA(α-MCS based iterative network alignment algorithm),该算法每次迭代过程主要包含两个阶段.第1个阶段,分别在两个社交网络中选取各自的候选匹配用户,第2个阶段,针对候选匹配用户进行识别.相比于其他算法,MCS_INA时间代价低,且依据不同网络特征,通过参数估计,可保证较高的识别精度;最后,在真实数据集和合成数据集中验证了算法MCS_INA的有效性.  相似文献   

10.
目的 场景文本识别(scene text recognition,STR)是计算机视觉中的一个热门研究领域。最近,基于多头自注意力机制的视觉Transformer (vision Transformer,ViT)模型被提出用于STR,以实现精度、速度和计算负载的平衡。然而,没有机制可以保证不同的自注意力头确实捕捉到多样性的特征,这将导致使用多头自注意力机制的ViT模型在多样性极强的场景文本识别任务中表现不佳。针对这个问题,提出了一种新颖的正交约束来显式增强多个自注意力头之间的多样性,提高多头自注意力对不同子空间信息的捕获能力,在保证速度和计算效率的同时进一步提高网络的精度。方法 首先提出了针对不同自注意力头上Q (query)、K (key)和V (value)特征的正交约束,这可以使不同的自注意力头能够关注到不同的查询子空间、键子空间、值子空间的特征,关注不同子空间的特征可以显式地使不同的自注意力头捕捉到更具差异的特征。还提出了针对不同自注意力头上QKV 特征线性变换权重的正交约束,这将为Q、K和V特征的学习提供正交权重空间的解决方案,并在网络训练中带来隐式正则化的效果。结果 实验在7个数据集上与基准方法进行比较,在规则数据集Street View Text (SVT)上精度提高了0.5%;在不规则数据集CUTE80 (CT)上精度提高了1.1%;在7个公共数据集上的整体精度提升了0.5%。结论 提出的即插即用的正交约束能够提高多头自注意力机制在STR任务中的特征捕获能力,使ViT模型在STR任务上的识别精度得到提高。本文代码已公开: https://github.com/lexiaoyuan/XViTSTR。  相似文献   

11.
针对彩色印刷图像背景色彩丰富和汉字存在多个连通分量,连通域文字分割算法不能精确提取文字,提出基于汉字连通分量的彩色印刷图像版面分割方法。利用金字塔变换逆半调算法对图像进行预处理,通过颜色采样和均值偏移分割图像颜色,标记文字连通分量,根据汉字结构和连通分量特性重建汉字连通分量,分析文字连通分量连接关系确定文字排列方向实现文字分割。实验结果表明,该方法能够有效地重建汉字连通分量,在彩色印刷图像中实现对不同字体、字号、颜色的文字分割。  相似文献   

12.
William H. Hsu  Amy E. Zwarico 《Software》1995,25(10):1097-1116
We present a compression technique for heterogeneous files, those files which contain multiple types of data such as text, images, binary, audio, or animation. The system uses statistical methods to determine the best algorithm to use in compressing each block of data in a file (possibly a different algorithm for each block). The file is then compressed by applying the appropriate algorithm to each block. We obtain better savings than possible by using a single algorithm for compressing the file. The implementation of a working version of this heterogeneous compressor is described, along with examples of its value toward improving compression both in theoretical and applied contexts. We compare our results with those obtained using four commercially available compression programs, PKZIP, Unix compress, Stufflt, and Compact Pro, and show that our system provides better space savings.  相似文献   

13.
DICOM图像文件的储存和传输一直是近代医学图像处理中一个比较热门的研究话题,其中较好的解决方案就是对DICOM图像进行压缩处理。文中通过对DICOM文件的数据结构进行分析,将DICOM文件拆分成图像数据部分和文本信息部分,然后采用9/7提升小波变换对拆分出来的DICOM图像数据进行图像变换,最后对变换后的小波系数进行SPIHT编码完成DICOM图像压缩。主客观对图像的评价表明SPIHT算法在高压缩比时仍能保证图像较好的质量。该方法能够对DICOM图像的存储和传输带来便利也将产生一定的影响。  相似文献   

14.
针对目前单纯依赖于分析图像内容或文本关键词的成人图像判定算法的不足,提出一种融合网络图像的相关文本特征与图像内容语义特征的成人图像判定算法。成人图像的特征信息可能存在于其图像内容及其相关文本如图像文件名、所在网页中。在视觉词袋模型的基础上,将文本分析得到的相关文本特征与图像视觉元素特征如纹理、局部形态等进行底层特征融合,并采用支持向量机分类器实现图像分类。实验结果表明,该算法具有较好的分类效果。  相似文献   

15.
基于流形学习的单字符字体辨别   总被引:1,自引:1,他引:0       下载免费PDF全文
文字种类识别及字体辨别已成为继印刷体文字识别以后新的国内外研究的热点,关于单字的手写体和印刷体辨别的研究不多,但在表单中却极为常用。对于字体辨别问题,引入流形学习算法局部线性嵌套(LLE),假定数据为存在于嵌入高维空间的一个低维流形。提出了用于单字字体辨别的LLE泛化方法及邻域和内在维数的参数估计方法,基于印刷体/手写体汉字字符及数字的辨别实验表明,其性能优于直接支持向量机(SVM)分类,且经过LLE降维后的数据直接用线性判别分析方法(LDA)分类可以获得与LLE计算后SVM分类相近甚至更高的正确率和更快的分类速度。  相似文献   

16.
针对中文交通指路标志中多方向、多角度的文本提取与识别困难的问题,提出了一种融合了卷积神经网络与传统机器学习方法的轻量化中文交通指路标志文本提取与识别算法。首先,对YOLOv5l目标检测网络进行轻量改进,提出了YOLOv5t网络用以提取指路标志牌中的文本区域;然后,结合投影直方图法与多项式拟合法的M-split算法,对提取到的文本区域进行字符分割;最后,使用MobileNetV3轻量化网络对文本进行识别。提出的算法在自制数据集TS-Detect上进行近景文本识别,精度达到了901%,检测速度达到了40 fps,且权重文件大小仅有24.45 MB。实验结果表明,提出的算法具有轻量化、高精度的特性,能够完成复杂拍摄条件下的实时中文指路标志文本提取与识别任务。  相似文献   

17.
以混合加密型勒索软件为研究对象,将设置诱饵文件和文件操作监控方法相结合,获取勒索软件文件加密过程中采用的加密密钥、加密算法、密文起始字段和密文长度等相关信息,并提出了被加密文件的还原方法。针对8个流行的勒索软件家族进行密文还原测试,测试结果表明了提出的还原方法的有效性。该密文还原方法适用于混合加密勒索软件密文还原,是现行勒索软件防御策略的有效补充。  相似文献   

18.
基于信息隐藏技术的可执行文件防病毒侵袭方法   总被引:1,自引:1,他引:0  
可执行文件病毒是计算机病毒家族中最重要的类型之一。这类病毒的特点是只感染和侵袭可执行文件(.exe,.com,.sys等)。如何对付该类病毒,本文提出了一种基于信息隐藏技术的防范该类病毒的新方法。该方法利用该类病毒只侵袭可执行文件,而不攻击数据文件的特性,将可执行文件隐藏于数据文件之中,达到保护可执行文件的目的。文中给出了将可执行文件隐藏于图像和从图像中取出的算法。实验验证了该方法的可行性。文中还分析了该方法的长处和不足。和其它防病毒方法相比,该方法的最大长处在于它不但能防范已知的可执行文件类计算机病毒,也能防范未知和未来的该类计算机病毒。  相似文献   

19.
Performance evaluation is crucial for improving the performance of OCR systems. However, this is trivial and sophisticated work to do by hand. Therefore, we have developed an automatic performance evaluation system for a printed Chinese character recognition (PCCR) system. Our system is characterized by using real-world data as test data and automatically obtaining the performance of the PCCR system by comparing the correct text and the recognition result of the document image. In addition, our performance evaluation system also provides some evaluation of performance for the segmentation module, the classification module, and the post-processing module of the PCCR system. For this purpose, a segmentation error-tolerant character-string matching algorithm is proposed to obtain the correspondence between the correct text and the recognition result. The experiments show that our performance evaluation system is an accurate and powerful tool for studying deficiencies in the PCCR system. Although our approach is aimed at the PCCR system, the idea also can be applied to other OCR systems.  相似文献   

20.
A microcomputer program for analysis of radioimmunoassays has been developed for use on microcomputers which operate under MS-DOS system software. The program messages are contained in an ASCII text file in French, English, and Spanish and can be modified by the user. The parameters and data can be entered manually into screen tables, or read from external files. An unweighted log/logit transformation is used for regression analysis of the standard curve. Provision is made for correction of the sample measurements for procedural losses (recovery). All results are written to an ASCII text file which can printed and/or reduced in order to pass the sample concentrations to other programs.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号