期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Method of New Chinese Word Detection Based on Statistical Learning Framework

ZHANG Hai-jun LUAN Jing LI Yong QI Xiang-wei 《计算机科学》2012,39(2)

新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难.提出一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系.在此基础上提出应用统计学习模型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果.实验表明,统计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49.72％和69.83％,达到了目前的较好水平. 相似文献

2.

一种基于海量语料的网络热点新词识别方法

张海军李勇闫琪琪《计算机工程与应用》2015,51(5):208-213

基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。实验和数据分析表明,该框架能高效可靠地从大规模语料中提取重复模式,构造候选新词集合,并能有效实施新词检测和新词属性识别任务,处理效果达到了目前的较好水平。相似文献

3.

一种基于统计排序的网络流量特征选择方法

《电子技术应用》2018,(1):84-87

利用网络流量的统计特征进行流量的分类识别需要从众多的特征中选取最优特征集合,以避免冗余和不相关特征造成的系统模型复杂度过高、分类准确率和效率下降等问题。针对该问题,提出一种基于统计排序的网络流量特征选择方法。首先利用基于统计方法定义的特征选择系数生成初始特征子集,再将基于分类准确率构建的特征影响系数作为特征评估排序的依据,对初始特征子集进行二次特征选择,生成最优特征子集。实验结果表明,该方法在保证分类整体准确率的同时有效减少了流量统计特征的个数,在分类效果、效率以及稳定性之间实现了较好的平衡。相似文献

4.

结合特征图谱学习的人数统计方法

易国宪熊淑华何小海吴晓红郑新波《计算机应用》2018,38(12):3591-3595

针对实际公共场景视频的人数统计中存在的背景干扰、光照变化、目标间遮挡等问题,提出一种结合特征图谱学习和一阶动态线性回归的人数统计方法。首先,建立图像的尺度不变特征变换（SIFT）特征与目标真实密度图之间的特征图谱映射模型,利用SIFT特征和前述映射模型得到包含目标和背景特征量的特征图谱;然后,根据通常监控视频中背景变化较小、特征图谱中的背景特征量相对稳定的特点,由特征图谱的积分与真实人数通过一阶动态线性回归建立人数回归模型;最后,通过该回归模型模型得出估计人数。在数据集MALL和PETS2009上进行实验,实验结果表明：与累积属性空间方法相比,所提方法平均绝对误差降低了2.2%;与基于角点检测的一阶动态线性回归方法相比,其平均绝对误差降低了6.5%,平均相对误差降低了2.3%。相似文献

5.

基于网络数据流协议特性的统计入侵检测

聂方彦《计算机与数字工程》2007,35(2):104-107

根据网络数据流的协议特性,提取IP分片标志及TCP协议首部的TCP连接标志,构造了一种基于统计技术的入侵检测模型,并实现了特征识别检测与异常检测。实验结果表明,模型的检测效果较好。相似文献

6.

针对F5算法的盲检测隐写分析

张飞平西建张涛《计算机工程与设计》2009,30(5)

通常基于统计特征的隐写分析算法特征针对性强,而通用隐写分析算法适应性强.结合两者的优点,提出了一种针对F5数字隐写技术的盲检测算法.根据F5算法对载体图像统计特性带来的影响,提取了21个特征.在分类器设计方面,选用了对样本数量和质量依赖性小的支持向量机.最后对不同训练样本下算法的识别能力进行了实验仿真.实验结果表明,使用高嵌入率载密图像进行训练能达到很好的检测效果,在虚警率为4%的条件下,对25%载密图像的检测结果都达到了95%以上. 相似文献

7.

基于流量统计指纹的恶意代码检测模型

下载免费PDF全文

苗甫王振兴张连成《计算机工程》2011,37(18):131-133

采用加密和隧道技术的恶意代码难以检测。为此,提出基于流量统计指纹的恶意代码检测模型。提取恶意代码流量中的包层特征和流层特征,对高维流层特征采用主成分分析进行降维,利用两类特征的概率密度函数建立恶意代码流量统计指纹,使用该指纹检测网络中恶意代码通信流量。实验结果表明,该模型能有效检测采用加密和隧道技术的恶意代码。相似文献

8.

基于PCA和多元统计回归的人群人数统计方法

李虎张二虎段敬红《计算机工程与应用》2014,50(11):206-209

针对人群人数统计中分割特征与纹理特征相分离以及回归模型精度提高的问题,提出一种基于PCA和多元统计回归相结合的人群人数统计方法。通过PCA对提取到的人群前景分割特征和纹理特征进行降维处理;建立多元线性回归模型,以确定特征量和人群人数之间关系的趋势方向;通过回归出的趋势方向,对高斯过程回归模型进行修正。实验结果表明该方法更适合进行大规模人群人数统计。相似文献

9.

统计特征和Markov模型在三维模型分类中的应用

下载免费PDF全文

付小君郭鹏江郭竞冯筠《计算机工程与应用》2011,47(4):157-159

针对三维模型的分类问题,提出了一种基于统计特征量和Markov模型的分类算法。该算法对预处理后的三维模型进行几何切分,并提取切分后每块的统计特征。对三维模型各分块进行一定顺序的观测,可以获得由各分块的统计特征量构成的Markov模型的伪时间序列。再对不同类模型进行训练并得到各类模型对应的Markov模型参数。最后定义模型间的相似度度量,获得三维模型的分类结果。实验表明该算法在绝大多数类别的模型上分类效果较好,准确率达到90%以上。相似文献

10.

单词统计特性在情感词自动抽取和商品评论分类中的作用

韩彤晖杨东强马宏伟《计算机应用研究》2019,36(3)

单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。相似文献

11.

面向中文医疗问答网站的相似问题检索研究

王保成刘利军黄青松《中文信息学报》2022,36(6):135-145

医疗问答平台主要通过关键词检索来服务,但其缺点是难以应对文本中多样化表达、否定词较多等特点,且不能充分根据用户的语义查询,使查询结果中有大量无关项。因此该文先用基于改进文本卷积神经网络的哈希生成模型,进行相似问题的语义检出,以更好地处理文本中的多样化表达、否定词较多等现象。然后,用更精确的文本匹配模型对检出集合进行过滤和排序,通过集成学习构建该模型。模型先集成Siamese-BERT模型,该模型利用孪生网络,并用BERT作为基础模型,能更好地进行语义抽取;接着集成BERT-Match模型,该模型借助BERT的多头注意力机制,能更好地捕捉问句间的局部相关性。最后,用梯度下降提升树将语义特征及统计特征结合,使模型更准确。实验结果表明,该文方法在进行相似问题检出和文本匹配时能得到更好的结果。相似文献

12.

Skip-Gram模型融合词向量投影的微博新词发现

于洁《计算机系统应用》2016,25(7):130-136

随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率. 相似文献

13.

Improved Features and Models for Detecting Edit Disfluencies in Transcribing Spontaneous Mandarin Speech

Che-Kuang Lin Lin-Shan Lee 《IEEE transactions on audio, speech, and language processing》2009,17(7):1263-1278

相似文献

14.

面向专业领域的中文分词方法

下载免费PDF全文

成于思施云涛《计算机工程与应用》2018,54(17):30-34

在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%。该方法还可与新词发现等方法结合,改善未登录词的处理效果。相似文献

15.

Maximum entropy direct models for speech recognition

Hong-Kwang Jeff Kuo Yuqing Gao 《IEEE transactions on audio, speech, and language processing》2006,14(3):873-881

Traditional statistical models for speech recognition have mostly been based on a Bayesian framework using generative models such as hidden Markov models (HMMs). This paper focuses on a new framework for speech recognition using maximum entropy direct modeling, where the probability of a state or word sequence given an observation sequence is computed directly from the model. In contrast to HMMs, features can be asynchronous and overlapping. This model therefore allows for the potential combination of many different types of features, which need not be statistically independent of each other. In this paper, a specific kind of direct model, the maximum entropy Markov model (MEMM), is studied. Even with conventional acoustic features, the approach already shows promising results for phone level decoding. The MEMM significantly outperforms traditional HMMs in word error rate when used as stand-alone acoustic models. Preliminary results combining the MEMM scores with HMM and language model scores show modest improvements over the best HMM speech recognizer. 相似文献

16.

基于条件随机场方法的开放领域新词发现

陈飞刘奕群魏超张云亮张敏马少平《软件学报》2013,24(5):1051-1060

开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means 聚类、等频率、基于信息增益这3 种离散化方法对新词发现结果的影响.通过在SogouT 大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果. 相似文献

17.

基于IFC标准的BIM自适应分词方法

下载免费PDF全文

张鑫周小平王佳《图学学报》2021,42(2):316-324

建筑信息模型(BIM)已经成为建筑行业信息技术应用的有效方案.随着BIM数据不断增长,为了高效使用BIM数据,很多研究将自然语言处理(NLP)引入BIM应用中.在中文环境中,由于缺乏建筑行业的术语特征,导致基础环节的中文分词在建筑领域BIM应用中的适应性较差.通过分析当前流行的BIM数据格式工业基础类(industry... 相似文献

18.

基于扩展规则与统计特征的未登录词识别

曾浩詹恩奇郑建彬汪阳《计算机应用研究》2019,36(9)

为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出方法取得了较好的未登录词识别效果,具有较好的移植性。相似文献

19.

基于条件随机场的汉语词汇特征研究

黄定琦史晟辉《计算机应用研究》2020,37(6):1724-1728,1754

汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场（conditional random fields,CRF）的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。相似文献

20.

普通话发音错误自动检测技术

张峰黄超戴礼荣《中文信息学报》2010,24(2):110-116

统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8％升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。相似文献