首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   21篇
  免费   2篇
  国内免费   1篇
综合类   2篇
机械仪表   1篇
无线电   2篇
自动化技术   19篇
  2022年   1篇
  2020年   2篇
  2018年   1篇
  2017年   2篇
  2016年   3篇
  2015年   1篇
  2013年   1篇
  2011年   3篇
  2010年   3篇
  2009年   1篇
  2007年   2篇
  2005年   2篇
  2004年   2篇
排序方式: 共有24条查询结果,搜索用时 15 毫秒
1.
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。  相似文献   
2.
Social media websites such as Facebook, Twitter, etc. has changed the way peoples communicate and make decision. In this regard, various companies are willing to use these media to raise their reputation. In this paper, a reputation management system is proposed which measures the reputation of a given company by using the social media data, particularly tweets of Twitter. Taking into account the name of the company and its' related tweets, it is determined that a given tweet has either negative or positive impact on the company's reputation or product. The proposed method is based on N-gram learning approach, which consists of two steps: train step and test step. In the training step, we consider four profiles i.e. positive, negative, neutral, and irrelevant profiles for each company. Then 80% of the available tweets are used to build the companies' profiles. Each profile contains the terms that have been appeared in the tweets of each company together with the terms' frequencies. Then in the test step, which is performed on the 20% remaining tweets of the dataset, each tweet is compared with all of the built profiles, based on distance criterion to examine how the given tweet affects a company's reputation. Evaluation of the proposed method indicates that this method has a better efficiency and performance in terms of recall and precision compared to the previous methods such as Neural Network and Bayesian method.  相似文献   
3.
基于词频统计的中文分词的研究   总被引:21,自引:1,他引:20  
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。  相似文献   
4.
随着政府企事业单位网络安全机制的建立健全,单纯从外部进入目标系统的攻击门槛越来越高,导致内部威胁逐渐增多。内部威胁区别于外部威胁,攻击者主要来自于内部用户,使得攻击更具隐蔽性,更难被检测。本文提出一种基于混合N-Gram模型和XGBoost算法的内部威胁检测方法。采用词袋、N-Gram、词汇表3种特征提取方法进行实验比对及参数N值筛选,基于混合N-Gram模型和XGBoost算法的内部威胁检测方法检测效果比通过1维数据、2维数据、4维数据的不同特征进行组合的特征子集效果更优,特定度达到0.23,灵敏度达到27.65,准确度达到0.94,F1值达到0.97。对比特定度、灵敏度、准确度、F1值4项评价指标,基于混合N-gram特征提取方法比传统的词袋、词汇表特征提取方法在检测中更有效。此检测方法不仅提高了内部威胁检测特征码的区分度,同时提高了特征提取的准确性和计算性能。  相似文献   
5.
本文提出基于N-Gram的智能家居设备固件安全检测方案,该方案主要采用N-Gram算法提取设备固件中可以代表智能家居设备固件的特征子序列,将单个设备固件特征向量化,在向量空间里将安全的设备固件与存在漏洞的设备固件进行特征比对,从而实现了利用智能家居市场上已知漏洞去检测其他智能家居设备的相似漏洞的功能,同时提高了安全工程师对设备固件的漏洞发现效率。  相似文献   
6.
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础.引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度.运用正整数和各种权值简化N-Gram信息的提取和运算.实验结果表明,方法提高了聚类的准确率和召回率.  相似文献   
7.
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。  相似文献   
8.
郭涛  曲宝胜  郭勇 《电脑学习》2011,(2):113-116
本文简单介绍了自然语言处理发展的现状,讨论了自然语言处理模型,将其分为三大类:分析模型、统计模型及混合模型。具体介绍了分析模型原理及存在的问题,重点讨论了各种统计模型的特点及局限性,最后简单介绍了混合模型,并指出目前自然语言处理技术中存在的问题。  相似文献   
9.
提出并实现了一种N-连字算法,用该算法可以较好地实现网页的相似度比较,用本算法来实现网页的"去重",效果尤为明显.  相似文献   
10.
使用最大熵模型进行中文文本分类   总被引:51,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号