首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
为解决在多核处理器平台下路由器报文转发时路由查找速度慢的“瓶颈”问题,提出了一种基于分割的多分枝 Trie树的并行路由查找算法。该算法将一棵多分枝 Trie 树根据处理器的核数分割成若干子树,每棵子树又构成一棵单独的多分枝Trie树,子树中取消了前缀查找,采取组成一个大中间节点的方式,在中间节点之间采用固定步长查询,中间节点内部采用二进制Trie树来表示。实验结果表明,该算法具有访存次数少、查询速度快、占用存储空间少和更新开销小等特点,同时适用于IPv4和 IPv6地址。  相似文献   

2.
基于支持向量机的Web文本分类方法   总被引:15,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

3.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

4.
本文提出了一种基于Laplace变换的视频图像水平文本检测算法.首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证.本文算法在公共数据库上的测试结果表明了算法的可行性和有效性.  相似文献   

5.
本文首先提出主题本体树层次结构的主题结构模型,并研究了基于主题本体树的层次主题检测技术。在真实新闻数据上的仿真实验表明,该方法能从文本流中有效检测层次主题,实验表明三种测度中混合对称测度效果更好。  相似文献   

6.
提出了一种基于色彩距离最小化和最大 色彩差(MCD)的场景文本定位方法。首先,使用多次K均值 聚类和色彩距离最小化的方法,从不同复杂程度的场景图像中提取文本 连通区域;考虑到色彩聚类方法容易受光照影响,使用基于MCD最大色彩差的方法,提取 文本连通区域作为补充,由于将 色彩与梯度信息相结合,在一定程度上能克服光照的影响;将得到的连通区域通过设 定的字符合并规则,构建文本行; 候选文本行中通常包含错误检测的非文本行,为了提高文本检测的正确率,最后采用基于特 征提取和机器学习的方法,验证 候选文本行,得到文本定位结果。将本文方法在ICDAR2011和ICDAR2013公共数 据库上实验,对于ICDAR2011数据集,本文 获得的召回率、准确率和F指标分别为0.66、0.77;对于ICDAR2013数据集,本文获得的召回率、准确率和F 指标分别为0.65、0.77。将本文方法与 其它文本检测算法比较,结果表明本文方法的可行性、有效性。  相似文献   

7.
为了适应移动多媒体通信中终端设备显示尺寸多样性的要求,本文将图像缩放嵌入编码过程中,提出了一种基于线裁剪(seam carving, SC)的支持可变分辨率的多级树集合排序(set portioning in hierarchical trees,SPIHT)图像编码算法。该算法在构造新的基于根节点的空间方向树的基础上,利用SC生成基于块的线能量图来引导编码,获得空域可伸缩的码流;解码端仅需获取与终端设备显示尺寸相关的码流即可完成解码和图像缩放。实验结果表明,当编码和解码图像的分辨率一致时,本文算法的率失真(rate-distortion, R-D)性能逼近传统的SPIHT算法;当解码图像的分辨率可变时,本文算法在压缩码率与重建图像的主观质量上均优于传统的SPIHT算法。   相似文献   

8.
文本情感分析的基础是词典,除此以外还需要对词典进行分类和定级。本文通过筛选整合现有词典,构建了一部包括基础词,领域词,网络词等的词典,并对词典中有关词语的权重分配和一些包含程度副词的短语计算进行了研究,提出了一种基于词典的文本情感分析算法。经过实验,发现本文构建的词典在处理情感时效果很好。  相似文献   

9.
方澄  李贝  韩萍 《信号处理》2021,37(6):1066-1074
网络社交的流行与普及,使得微博等短文本区别于以往传统文章,具有了独有的文学表达形式和情感发泄方式,导致基于短文本的机器学习情感分析工作难度逐渐增大。针对微博短文本的语言表达新特性,爬取收集大量无情感标记微博数据,建立微博短文本语料库,基于全局语料库构建词与短文本的全局关系图,使用BERT(Bidirectional Encoder Representations from Transformers)文档嵌入作为图节点的特征值,采用图卷积进行节点间的特征传递和特征提取。采样部分无情感标记微博数据进行人工标注,采用半监督机器学习方法结合全局关系图提高情感分类器的性能,实验表明通过无情感标记数据比例的增加,该方法可以更好地捕捉全局特征,提高情感分类的精度。在自建人工标记数据、COAE2014数据集和NLP&CC2014数据集上进行了对比实验,实验结果表明该方法在精确率和召回率上均具有很好的表现。   相似文献   

10.
随着互联网技术的快速发展和应用,很多领域已经积累了海量数据资源,文本数据占据了85.6%,因此文本数据挖掘和分析成为人们研究的热点,并且引起了百度、Google、京东、腾讯等互联网公司关注。可以在文本数据挖掘中引入支持向量机、BP神经网络、K均值算法,但是这些算法需要依赖经验知识,不能够从多维度挖掘文本数据。因此,为了解决上述问题,本文提出构建一种基于信息论的文本数据挖掘算法,该算法可以从海量文本数据集中发现潜在的有价值的信息,提高文本分类的准确度。  相似文献   

11.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

12.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

13.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

14.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

15.
文本伪装算法研究   总被引:17,自引:0,他引:17       下载免费PDF全文
钮心忻  杨义先 《电子学报》2003,31(3):402-405
本文提出了文本伪装的一种新的算法,它是将不具有冗余度的文本信号通过信号处理的变换后,得到具有冗余度的信号,再对冗余信号进行文本的伪装.其效果是,该算法可以实现用一段普通文本来掩饰机密文本的传输,并且该算法具有一定的抵抗干扰的能力.  相似文献   

16.
文本的情感倾向分析是一项具有较大实用价值的关键技术。文中主要针对短语级和句子级的情感倾向分析进行对比研究。采用情感粒度中的情感短语和情感句子模型,根据不同的短语搭配模式、语义依存关系方法的组合,对中文文本倾向性分析进行了研究。研究表明,采用选取合适短语搭配模式的方式,以情感句子为最小判断单位的倾向分析方法,并应用于网络话题的中文评论文本,能取得较好的倾向分析效果。  相似文献   

17.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

18.
互联网已经成为人们发布、获取、共享信息的首选方法,大量多语言媒体信息蕴含着人们关注的热点话题及情感倾向。因此,多语言文本聚类研究对于了解民意倾向、引导舆论具有重要意义。文中提出融合时间影响因子的多语言文本复合聚类算法,用以研究互联网环境下,时间维度对聚类分析的影响。通过采集网络媒体英语、西班牙语、德语、法语新闻信息4000多条,实验证实,该算法取得了较好的聚类效果。  相似文献   

19.
针对文本图像拍摄质量低下,而导致OCR系统识别率不稳定的问题,本文提出了一种基于文字笔画结构的文本图像校正算法,主要是在图像的预处理中对待处理像素点进行基于文字笔画结构的特征分析,实现目标和背景像素的校正,再结合局部二值化算法进行处理,分析其噪音分布特点采用邻域去噪进一步优化处理结果。实验表明,本文算法能够很好的适用于处理质量低下的文本图像,处理效果从视觉图像和识别率上都能满足应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号