共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
4.
基于Web的文本挖掘研究 总被引:10,自引:6,他引:4
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。 相似文献
5.
现在的时代是互联网的时代,随着网络资源的日益丰富,WEB上的图片资源也越来越丰富,图片内容也越来越精彩,吸引了大量网民对于图片的检索。图片检索技术中最常用的方法是基于文本的图片检索,是人们检索图片的主要手段,而基于文本的图片检索技术最核心的技术是图片相关文本的提取,图片相关文本提取技术会给图片检索的查全率和查准率带来最直接的影响。如何提高图片的检索率,是当代互联网基于文本的图片检索技术亟待解决的问题。 相似文献
6.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
7.
10.
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性标注集,去除标准语境下不常用的词性类别,新增专有名词的相关设计。该设计目前应用于标准文本内容理解、知识提取等任务,提高了标注结果的可用性,并为后续文本处理任务提供数据基础。 相似文献
11.
目前医院信息系统中还包括大量的非结构化数据,从中挖掘信息存在较大的难度。本研究采用ERNIE-TextCNN模型,对医学内镜报告进行文本分类。实验显示,相比单纯的ERNIE模型和TextCNN模型,ERNIE-TextCNN模型的精确率、召回率和F1分数上都有所提升,说明该模型能够有效地应用到医学文本分类领域。 相似文献
12.
13.
14.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。 相似文献
15.
随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,本文在基于文本分类、聚类算法的基础上,提出了一套移动IP化网络文本分类聚类模型,该模型能够对移动IP化网络文本进行自动分类,并进行系统化管理。实验结果表明,该模型的文本分类准确率很高,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性、和前瞻性。 相似文献
16.
随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。 相似文献
17.
基于改进遗传算法的Web文本挖掘系统 总被引:1,自引:1,他引:0
余燕芳 《微电子学与计算机》2010,27(4)
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法很难适用于大规模的文本数据集.为此,提出了一种基于改进遗传算法的文本挖掘系统.提出的改进遗传算法极大地提高了文本挖掘系统的分类效率.实验结果表明,该方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快. 相似文献
18.
本文提出一种基于概念图和简单语义分析相结合的文本过滤技术.利用概念图知识表示方法定义文本中概念间的语义倾向关系,把文本过滤问题转换成基于概念图的语义匹配问题.在使用概念图匹配推理中,利用敏感词汇分类和词语的褒贬性,有效简化过滤的匹配处理.经实际应用表明,基于概念图的倾向性文本过滤方法可以有效的识别和过滤倾向性文本信息. 相似文献
19.
一、概论 LG04’能提供一种宽范围的水平和垂直点密度,操作质量,仿真安装容易等特性。 标准特性 1.和计算机之间的接口:并口有——Dataprod-ucts并口,Centronics并口,IEEE1284并口;串口有——RS/232串口,RS/422串口。 2.打印机仿真:Digital LG,P-series,EPSONFX,Proprinter XL,IGP/PGL(上操作),IGP/VGL(下操作)。每一个仿真提供配置菜单,控制编码,字符集的不同设置,而打印机仿真是通过控制板进行选择的。 3.文本格式及语言选件:该打印机能提供如下输出特性: 相似文献
20.
本文提出了一种基于Laplace变换的视频图像水平文本检测算法.首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证.本文算法在公共数据库上的测试结果表明了算法的可行性和有效性. 相似文献