共查询到19条相似文献,搜索用时 52 毫秒
1.
2.
复杂背景下文本提取的彩色边缘检测算子设计 总被引:15,自引:0,他引:15
分析了当前彩色边缘检测方法的现状与复杂背景下文本提取的社会需求,提出一个新的彩色图像边缘检测算子--ColorRoberts,该算子全面作用于三维RGB彩色空间.实验证明,在文本区域提取的彩色图像边缘检测中,ColorRoberts具有传统算子所无法比拟的优势,检测出的文本区域完整、清晰,字符形状边缘保持较好,文本区域与背景易于进一步剥离. 相似文献
3.
对于图文不符的低质量网页,现有基于文本关键词的图片搜索引擎得到的结果相关性较差。针对该问题,将图片的相似性聚类信息和网页质量因素融入文本分析过程,提出一种基于相似图片聚类的Web文本特征算法。根据网页Page Rank值、关键词HTML标签类别和关键词词性类别的不同,分别赋予其不同的权重并代入计算公式,综合计算得到整个聚类中全部关键词的文本特征值,并通过设置阈值提取高相关文本。对随机选取的15个图片聚类进行实验分析,结果表明,与百度和谷歌目前所用图片搜索算法相比,该算法能够准确地找到反映图片内容的真实文本,提高图片检索的精度。 相似文献
4.
5.
ZHANG Xia 《数字社区&智能家居》2008,(26)
文本过滤是信息过滤的一个研究分支,信息过滤随着信息检索的发展而受到关注,它是一个寻找人们感兴趣的信息的处理过程。为了提高检索web页面的效率,把原型web页面集合预处理为有结构的页面集,然后再进行快速分类处理。 相似文献
6.
介绍了一种支持语义的图像检索系统—PIcsearch(PICTURE Search),该系统获取图像低层特征(颜色)时采用基于区域的主颜色提取算法.综合考虑了图像的像素统计特征和空间位置信息同时节省存储空间和计算时间。提出了高级视觉特征的语义查询。在图像库上构建一个可扩展的语义网络,利用一种基于用户相关反馈的机器学习策略来改进这种语义网络,以解决低层特征向高层语义特征的过渡问题,使检索能够体现高层次语义属性。实验证明,PICsearch能有效通过人机协同工作,弥补了计算机理解能力的不足,提高了检索效率。 相似文献
7.
本文根据中文文本的特点,以一种新的同义概念来替代传统的词为单位,并给出了同义概念之间权值的全新计算方法。我们不仅考虑了文本中词汇概率信息,还结合文本语义等多方面来提取文本特征值,从而提出了一种基于多重启发式规则的中文文本特征值提取方法,并给出了特征值提取模型和算法。通过与传统特征值提取方法的比较实验,证证明本文中提出的特征值提取方法能有效地提高文本分类正确率,并达到了有效降低特征向量维数的目的。 相似文献
8.
9.
本文主要研究关键词提取算法,在分析可能影响关键词提取的词语各种属性并将其量化的基础上,提出并实现了一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。 相似文献
10.
11.
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能。 相似文献
12.
13.
基于Web的文本挖掘 总被引:22,自引:1,他引:22
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。在茫茫的信息海洋如何快速有效地获取所需要的信息,一直是困绕着网上用户的难题。而Web挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困绕。该文主要介绍了Web挖掘基本情况,并在此基础上对基于Web的文本挖掘进行了分析研究;给出了一个基于Web的文本挖掘的结构模型图。同时,在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。 相似文献
14.
全文检索是一种非常有效的信息检索技术,本文通过分析全文检索系统中静态索引技术的优缺点,以及影响动态性能的因素,提出一种基于互关联后继树模型的动态索引技术,该技术在不影响查询效率等性能的情况下,很好地解决了索引的更新问题,提高了索引的动态性能。 相似文献
15.
基于Web的文本挖掘技术研究 总被引:2,自引:0,他引:2
许高建 《计算机技术与发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
16.
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
17.
为了更加有效地检索到符合用户复杂语义需求的图像,提出一种基于文本描述与语义相关性分析的图像检索算法。该方法将图像检索分为两步:基于文本语义相关性分析的图像检索和基于SIFT特征的相似图像扩展检索。根据自然语言处理技术分析得到用户文本需求中的关键词及其语义关联,在选定图像库中通过语义相关性分析得到“种子”图像;接下来在图像扩展检索中,采用基于SIFT特征的相似图像检索,利用之前得到的“种子”图像作为查询条件,在网络图像库中进行扩展检索,并在结果集上根据两次检索的图像相似度进行排序输出,最终得到更加丰富有效的图像检索结果。为了证明算法的有效性,在标准数据集Corel5K和网络数据集Deriantart8K上完成了多组实验,实验结果证明该方法能够得到较为精确地符合用户语义要求的图像检索结果,并且通过扩展算法可以得到更加丰富的检索结果。 相似文献
18.
基于Web的文本挖掘系统的研究与实现 总被引:13,自引:0,他引:13
1.引言 60年代,大的物理流伴随着大信息流。传统的文件方式不能适应信息处理的需求,因此出现了数据库技术。90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,但是数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识。数据挖掘技术包括特征、分类、关联、聚类、偏差、时间序列、趋势分析等。 相似文献