首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

2.
 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.  相似文献   

3.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

4.
张皓然  胡善清  樊嘉禾  王裕沛  师皓 《信号处理》2021,37(11):2097-2105
在近期的研究发展中,语义分割取得了巨大的进步。但大多数方法都是从空间角度出发,来获取更加丰富的上下文信息。与以往的方法不同,本文提出了一种基于类别注意机制的特征融合方法,从类别角度出发,来获取全局上下文信息,并与其他特征信息进行融合,这种方法能够更好地表示图像中各类目标的特征,具有更好的类内聚合性。为此,本文使用了一种ACF(类别注意力特征)模块,以计算和构建图像中各类目标的类别中心,以此为基础得到了一个基于类别注意力的多特征融合语义分割网络,以实现更好的地物分类性能。算法使用ISPRS数据集进行实验,与其他算法进行对比,本文方法具有更好的性能表现。   相似文献   

5.
论文提出了一种基于邻近类别分类的邮件过滤系统模型,并介绍了系统涉及到的文本特征选择、贝叶斯分类算法等关键技术,最后给出了评价方法与实验结果。结果表明,该方法能够显著地提高系统对于垃圾邮件的查准率。  相似文献   

6.
吴炜晨  许衍 《电子设计工程》2023,(8):101-104+109
随着细粒度图像分类研究的不断深入,用户点击数据逐渐被人们当成可靠的语义特征。由于用户点击数据集规模巨大且存在大量冗余,直接使用点击特征进行识别也存在诸多挑战。该文提出利用文本聚类降低文本空间并优化原始点击特征,从而建立精简的文本空间来表征图像,该方法能更好地合并语义相近的文本。在微软发布的Clickture-Dog大数据集上进行的大量实验表明,点击向量特征优于传统图像的视觉特征,图像识别任务中的准确率也更高;基于视觉相似度的传播算法能帮助提高点击特征的表征能力;在大规模文本聚类中,基于稀疏编码的聚类方式识别率达到了58.24%。  相似文献   

7.
胡佳妮  郭军  邓伟洪  徐蔚然 《通信学报》2007,28(12):121-124
提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提其高语义表示能力。该算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验表明此算法优于潜在语义索引算法。  相似文献   

8.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。  相似文献   

9.
基于稀疏表示方法的文本分类强调使用训练样本特征的全局结构对测试样本进行稀疏表示,而对文本特征的局部邻域结构和文档之间相似性缺乏考虑,导致文本分类准确率低和高耗时。为了解决上述问题,本研究以最近邻和最近特征子空间为基础,并建立局部邻域结构和距离加权机制,提出一种局部加权稀疏表示的文本分类算法,使文本语义信息表达更丰富、稀疏表示更具判别力。实验结果表明本文算法准确率高于基线算法2.4%~5%,运行速度提高1.35~2.8倍。  相似文献   

10.
王瑞  杜林峰  孙督  万旺根 《电子学报》2014,42(11):2129-2134
针对复杂场景下的交通目标分类识别难点,提出一种基于尺度不变特征转换(SIFT)与核稀疏表示的分类识别算法.该算法首先利用SIFT分别提取训练样本和待测目标局部特征信息,通过核方法将特征样本映射到核空间,构建过完备字典,最后通过待测目标在字典中的稀疏度与重构误差对交通目标类别进行判定.同时,分析了随机投影下的核稀疏表示分类与特征维数之间的关系.实验结果表明,与SVM、稀疏表示分类(SRC)相比,该方法增强了交通目标特征层的类判别能力,具有较好的识别率和鲁棒性.  相似文献   

11.
In this paper, we proposed an improved hybrid semantic matching algorithm combining Input/Output (I/O) semantic matching with text lexical similarity to overcome the disadvantage that the existing semantic matching algorithms were unable to distinguish those services with the same I/O by only performing I/O based service signature matching in semantic web service discovery techniques. The improved algorithm consists of two steps, the first is logic based I/O concept ontology matching, through which the candidate service set is obtained and the second is the service name matching with lexical similarity against the candidate service set, through which the final precise matching result is concluded. Using Ontology Web Language for Services (OWL-S) test collection, we tested our hybrid algorithm and compared it with OWL-S Matchmaker-X (OWLS-MX), the experimental results have shown that the proposed algorithm could pick out the most suitable advertised service corresponding to user’s request from very similar ones and provide better matching precision and efficiency than OWLS-MX.  相似文献   

12.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

13.
基于位置社交网络的兴趣点(POI)推荐是人们发现有趣位置的重要途径,然而,现实中用户在不同区域的地点偏好侧重的差异,加之高维度的历史签到信息,使得精准而又个性化的POI推荐极富挑战性.对此,该文提出一种新型的基于类别转移加权张量分解模型的兴趣点分区推荐算法(WTD-PR).通过结合用户连续行为和时间特征,来充分利用用户...  相似文献   

14.
基于知网的概念特征抽取方法   总被引:14,自引:0,他引:14  
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。  相似文献   

15.
视频是数据处理中综合性能最高,包含内容最广的载体.视频题目通过文字表达,内容通过连续图像帧表达,另外部分视频还包含背景音乐或者解说旁白.因此,视频处理即是对文字、图像、声音的多模态处理.着眼于多模态处理技术,提出基于语义空间统一表征的视频多模态内容分析框架,利用多种架构的深度神经网络,对视频的文字、图像、音频进行分别处理,为达到统一的功效,将不同结构的深度神经网络归结到语义空间,通过语义空间进行综合认知.提出的架构清晰、层次分明,对于视频理解的建模具有指导意义.  相似文献   

16.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

17.
Empowering content based systems to assign image semantics is an interesting concept. This work explores semantically categorized image database and forms a hierarchical visual search space. Overlapping of visual features of images from different categories and subcategories are possible reasons behind inter-semantic and intra-semantic gaps. Usually each category/node in the image database has a single representation, but variability and broadness of semantic limit the usage of such representation. This work explores the application of agglomerative hierarchical clustering to automatically identify groups within a semantic in the visual space. Visual signatures of dominant clusters corresponding to a node represent its semantic. Adaptive selection of branches on this clustered data facilitates efficient semantic assignment to query image in reduced search cost. Based on the concept, content based semantic retrieval system is developed and tested on hierarchical and non-hierarchical databases. Results showcase capability of the proposed system to reduce inter- and intra-semantic gaps.  相似文献   

18.
Video semantic detection has been one research hotspot in the field of human-computer interaction. In video features-oriented sparse representation, the features from the same category video could not achieve similar coding results. To address this, the Locality-Sensitive Discriminant Sparse Representation (LSDSR) is developed, in order that the video samples belonging to the same video category are encoded as similar sparse codes which make them have better category discrimination. In the LSDSR, a discriminative loss function based on sparse coefficients is imposed on the locality-sensitive sparse representation, which makes the optimized dictionary for sparse representation be discriminative. The LSDSR for video features enhances the power of semantic discrimination to optimize the dictionary and build the better discriminant sparse model. More so, to further improve the accuracy of video semantic detection after sparse representation, a weighted K-Nearest Neighbor (KNN) classification method with the loss function that integrates reconstruction error and discrimination for the sparse representation is adopted to detect video semantic concepts. The proposed methods are evaluated on the related video databases in comparison with existing sparse representation methods. The experimental results show that the proposed methods significantly enhance the power of discrimination of video features, and consequently improve the accuracy of video semantic concept detection.  相似文献   

19.
图像中的文本包含了重要的语义信息。提出了一种基于连通区域分析的彩色图像文本自动定位算法。首先对彩色图像进行多通道分解,得到少量代表颜色下的二值图像。对二值图像进行连通区域标记,并计算连通区域的属性参数。然后根据关于连通区域属性的先验知识限制,去掉连通区域中的非文本区域,其他的作为候选文本区域。最后根据文本行的排列规律从候选文本区域中提取文本行。实验结果表明该方法能较快地定位文本区域,定位精度较高。  相似文献   

20.
针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号