首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.  相似文献   

2.
通过分析文本挖掘中的2个关键步骤——文本特征空间构造和相似距离度量,指出流行的文本挖掘过程中存在着大量同义和关联噪声。大量存在的同义词和关联词,造成文本特征空间无法准确表达文本语义以及高维计算复杂性问题。利用潜在语义分析和关联规则挖掘构造同义和关联词集,用于减少文本特征空间中的同义词和关联词,降低信息冗余,改进挖掘效率。文中对相应的算法进行了描述,实验结果令人满意。  相似文献   

3.
王强  关毅  王晓龙 《电子与信息学报》2007,29(12):2885-2890
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。  相似文献   

4.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

5.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

6.
《现代电子技术》2016,(16):112-115
为解决数据库从高维单词空间映射至低维隐含语义空间中,无法有效实现数据库访问语义指向性分析的问题,提出基于主题模型的数据库访问语义指向性算法,建立PLSA主体模型并对其进行求解,通过PLSA主题模型获取理想的潜在语义主题,在数据库访问关键词上分布以及文档在潜在语义主题上的分布,将其应用于数据库访问语义指向性分析中,针对数据库表现出来的文本特征和结构特征建立PLSA主题模型,通过自适应不对称学习算法对不同的PLSA主题模型进行集成和优化,以实现数据库访问语义指向性分析,使数据库访问结果更加准确。仿真实验结果表明所提算法具有很高的数据库访问效率及精度。  相似文献   

7.
现如今对文本情感分类的方法多种多样,将语义理解与统计学方法相结合的机器学习算法是目前比较可取的方法之一。这种算法的步骤是,首先对文本中的情感词汇进行汇总,作为特征应用,通过统计学方法衡量出这些特征的初始权重,然后通过对文本语义结构进行分析修改特征权重,最后应用以Bayesian作为基本分类算法的Boosting算法对文本最终进行分类。实验结果表明,基于语义理解的Bayesian分类算法的分类准确率远远的高于基于统计学的Bayesian分类算法,这种算法的分类准确率最高可以达到百分之九十。  相似文献   

8.
范伟鹏 《信息技术》2012,(12):92-94
文本挖掘是数据挖掘中的一个重要组成部分,传统的文本挖掘方法大部分是基于潜在语义分析的基础上进行的。由于由文本构成的矩阵基本上是大型稀疏的,而传统的潜在语义分析都是基于矩阵的奇异值分解的基础上进行的,矩阵的奇异值分解是一种立方次运算的求矩阵低秩近似方法,因而是一种低效的方法。针对文本矩阵是大型稀疏的特点,将Lanczos双对角算法和Lanczos双对角算法运用于此,并且从文中的算法分析得出,Lanczos双对角算法和扩展的Lanczos双对角算法是两种高效的求大型稀疏矩阵低秩近似的方法。  相似文献   

9.
吴炜晨  许衍 《电子设计工程》2023,(8):101-104+109
随着细粒度图像分类研究的不断深入,用户点击数据逐渐被人们当成可靠的语义特征。由于用户点击数据集规模巨大且存在大量冗余,直接使用点击特征进行识别也存在诸多挑战。该文提出利用文本聚类降低文本空间并优化原始点击特征,从而建立精简的文本空间来表征图像,该方法能更好地合并语义相近的文本。在微软发布的Clickture-Dog大数据集上进行的大量实验表明,点击向量特征优于传统图像的视觉特征,图像识别任务中的准确率也更高;基于视觉相似度的传播算法能帮助提高点击特征的表征能力;在大规模文本聚类中,基于稀疏编码的聚类方式识别率达到了58.24%。  相似文献   

10.
为有效解决Deep Web数据库中数据纠错、消重和整合问题,优化Deep Web数据库实体查询性能.提出一种基于智能语义自相关特征的Deep Web数据库优化识别查询模型.模型由文本匹配模型、语义自相关特征分析模型和分组统计模型构成,设计语义自相关特征提取算法,定义语义信息约束规则,优化逼近数据库实体识别结果,使用语义自相关特征建立表象关联知识库,实现数据查询过程中的纠错、消重、整合.最后用数学推导证明了算法的稳定性.仿真模拟实验表明,算法能综合考虑文本特征、语义自相关特征和约束规则,数据库查询识别结果不断精化,数据查询准确性和有效完备性提高显著.  相似文献   

11.
为了解决传统的CBIR系统中存在的"语义鸿沟"问题,提出一种基于潜在语义索引技术(LSI)和相关反馈技术的图像检索方法.在进行图像检索时,先在HSV空间下提取颜色直方图作为底层视觉特征进行图像检索,然后引入潜在语义索引技术试图将底层特征赋予更高层次的语义含义;并且结合相关反馈技术,通过与用户交互进一步提高检索精度.实验...  相似文献   

12.
沈晶聂  叶猛 《电视技术》2012,36(9):103-107
在网络处理器的平台上开发了用户管理控制系统,用于对用户上网内容和行为进行监控。网络处理器是可编程的高效网络数据处理芯片,网络控制器是用户管控系统中用于过滤数据的器件。通过实验,在硬件方面使用优化流水线这一高效的芯片处理数据的方法来提升数据处理效率,在软件方面通过使用不同的算法来优化性能,这些算法包括流过滤算法、潜在语义索引算法和IP碎片处理技术。实验结果表明,基于网络处理器的网络控制器在根据过滤和转发规则对数据过滤和转发时准确率高,速度快,非常好地达到了对用户上网内容和行为监控的效果。  相似文献   

13.
用户兴趣模型的表示是信息检索的核心技术之一.利用潜在语义索引的方法构建了一种用户兴趣模型,通过计算文本与模型的匹配程度,将满足约定条件的文本推荐给用户,并利用相关反馈信息更新用户的兴趣模型.最后通过实验验证了该方法的有效性,实验表明该模型可以很好地提高用户信息检索的效率.  相似文献   

14.
基于OWL-S的服务发现语义匹配机制   总被引:8,自引:1,他引:8       下载免费PDF全文
 本文提出一种基于OWL-S的语义web服务匹配系统的机制,将语义元素引入UDDI系统中,从而在UDDI中保存语义信息.系统通过语义服务匹配算法提高web服务匹配的准确度和召回率,并通过数据映射机制保证模型对于当前的服务发现标准UDDI基础架构的兼容以及UDDI标准操作接口的透明性.系统使用本体概念的索引机制提高服务发现的效率.而且,系统在建立和维护索引的过程、或服务的匹配过程中使用近似概念搜寻算法进一步提高本体概念搜寻和服务匹配的效率.  相似文献   

15.
16.
现有的基于DHT(Distributed Hash Table)模型的P2P网络并不能很好支持语义查询,只提供针对某个关键字单一的准确查询,为了实现语义搜索,人们提出若干基于VSM的改进方案,而这些模型存在各种问题。本文首次分析了P2P中语义网络可能存在的安全问题,阐述了哈希算法和语义网络之间的固有矛盾;构建一个支持语义搜索的安全CAN网络SSCAN(Secure and Semantic CAN),设计了一种在SSCAN中进行语义搜索的算法,并对搜索性能进行评估。该模型具有安全性高,搜索高效的特点。  相似文献   

17.
Automatic semantic video object extraction is an important step for providing content-based video coding, indexing and retrieval. However, it is very difficult to design a generic semantic video object extraction technique, which can provide variant semantic video objects by using the same function. Since the presence and absence of persons in an image sequence provide important clues about video content, automatic face detection and human being generation are very attractive for content-based video database applications. For this reason, we propose a novel face detection and semantic human object generation algorithm. The homogeneous image regions with accurate boundaries are first obtained by integrating the results of color edge detection and region growing procedures. The human faces are detected from these homogeneous image regions by using skin color segmentation and facial filters. These detected faces are then used as object seed for semantic human object generation. The correspondences of the detected faces and semantic human objects along time axis are further exploited by a contour-based temporal tracking procedure.  相似文献   

18.
Semantic indexing of multimedia documents   总被引:1,自引:0,他引:1  
We propose two approaches for semantic indexing of audio-visual documents, based on bottom-up and top-down strategies. We base the first approach on a finite-state machine using low-level motion indices extracted from an MPEG compressed bitstream. The second approach innovatively performs semantic indexing through Hidden Markov Models  相似文献   

19.
传统视觉词典模型没有考虑图像的多尺度和上下文语义共生关系.本文提出一种基于多尺度上下文语义信息的图像场景分类算法.首先,对图像进行多尺度分解,从多个尺度提取不同粒度的视觉信息;其次利用基于密度的自适应选择算法确定最优概率潜在语义分析模型主题数;然后,结合Markov随机场共同挖掘图像块的上下文语义共生信息,得到图像的多尺度直方图表示;最后结合支持向量机实现场景分类.实验结果表明,本文算法能有效利用图像的多尺度和上下文语义信息,提高视觉单词的语义准确性,从而改善场景分类性能.  相似文献   

20.
Digital video now plays an important role in medical education, health care, telemedicine and other medical applications. Several content-based video retrieval (CBVR) systems have been proposed in the past, but they still suffer from the following challenging problems: semantic gap, semantic video concept modeling, semantic video classification, and concept-oriented video database indexing and access. In this paper, we propose a novel framework to make some advances toward the final goal to solve these problems. Specifically, the framework includes: 1) a semantic-sensitive video content representation framework by using principal video shots to enhance the quality of features; 2) semantic video concept interpretation by using flexible mixture model to bridge the semantic gap; 3) a novel semantic video-classifier training framework by integrating feature selection, parameter estimation, and model selection seamlessly in a single algorithm; and 4) a concept-oriented video database organization technique through a certain domain-dependent concept hierarchy to enable semantic-sensitive video retrieval and browsing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号