首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

2.
针对在热点话题追踪过程中容易发生话题漂移的问题,提出了基于相关性反馈的自适应热点话题追踪模型。为准确把握话题的动态演变过程,首先,在词频-逆向文档频率(term frequency-inverse document frequency, TF-IDF)的基础上引入了相关度因子。其次,构造了报道与话题的相关度计算公式和新特征词能否反馈加入到话题词汇库的判别函数。同时,利用了话题词汇库本身的特性,构造了自适应更新阈值和自适应相关阈值的动态计算方法。最后,根据各个特征词对该话题贡献度的大小,对更新后的词汇库中的各特征词动态赋予新权重。实验结果显示,和其它3类追踪器相比,该追踪器模型的漏报率平均降低0.018、误报率平均降低0.063,这表明,该追踪模型更适合于解决话题漂移问题。  相似文献   

3.
目前基于How Net的词语语义相似度计算多是根据上下位关系计算语义距离的方法,其结果与人的主观认识存在差异。提出了一种词语语义相似度计算的改进方法,在原有方法基础上,同时考虑影响词语相似度的多种因素,如How Net中义原的深度和密度等,进而挖掘义原间关系,改进原有计算方法。实验结果表明,利用所提出的改进方法计算的词语语义相似度更加贴合人的主观认识。  相似文献   

4.
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN). 该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰. 利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题. 使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类. 实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法.  相似文献   

5.
社会化标签中普遍存在标签的主题粒度和文档不一致以及部分标签和文档内容无关这两个问题,而现有基于主题模型的社会化标签推荐算法并没有同时对二者进行建模. 针对这两点,提出了一种新的主题模型,该模型不仅允许标签和文档具有各自的主题粒度,而且允许标签来自与文档无关的噪声主题. 在两个不同的社会化标签语料上的实验结果表明,所提出的模型相比内容相关模型和标签的隐含狄利克雷分配模型,在混淆度和平均正确率均值这两个指标上均有所提高.  相似文献   

6.
主题分析技术在文档聚类中的应用   总被引:1,自引:0,他引:1  
为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.  相似文献   

7.
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。  相似文献   

8.
A new ontology-based question expansion (OBQE) method is proposed for question similarity calculation in a frequently asked question (FAQ) answering system. Traditional question similarity calculation methods use "word"to compose question vector, that the semantic relations between words are ignored. OBQE takes the relation as an important part. The process of the new system is:① to build two-layered domain ontology referring to WordNet and domain corpse;② to expand question trunks into domain cases;③ to use domain case composed vector to calculate question similarity. The experimental result shows that the performance of question similarity calculation with OBQE is being improved.  相似文献   

9.
简单命题的语义识别是进行自然命题逻辑推理的重要基础之一,知网在中文词汇和句子的相似度计算方面扮演着越来越重要的角色。在对领域命题进行了预处理后,针对简单命题的句型结构和构成成分的特点,通过改进义原相似度、词语相似度、句子相似度的计算方法,提出了一种基于知网的、新的句子相似度计算方法。实验表明:该方法可以简单而有效地计算词语相似度;在句子相似度计算时,可以减少助动词、修饰词的影响,更适合判断两个命题是否高度相似。  相似文献   

10.
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。  相似文献   

11.
基于编码器?解码器(encoder-decoder)框架的生成式方法在关键词抽取任务上得到了广泛应用并取得了较好的性能,然而该方法面临的主要挑战为建模有效的文档向量表示,及生成覆盖整个文档主题的关键词集合,这些挑战都会直接影响关键词抽取的结果。该文提出了结合邻域知识的文档级关键词抽取模型以应对这些挑战。具体来说,通过给指定文档添加少量的最近邻样本,原文档被扩展为一个文档集合。基于单词之间的距离将文档集合中的每个文档构建成词图,合并集合中的所有词图形成一个大图,然后利用图卷积网络进行编码。解码端引入了上下文修改机制和覆盖机制,使模型能够生成更加多样化的关键词来覆盖文档包含的所有主题。最后在4种数据集上分别与现有的基准模型进行对比,实验结果表明该方法能够有效提升关键词抽取的性能。  相似文献   

12.
VB创建Word格式化文档   总被引:1,自引:0,他引:1  
以VB创建Word格式化文档为目的,分析了VB中“Application”对象模型和“Document”子对象的结构.详细介绍了在VB中创建Word文档,以及向文档中添加文字、表格、页面设置及输出文档等步骤方法,从而实现了自动组卷系统中输出Word格式的试卷,满足了不需排版直接供印刷使用的高要求.本方法也可用于其它支持ActiveX的开发平台中.  相似文献   

13.
针对AutoCAD图形和Word文档混排时所遇到的问题,提出切实可行的解决方法,可以使AutoCAD图形和Word文档有效地实现图文混排达到"图文合一"的效果.  相似文献   

14.
提出了一种用于车载自组网(VANETs)的可靠信任传播模型,该模型通过引入属性相似度概念在陌生节点间建立信任关系,并进一步建立了一种新的动态包转发规则,从而实现了车载自组网的可信路由, 并给出了一种计算属性相似度的推荐方法. 仿真结果表明,所提出的信任传播模型具有较高的准确性.  相似文献   

15.
VANETs信任传播建模   总被引:1,自引:0,他引:1  
提出了一种用于车载自组网(VANETs)的可靠信任传播模型,该模型通过引入属性相似度概念在陌生节点间建立信任关系,并进一步建立了一种新的动态包转发规则,从而实现了车载自组网的可信路由, 并给出了一种计算属性相似度的推荐方法. 仿真结果表明,所提出的信任传播模型具有较高的准确性.  相似文献   

16.
传统的信息检索方法一般都采用对文本内容的词频进行分析的统计方法,这种索引方法仅仅考虑词语在文本中的出现率,因此不能抽取出表达文本语义的索引词。为了解决这个问题,本文提出了一种新的信息检索方法,即基于概念的权重索引方法。本方法引入了概念类的概念,并且提出了用概念之间存在的关系来表示文档中的词汇和概念的语义重要度。本方法比单纯的词汇信息更能体现文本的概念特征,提高信息检索的性能;同时还能降低文本向量的维数,减少计算量,提高检索效率。  相似文献   

17.
针对学术失范行为屡见不鲜的问题,研制的中文学术论文复制检测系统,不仅能在学术论文集数据库中锁定相似文档,还能对两个特定文档进行逐字逐句的比较,功能齐全,实用性强。改进的两个算法大大减小了复杂度,提高了运行速度。  相似文献   

18.

基于点线综合特征的视觉SLAM闭环检测算法

柳长安,程瑞营,赵丽娟

(华北电力大学,控制与计算机工程学院,北京 102206)

摘要:针对传统闭环检测算法中对单一的点特征矢量化构建视觉词典容易引起感知混淆,且当场景缺乏纹理信息时可提取的点特征数量很少不能有效的描述图像等问题,本文提出一种基于点线综合特征的闭环检测算法。本文对采集图像分别提取点特征和线特征,并构建一种可以融合点线特征的混合特征词典树,建立可以表征混合特征的单词向量,更好地描述环境的结构化信息和纹理信息。为使图像间相似度得分更合理,本文在不同的环境下设置不同相似度系数,选取相似性得分最高的候选帧作为候选闭环。最后通过实验验证了本文所提出算法的可行性和有效性。

关键词:闭环检测;即时定位与地图构建;视觉单词;点线综合

  相似文献   

19.
针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。  相似文献   

20.
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide.首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号