首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN). 该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰. 利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题. 使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类. 实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法.  相似文献   

2.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

3.
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型. 实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.  相似文献   

4.
提出了一个基于统计的从未标注语料库中半自动获取语义语法算法。该算法对特定领域的语料库进行反复的时间聚类和空间聚类,通过时间聚类发现语言片段的语法结构,通过空间聚类发现语言片段的语义类别;循环迭代,可以生成一个粗糙的文法。最后,将这些抽取出来的粗糙文法经过人工校对,从而得到新领域的语义语法。实验结果表明,该方法是有效和切实可行的。  相似文献   

5.
提出了一个基于统计的从未标注语料库中半自动获取语义语法算法。该算法对特定领域的语料库进行反复的时间聚类和空间聚类,通过时间聚类发现语言片段的语法结构,通过空间聚类发现语言片段的语义类别;循环迭代,可以生成一个粗糙的文法。最后,将这些抽取出来的粗糙文法经过人工校对,从而得到新领域的语义语法。实验结果表明,该方法是有效和切实可行的。  相似文献   

6.
针对回顾式话题检测方法存在的话题检测时效性较差的问题,提出了改进的位置敏感哈希(LSH)算法,并应用于互联网新闻层次化话题检测. 在挖掘新闻内容特征的同时,应用潜在狄利克雷分布主题模型挖掘新闻的语义特征,将非二进制空间的内容特征向量和主题特征向量转换到二进制特征空间上,依次应用LSH算法对新闻文本基于内容特征和主题特征聚类,得到具有"主题-内容"层次的话题. 实验结果表明,该方法通过挖掘新闻的内容特征和主题特征,能更准确和完整地表现新闻内容;将内容特征和主题特征转换到统一的二进制空间,有效降低了聚类过程的时间复杂度,在保证话题检测准确率和话题在语义层面上扩展性的前提下,提高了话题检测的效率.  相似文献   

7.
针对词语相似度这一问题,在大规模语料库上,通过分布相似对汉语词相似进行了研究.实现了一个词相似计算平台,可灵活组合各种计算词相似算法,新增加语料库可以被增量式用于计算;对比研究了基于距离的度量和基于概率的度量2类算法的性能,通过和人工创建的黄金标准进行比较,基于概率的度量算法要优于基于距离的度量算法.  相似文献   

8.
为了从人工神经网络中抽取规则,提出一种新的规则抽取算法。网络被训练并剪枝后,将隐节点的激活值离散化,对输入到隐节点的权重进行聚类,聚类过程中可根据隐节点的激活值动态调整权值聚类数目,进而高效准确地抽取规则。实验结果表明,该算法可明显降低规则抽取的时间复杂度,减少生成规则的数量。  相似文献   

9.
针对组合测试生成的测试用例在程序结构测试中出现冗余的问题,应用K-means聚类算法对基于蚁群算法生成的组合测试用例集进行聚类优化。以白盒测试中的逻辑覆盖为依据,将测试用例程序覆盖差异度作为分类的量化标准,根据测试代价决定聚类数目,在每个聚类簇中抽取处于中心点的测试用例构成新的集合。实验结果表明,该算法可以有效减小测试用例集的规模;对比分析不同覆盖准则,可找到在测试用例标准化过程中最优的逻辑覆盖方法。  相似文献   

10.
针对现有数据扰动方法难以维持原始数据的聚类可用性问题,提出了一种隐私保护数据扰动算法DPTPE.基于邻域拓扑势熵将节点划分为不同类型,对于邻域分散型节点,以该节点的k邻域中节点坐标的均值替换其原始坐标;对于邻域紧密型节点,在其安全邻域中随机选择一个节点替换该节点。实验结果表明,DPTPE算法可以保护数据的隐私安全,还能够较好地维持数据集的聚类可用性。  相似文献   

11.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

12.
计算图的互模划分在许多应用领域中起着至关重要的作用.图中两个点是互模的当且仅当这两点具有相同的特征.随着图数据规模的增大,传统的运行在单机上的互模划分算法面临着越来越大的挑战,分布式算法以及并行算法则成为提高图计算可扩展性的重要途径.最近研究人员提出两种基于MapReduce计算模型的分布式互模划分算法,算法均计算图的局部互模划分.采用MapReduce计算模型的分布式互模划分算法具有网络通讯代价高昂的问题,每次MapReduce迭代操作均会将整个图中所有点边的状态通过网络传输,重新为点边分配计算节点,但实际上计算点的局部互模划分特征仅需要局部信息.以此为研究出发点,本文提出了基于分布式图数据处理平台的互模划分算法,仅使用点的局部信息来计算其特征,进而提升计算效率.经过实验验证,本文算法可以大幅度减少算法执行过程中的网络数据传输量.在包含数亿边大图上的实验表明,在未经图的预处理的情况下,本文算法的时间效率提升了7~16倍,有效的解决了MapReduce计算模型带来的网络通讯代价高昂的问题.  相似文献   

13.
物联网要求对海量信息源里的不同主题,自动地高性能地进行检测和融合。目前大多数公开报道的中文主题检测算法时间复杂度是非线性的,在海量多信息源的信息融合方面缺乏可行性。该文采用高效能的一元语法模型结合全文检索的方法降低主题间的比较次数,理论上将算法效率提升到线性。通过新华社实际数据的实验证实,算法的时间复杂度确实为线性的。另算法应用于两项云计算的实际产品中,也验证了算法适用于物联网环境下的高速信息融合。  相似文献   

14.
寻找查询点的最近邻是信息处理相关领域的主要任务之一。在数据规模较大时需要采用快速检索算法,常用的快速检索算法主要是基于树的算法,但是当数据点维数较高时,这些算法的效率会变低。位置敏感哈希是当前解决高维搜索的最快的算法,文章对汉明空间、欧式空间下的位置敏感哈希算法的实现方案进行了详细分析,对算法中数据点冲突概率、空间时间消耗、参数调整对算法性能的影响进行了详尽的研究和试验,最后讨论算法的优点和缺点,说明了算法应用于视觉聚类的可能性。  相似文献   

15.
PageRank模型在中文情感词极性判别中的应用   总被引:1,自引:1,他引:0  
针对倾向性分析任务重的基础性工作——情感词的极性判断工作,提供了一种基于PageTank模型的情感词极性判断方法.由待判别情感词和少量中子情感词构成图中的节点,利用知网(HowNet)语义资源计算词语间的语义想死度,进而得到图中节点间边的权重.通过PageRank模型的引入,综合利用有标种子情感词和无标待判别情感词实现对无标情感词的极性判别.与传统的基于HowNet的情感词判别方法相比,PageRank模型的引入使情感词判别的准确率平均提高10%左右,充分验证了所提方法的可行性.  相似文献   

16.
针对如何有效地利用图像视觉信息与标注信息进行图像聚类的问题,提出了一种基于视觉单词与标注单词共生的聚类算法.在视觉特征空间,采用K-means算法对图像聚类,得到表征图像视觉信息的视觉单词,即聚类中心.在图像标注字空间,计算各聚类中心下标注单词的统计分布,建立视觉单词与标注单词共生矩阵,进而针对图像提取嵌入有视觉信息的标注词特征LDA(latent dirichlet allocation)主题模型作为最终聚类算法完成图像的聚类.通过对Pascal VOC 2007标注图像数据库进行的实验仿真以及对比试验结果表明,基于视觉单词与标注单词共生的聚类算法可以有效地利用图像的视觉信息与标注信息的互补特性,提高聚类算法的性能.  相似文献   

17.
为了能够同时优化局部可修复码的平均信息修复度、平均修复度以及更新复杂度,并降低构造局部可修复码的算法复杂度,通过分析Tanner图的特点,提出了一种新的构造方法。首先,对局部校验节点进行设计,在满足局部可修复码的平均信息修复度为最优的基础上,通过区分局部组的特点,对重叠组进行分类构造,优化码的平均修复度;其次,对全局校验节点进行设计,优化码的更新复杂度;最后对构造码的算法复杂度进行分析和对比。结果表明,所提出的方法优化了以上所述的性能,且降低了局部可修复码在构造过程中的复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号