首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对传统共词聚类分析法中共词矩阵构建不能全面反映主题词之间的关联问题,提出了基于高频主题词共现于同一篇文献多种格式内容构建共词矩阵的方法,针对传统聚类算法对于类团非球状且类团大小相异较大导致聚类效果不理想等问题,利用改进的CRUE聚类算法对共词矩阵聚类。并对PubMed中肺癌领域相关文献进行共词聚类分析,实验论证了改进后共词聚类分析方法的可行性。  相似文献   

2.
目前计算机辅助翻译在相似度计算方面存在很大的局限性,精度较低。针对特定领域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建,设计并实现汉语句子的相似度计算方法,提出基于词向量Jaccard相似度与基于词向量依存句法相结合的相似度计算方法,实验结果显示其效果比传统方法有较大提升。最后,将相关英汉句子相似度算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。  相似文献   

3.
孙广路  王晓龙  刘秉权  关毅 《电子学报》2008,36(12):2450-2453
 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.  相似文献   

4.
《现代电子技术》2017,(14):81-84
用户评论中存在产品特征表达多样性问题,在细粒度观点挖掘任务中需要对产品特征词聚类。首先,结合不同的语义相似度计算的特点,提出基于语义知识和上下文熵模型的语义相似度混合计算方法,计算抽取得到的特征词语义相似度;然后改进了传统CBC算法,提出适用于产品特征词聚类的CBC-LIKE方法实现聚类。最后在三个领域的真实评论语料上进行实验,对提出的语义相似度计算方法和聚类算法的性能进行了分析。实验结果表明,所提方法是有效的,与另外两种基线方法相比性能较优,取得了较好效果。  相似文献   

5.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

6.
关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。  相似文献   

7.
网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于MapReduce的知识聚类与统计机制:首先,提出基于MapReduce的共现矩阵构建算法MR-CoMatrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于MapReduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-CoMatrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。  相似文献   

8.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

9.
提出一种计算相似度的新方法,在计算相似度时考虑到查询词出现在文档中不同部分对相似度计算的不同贡献,即不同的权重系数,并用遗传算法确定各个权重系数.实验结果表明,这种新方法在信息检索中在计算相似度时比传统的向量空间模型方法具有更好的效果.  相似文献   

10.
模糊C-均值(FCM)聚类算法的一个主要问题是需要事先确定聚类的数目,为此定义了类内差异度和类间重叠度来分别度量同一个聚类中数据的相似度和不同聚类间的分离程度,进而基于这两个度量提出一个新的有效性函数用于判定最佳聚类数目。实验结果表明,该有效性函数能有效地判定聚类数目,并且有较好的鲁棒性。  相似文献   

11.
《电子学报:英文版》2017,(6):1221-1226
Category-based statistic language model is an important method to solve the problem of sparse data in statistical language models. But there are two bottlenecks about this model: 1) The problem of word clustering, it is hard to find a suitable clustering method that has good performance and has not large amount of computation; 2) Class-based method always loses some prediction ability to adapt the text of different domain. In order to solve above problems, a novel definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given and a bottom-up hierarchical clustering algorithm was proposed. Experimental results show that the word clustering algorithm based on word similarity is better than conventional greedy clustering method in speed and performance, the perplexity is reduced from 283 to 207.8.  相似文献   

12.
王超  杨静  张健沛 《通信学报》2015,36(2):144-157
为了降低轨迹数据发布产生的隐私泄露风险,提出了多种轨迹匿名算法。然而,现有的轨迹匿名算法在计算轨迹相似性时忽略了轨迹的形状因素对轨迹相似性的影响,因此产生的匿名轨迹集合的可用性相对较低。针对这一问题,提出了一种新的轨迹相似性度量模型,在考虑轨迹的时间和空间要素的同时,加入了轨迹的形状因素,可以在多项式时间内计算定义在不同时间跨度上的轨迹的距离,能够更加准确、快速地度量轨迹之间的相似性;在此基础上,提出了一种基于轨迹位置形状相似性的隐私保护算法,最大限度地提高了聚类内部轨迹的相似性,并且使用真实的原始位置信息形成数据"面罩",满足了轨迹k-匿名,在有效地保护轨迹数据的同时,提高了轨迹数据的可用性;最后,在合成轨迹数据集和真实轨迹数据集上的实验结果表明,本算法花费更少的时间代价,具有更高的数据可用性。  相似文献   

13.
张仰森  段宇翔  王建  吴云芳 《电子学报》2019,47(9):1919-1928
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性.  相似文献   

14.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

15.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

16.
针对迁移聚类问题,该文提出一种新的基于Kullback-Leiber距离的迁移仿射聚类算法(TAP_KL)。该算法从概率角度重新解释AP算法的目标函数,并借助于信息论中最常见的一种距离度量,即Kullback-Leiber距离,测量源域与目标域代表点的相似性。另外,通过详细分析TAP_KL算法与AP算法的目标函数,得出一个重要结论,即可以将源域与目标域的相似性嵌入到目标域数据集相似性矩阵的计算中,从而直接利用AP算法的优化算法优化TAP_KL算法的目标函数,解决基于代表点的迁移聚类问题。最后,通过基于4个数据集的仿真实验,进一步验证了TAP_KL算法在解决迁移聚类问题时的有效性。  相似文献   

17.
基于后缀树词序列核挖掘Web文档   总被引:1,自引:1,他引:0  
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类.理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间.在reuters21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用.  相似文献   

18.
袁里驰 《电子学报》2013,41(7):1337-1342
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.  相似文献   

19.
基于协同度的基站群利益树动态分簇算法   总被引:4,自引:0,他引:4  
该文针对协同基站群分簇算法缺乏通用模型的问题,提出了一种协同度分簇模型,将系统和容量最大化简化为协同度最大化。在该模型的指导下,将分簇问题建模为有向带权连通图的利益树生成问题,设计了一种利益树动态分簇算法。该算法能够并行生成多个规模动态变化的协同簇,克服了传统顺序分簇导致的系统性能受限的问题;且分簇结果的协同度之和最大,可获得近似最优的分簇性能。仿真结果表明,该算法与传统贪婪搜索算法相比,系统频谱利用率提高了约0.4 bit/Hz,且算法复杂度只与基站个数呈线性关系。  相似文献   

20.
模糊C均值(FCM)算法是一种基于贪心思想的迭代算法,算法沿迭代序列收敛到一个极小值,但存在搜索能力弱、易陷入局部最优的缺点.本文提出了一种基于禁忌搜索的模糊聚类算法,该算法在一个解的邻域内使用禁忌搜索,并采用了基于FCM局部收敛性质的长期表禁忌策略,保证在不断移动搜索起点的同时避免重复搜索;其次使用混沌优化思想与动态步长策略来提升算法的全局搜索能力,以达到获取全局最优解的目的.实验结果表明,改进算法极大地提高了聚类准确率,并具有良好的稳定性,与群智算法和遗传算法的优化相比也具有一定的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号