排序方式: 共有126条查询结果,搜索用时 15 毫秒
1.
2.
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与TextRank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。 相似文献
3.
4.
5.
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。 相似文献
6.
操作系统内核是计算机系统中最基本的软件组件, 它控制和管理计算机硬件资源, 并提供访问和管理其他应用程序所需的接口和服务. 操作系统内核的安全性直接影响整个计算机系统的稳定性和可靠性. 内核模糊测试是一种高效、准确的安全漏洞检测方法. 然而目前内核模糊测试工作中, 存在系统调用间关系的计算开销过大且容易误判, 以及系统调用序列构造方式缺乏合理能量分配以至于很难探索低频系统调用的问题. 本文提出以N-gram模型学习系统调用间关系, 根据系统调用的出现频次信息和TF-IDF信息优先探索出现频次低或者TF-IDF值高的系统调用. 我们以极低的开销, 在Linux 4.19和5.19版本的24 h实验中分别提升了15.8%、14.7%的覆盖率. 此外, 我们挖掘到了一个已知CVE (CVE-2022-3524)、8个新崩溃, 其中一个获得了CNNVD编号(CNNVD-2023-84723975). 相似文献
7.
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 总被引:2,自引:0,他引:2
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树, 计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像--单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不 区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹 配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算 的效率和准确性,提高了闭环检测的准确率和召回率. 相似文献
8.
针对基于用户打分的传统协同过滤推荐算法存在准确率较低以及计算延时的问题,提出了一种基于标签与协同过滤的并行混合推荐算法。该算法通过计算标签的词频-逆文档频率(TF-IDF)值降低流行标签的权重,根据用户的历史行为预测用户对其他资源的偏好值,最后依据预测偏好值排序产生Top-N推荐结果。对该算法的计算效率与复杂度进行了理论分析,并且通过并行编程模型MapReduce使其得到了实现,最后在实验中进行了它与Apache软件基金会项目Mahout的协同过滤算法的对比分析。实验结果表明该算法有较高的准确性,能有效地提高推荐效率。 相似文献
9.
10.
为提高移动机器人回环检测模块的准确率和实时性,提出一种基于特征地图的改进回环检测算法。在传
统模型的基础上,对关键帧的特征点进行筛选,选取高效特征点构建特征地图,利用视觉字典树对特征地图和关键
帧进行场景描述;对词袋模型进行改进,将场景分割用在图像信息的提取和特征聚类上;建立基于分层K++均值的
视觉字典树,得到改进的基于分层金字塔TF-IDF(term frequency–inverse document frequency)的匹配方法。实验结果
证明:相比FAB-MAP(fast appearance-based mapping)和RGB-D SLAM v2,改进算法在特征点规模、实时性、召回
率方面性能更优。 相似文献