首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
PAM概率主题模型研究综述   总被引:1,自引:0,他引:1  
近年来,主题模型逐渐成为计算机科学领域的一个研究热点,在自然语言处理、文本分类以及信息检索等方面都有很广泛的应用。介绍了概率主题模型的发展后,主要针对PAM模型及其改进的层次PAM和非参PAM进行了分析和比较,层次PAM可以更好地表达主题层次结构;非参PAM则是给定一个基于HDP的非参贝叶斯先验,对复杂结构的模型有更强的表现力。最后对PAM相关主题模型的理论及应用进行了总结,并对未来发展趋势进行了探讨。  相似文献   

2.
在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation, LDA)获得汇编指令中潜在的“文档-主题”、“主题-词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档-主题”、“主题-词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体.  相似文献   

3.
针对微博本身的语言特点,提出采用PAM(Pachinko Allocation Model)这种能够提取文本隐含主题的产生式模型,对微博的非结构化文本信息进行热点提取。采用吉布斯抽样方法计算模型参数,获取微博热点的分类分析以及关键词。在真实数据集上的实验表明,PAM模型能够有效地对微博热点进行挖掘。  相似文献   

4.
怀宝兴  宝腾飞  祝恒书  刘淇 《软件学报》2014,25(9):2076-2087
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如“苹果”既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.  相似文献   

5.
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。  相似文献   

6.
异常处方指的是医生为患者所开具的存在异常的处方。医疗处方中出现异常,如滥用药或者开错药等,会影响患者的治疗效率,甚至造成严重的后果。由于一些主观或者客观原因,医生总会开具一些异常处方。检测出这些异常处方能够提升患者就医效率,减少社会医疗成本,并且对药物滥用、多开药、错开药的有效管理等都有着重要意义。为此,提出了一种基于扩展主题模型的异常处方检测方法。该方法能够自动地从大量处方数据中检测出异常处方,并且对于每一个新的处方,该方法都能够判断其诊断和用药是否匹配,进而判断其是否正常。与其他异常检测算法相比,该方法具有更广泛的应用,不仅可以在医疗领域中使用,以检测异常处方,还可以在其他领域中使用,以检测其他特征之间的匹配关系异常。该方法已经得到了实现,并在真实的处方数据集中得到了验证。  相似文献   

7.
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其它相关主题的分布,和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的结点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其它主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM即可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的结点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。  相似文献   

8.
基于流量分析的网络隐蔽通道检测模型   总被引:1,自引:1,他引:1  
薛晋康  许士博  吴兴龙 《计算机工程》2002,28(12):46-48,284
针对传统的异常信息流检测方法的不足,设计了一种基于流量分析的网络隐蔽通道检测模型,它采用了概率统计中的泊松分布和数据挖掘中的聚类分析等方法,开辟了一条检测信息暗流的新途径。  相似文献   

9.
伴随着信息技术的发展,传统纸质新闻逐渐向新媒体新闻转变.与此同时,近年来数据挖掘和自然语言处理等技术得到了极大的发展,使得对新闻所蕴含丰富语义和主题进行深度挖掘成为可能.然而,信息的超载使得主题可视化成为一个新的挑战,即如何以更好的方式来呈现海量互联网文本所蕴含的主题.隐形语义分析(LDA)是近年来兴起的主题建模方法,被当前学术界认为是主流的主题建模技术.文中首先介绍以LDA为主的文本概率主题建模技术及其发展,讨论了新闻主题建模特点;随后概括对比新闻主题可视化的若干方法,并对其进行分类,分析不同方法的适用性和局限性;最后对新闻主题可视化进行总结和展望.  相似文献   

10.
徐洁  范玉顺  白冰 《计算机应用》2016,36(8):2103-2108
针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。  相似文献   

11.
一种基于八叉树的OBB包围盒碰撞检测方法   总被引:3,自引:0,他引:3  
碰撞检测技术是大规模复杂场景渲染的关键技术之一,它可以有效地提高虚拟环境的真实感和沉浸感.碰撞检测的研究目标是如何在很高的实时交互要求下完成大量复杂物体的相交检测.提出一种将场景图中的OBB包围盒以八叉树的形式划分,并利用八叉树的层次结构实现有效碰撞检测的方法,该方法从宏观到微观的搜索方式可以快速确定需要进行相交检测的对象列表,有效地避免所有几何节点与运动节点的相交检测,提高了碰撞检测的效率,并且采用OBB包围盒来描述几何模型,有效地提高碰撞检测的精度.  相似文献   

12.
快速、精准的目标检测方法是计算机视觉领域的研究热点之一,目前通用的目标检测模型主要包括两个部分,候选区域提取和分类器设计。基于卷积神经网络CNN和超像素算法提出了一种新型面向微小目标的检测方法。首先对目标图像进行超像素过分割,然后提取过分割区域的特征并以此进行区域合并,最后提取候选区域。与传统建议区域提取方法相比,本方法能够在保证召回率的前提下大量减少候选区域的数量。为了克服小目标特征提取的困难,本算法利用多尺度和多层次CNN提取候选区域的中高层语义信息进行目标分类。通过对车辆年检标示数据的实验表明提出的基于超像素过分割候选区域提取算法具有较高的召回率,在同等候选区域数量的情况下与Edge Box、Bing、Selective search等方法相比分别提高2%、2.4%和3.5%,同时基于多层次多尺度的目标分类算法能有效降低误检率,提高检测率。  相似文献   

13.
针对字符图像中笔画内部像素点灰度的屋脊型分布特点,提出了一种新的字符图像细化方法.该方法利用字符图像中灰度截面曲线,获取了屋脊型边缘的候选点集,通过对候选点集的进一步筛选和修补,取得了定位较为准确的屋脊边缘点,实现了数字字符灰度图像的可靠细化.  相似文献   

14.
基于隐马尔可夫模型的网络入侵检测方法   总被引:1,自引:0,他引:1  
介绍了基于隐马尔可夫模型的网络入侵检测系统的检测方法,并且建立了两个隐马尔可夫模型,通过对数据包的分析,得出系统的检测结果.实验数据表明,该方法能有效地提高异常检测效率,对入侵检测具有重要价值.  相似文献   

15.
为了提高声音活动检测的鲁棒性,提出了一种基于GMM模型的声音活动检测方法.此方法在频谱特征空间中建立背景噪音和语音的GMM模型,然后采用模型匹配的方法对被测信号进行区分.此方法自适应更新GMM模型的参数,使之可以适应环境的变化.实验结果显示该方法在噪音环境中比传统的声音活动检测方法具有更高的准确率.  相似文献   

16.
基于支持向量机的角点检测方法研究   总被引:1,自引:0,他引:1  
支持向量机是一种基于VC维理论和结构风险最小化原则的统计学习方法,具有小样本学习、推广能力强、解为全局最优等优点.基于支持向量机的角点检测方法,不需要梯度信息,只需对角点样本进行学习,找出角点的特征信息,便可实现对角点的正确检测.通过恰当选取核函数、参数值以及训练样本集,实现了对摄像机标定模板角点的正确检测,并且对畸变角点和含噪声角点也有很好的检测效果.与传统方法相比,所提出的方法具有更强的角点检测能力.  相似文献   

17.
提出了一种基于彩色路面区域分割的候选车辆视频检测方法.该方法首先根据路面部分颜色的分布特点从单帧彩色图像中分割出路面部分并完成路面区域背景的初始化,然后通过对路面区域运用背景差方法和相关后处理过程进行动静态候选车辆的检测和分割.由于采用一种双背景策略能够在车辆检测的同时完成背景的训练和替换更新,该算法克服了传统背景差算法背景更新时容易存在误差累积以及对环境光线变化敏感的缺点,实现简单、稳健性好,可以满足交通视频监控系统中背景更新和车辆检测的实时性处理要求,实验结果证明了该方法的有效性.  相似文献   

18.
针对恶意代码采用混淆技术规避安全软件检测的问题,提出一种基于模型检测的恶意行为识别方法。方法将检测恶意行为转换为模型对属性的验证过程:利用谓词时态逻辑公式描述代码的恶意行为,从程序执行过程中的系统调用轨迹提取基于谓词标记的Kripke结构,通过检测算法验证模型对公式的可满足性。实验结果表明以上方法可有效识别混淆后的恶意代码。  相似文献   

19.
为进一步提高Android恶意应用的检测效率,提出一种基于BHNB(Bagging Hierarchical Na?ve Bayesian)的细粒度Android恶意应用检测模型。该模型首先对样本库中的应用进行类别划分,并分别对其进行动态分析,提取各个应用程序的行为信息作为特征;然后,采用层次朴素贝叶斯HNB(Hierarchical Na?ve Bayesian)分类算法对各类应用特征集合进行分别训练,从而构建出多个层次朴素贝叶斯分类器;最后,采用Bagging集成学习方法对构建出的多个层次朴素贝叶斯分类器进行集成学习,构建出基于层次朴素贝叶斯的Bagging集成学习分类器BHNB。实验结果表明,该模型能够有效检测出Android恶意应用,且检测效率较高。  相似文献   

20.
提出基于像素块的边缘直线检测算法.先在取定的像素块中建立模板,在原图上移动像素块并用模板进行比对,对累加变量进行累加,而后用阈值判定法则进行判断,最终确定出边缘直线段.通过编程试验证明了其算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号