共查询到19条相似文献,搜索用时 62 毫秒
1.
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。 相似文献
2.
3.
4.
5.
6.
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 相似文献
7.
为提高协同过滤算法的可伸缩性, 加快其运行速度, 提出了一种基于GPU(graphic processing unit)的并行协同过滤算法来实现高速并行处理。GPU的运算模式采用单指令多数据流, 适用于逻辑性弱、数据量巨大的运算, 而这正是协同过滤算法所具有的特点。使用统一计算设备框架(compute unified device architecture, CUDA)实现了此协同过滤算法。实验表明, 在中低端的GPU上该算法与在高端的四核CPU上的协同过滤算法相比, 其加速比达到40倍以上, 显著地提高了算法的可伸缩性, 而算法在准确率方面也有优秀的表现。 相似文献
8.
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 总被引:1,自引:0,他引:1
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 相似文献
9.
为了充分利用现有的多核CPU计算资源,提出一种基于OpenMP框架的快速并行分层算法,并对其性能进行讨论.该算法利用模型自然分组特征建立拓扑关系分组,使得模型拓扑数据结构的建立时间缩短;在此基础上,采用基于OpenMP的多线程计算,将拓扑结构的建立过程和求取层片轮廓的过程并行化计算,可以取得接近CPU核数的加速比,因此分层时间明显降低.对于复杂三维模型的超大STL文件进行分层处理,实例计算表明文中算法是一种高效且易于实现的方法. 相似文献
10.
11.
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 相似文献
12.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。 相似文献
13.
14.
基于统一计算设备架构(CUDA)对图形处理器(GPU)下的并行粒子群优化(PSO)算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束(Warp)才是流多处理器(SM)调度和执行的基本单位。为了充分利用Block中线程的并行性,提出基于自适应线程束的GPU并行PSO算法:将粒子的维度和线程相对应;利用GPU的Warp级并行,根据维度的不同自适应地将每个粒子与一个或多个Warp相对应;自适应地将一个或多个粒子与每个Block相对应。与已有的粗粒度并行方法(将每个粒子和线程相对应)以及细粒度并行方法(将每个粒子和Block相对应)进行了对比分析,实验结果表明,所提出的并行方法相对前两种并行方法,CPU加速比最多提高了40。 相似文献
15.
针对串行情况下光子映射算法速度慢的问题,对光子映射算法并行化进行可行性分析,充分利用图像处理器(GPU)的统一设备计算架构(CUDA)的并行和计算能力,实现光子映射算法的并行化。同时针对算法中光子发射追踪阶段生成GPU线程数与光子数相同的方法的不足以及平均分配方法所造成的资源浪费等,提出线程之间协同工作的方法并采用动态平衡处理,使光子渲染速度提升了将近一倍。实验结果证明了多线程间协同工作及动态平衡相结合方法的有效性。 相似文献
16.
17.
文本表示是自然语言处理中的基础任务,通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时,无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法,引入维基百科词条之间的关系,通过PageRank传播模型,能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。 相似文献
18.
针对无损压缩编码中梯度调节预测器(GAP)模板的方向固定、单一的问题,根据实际边缘具有线状变化增量相同的特征,提出多方向线状梯度调节预测器(MLGAP)模板。首先从图像中心向四周划分四个子图像,应用图形处理器(GPU)并行技术,在每个子图像中采用MLGAP模板计算预测值;然后利用错误反馈信息构建预测误差图像;再通过大津(OTSU)算法计算阈值;分类误差图像边缘;最后用Hilditch算法细化边缘。实验结果表明,图像边缘检测定位精确,噪声少,细节丰富,而且GPU并行技术加速了图像处理。 相似文献
19.
针对前馈型图像多层视觉表示方法难以处理局部模糊情况,提出一种基于潜在狄利克雷分配(LDA)的图像多层视觉表示方法——LDA-IMVR。通过递归的概率分解方式,获得LDA的递归生成模型;同时,通过学习和推断多层结构的所有分层,以及利用反馈方式来提高分类学习性能。在Caltech 101数据集上的实验结果表明,与相关的多层视觉表示方法比较,LDA-IMVR提高了数据对象的分类性能,并且在分量学习和图像特征区域可视化方面也得到了较好的效果。 相似文献