首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 235 毫秒
1.
潜在语义分析在中文信息处理中的应用   总被引:11,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

2.
基于音乐语义标签的音乐相似计算研究是音乐信息检索领域的另一个新的热点。该文提出一种基于标签挖掘的歌曲分类方法,以Last.fm音乐网站上的用户标签为特征进行歌曲相似性研究。文中将文本聚类中常用的潜在语义分析(LSA)方法和改进的K-means聚类方法相结合,应用于音乐语义标签的自动抽取;从音乐网站last.fm上抽取了6大类600首歌曲的8000多个用户标签作为音乐语义特征,并利用LSA进行歌曲向量的降维,形成了一个表示歌曲间相似关系的600×150维向量矩阵。最后利用K均值,根据音乐歌曲间的相似度进行歌曲分类,完成歌曲相似性比较。实验结果同没有LSA降维前及已有的HCC结果比较表明,使用文中提出的基于音乐标签的模型对歌曲进行分类,能得到较好的分类效果。  相似文献   

3.
[背景]短文本自动生成技术的研究对阅读与写作效率的提升、传播与引导影响力提升、智能人机交互满意度和机器语义理解能力的提升等都有重要意义.但生成技术的发展和实际应用需求难度的提升使得短文本自动生成技术面临着诸多困难与挑战.[方法]基于神经网络的生成方法作为人工智能领域的关键技术,在短文本摘要、对话生成、评论文本生成、诗歌...  相似文献   

4.
潜在语义分析理论及其应用   总被引:18,自引:1,他引:17  
潜在语义分析(Latent Sereantic AnMysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。  相似文献   

5.
罗海蛟  柯晓华 《计算机科学》2017,44(Z11):102-105, 128
主观题自动评分(Automated Scoring Subjective Responses,ASSR)在语言学习与语言测试领域的诊断信息及信度方面具有重要的应用前景。将主题模型中的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)引入到中文主观题自动评分中,提出了一种结合专家知识的改进的LDA模型,并采用了一种综合文档-隐含主题概率向量及隐含主题-核心词项概率向量的文本特征表示方式。实验对比了改进的LDA与潜在语义分析(Latent Semantic Analysis,LSA)的自动评分效果,结果表明改进的LDA模型在中文主观题自动评分中切实有效。  相似文献   

6.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

7.
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NMI)和准确度都有明显提高。  相似文献   

8.
传统潜在语义分析(Latent Semantic Analysis, LSA)方法无法获得场景目标空间分布信息和潜在主题的判别信息。针对这一问题提出了一种基于多尺度空间判别性概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)的场景分类方法。首先通过空间金字塔方法对图像进行空间多尺度划分获得图像空间信息,结合PLSA模型获得每个局部块的潜在语义信息;然后串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息;最后结合提出的权值学习方法来学习不同图像主题间的判别信息,从而得到图像的多尺度空间判别性潜在语义信息,并将学习到的权值信息嵌入支持向量基(Support Vector Machine, SVM)分类器中完成图像的场景分类。在常用的三个场景图像库(Scene-13、Scene-15和Caltech-101)上的实验表明,该方法平均分类精度比现有许多state-of-art方法均优。验证了其有效性和鲁棒性。  相似文献   

9.
生成语言的质量评价很大程度上影响着自然语言生成的研究,已成为制约该领域发展的瓶颈问题。通过对机器翻译、自动文摘、对话系统、图像标题生成和机器写作等广义自然语言生成任务的语言质量评价方法的汇总,介绍了人工评价和自动评价的特点、优缺点和开放评价资源,分析了不同任务的不同评价角度和适用面。不同评价方法的对比分析,可为方法融合和关键问题的探索提供借鉴。整体上机器生成语言质量评价还局限于语言形式的比较,在语义表达的准确性、衔接连贯性等深层评价上存在诸多挑战。结合评价难点问题和现有研究的推进情况,分析了生成语言质量评价的研究趋势。  相似文献   

10.
周运  刘栋 《计算机工程与设计》2011,32(8):2833-2835,2869
随着信息的快速更新,知识本体经常不能满足用户的需求,提出了一个能把新关键词插入到相应本体中的领域本体更新方法。该方法用LSA(潜在语义分析)来获取关键词的语义特征,然后把LSA矩阵转换成基于Web文档的高维空间。通过比较高维空间中关键词和相应本体概念来获取关键词和概念之间的相似值,如果这个值低于某个设定值,这个关键词就插入到领域本体概念节点中。初步的试验结果表明了这个方法的有效性。  相似文献   

11.
This paper comparatively analyzes a method to automatically classify case studies of building information modeling (BIM) in construction projects by BIM use. It generally takes a minimum of thirty minutes to hours of collection and review and an average of four information sources to identify a project that has used BIM in a manner that is of interest. To automate and expedite the analysis tasks, this study deployed natural language processing (NLP) and commonly used unsupervised learning for text classification, namely latent semantic analysis (LSA) and latent Dirichlet allocation (LDA). The results were validated against one of representative supervised learning methods for text classification—support vector machine (SVM). When LSA and LDA detected phrases in a BIM case study that had higher similarity values to the definition of each BIM use than the threshold values, the system determined that the project had deployed BIM in the detected approach. For the classification of BIM use, the BIM uses specified by Pennsylvania State University were utilized. The approach was validated using 240 BIM case studies (512,892 features). When BIM uses were employed in a project, the project was labeled as “1”; when they were not, the project was labeled as “0.” The performance was analyzed by changing parameters: namely, document segmentation, feature weighting, dimensionality reduction coefficient (k-value), the number of topics, and the number of iterations. LDA yielded the highest F1 score, 80.75% on average. LDA and LSA yielded high recall and low precision in most cases. Conversely, SVM yielded high precision and low recall in most cases and fluctuations in F1 scores.  相似文献   

12.
杜修平  何丕廉 《计算机工程》2006,32(13):190-192
介绍了自动标绘系统的需求和系统流程,并对语音采集、语音识别和自动标绘3个阶段的技术难点及解决方案进行了详细介绍。重点介绍了采用语音自动重叠技术以减少语音切割失误,提高识别精度。描述了对识别出的数字串运用打分系统进行智能切分,提取数据点以提高标绘精度。系统采用VC.NET和SQL Server实现,稳定环境下语音识别精度达到97%以上,标绘正确率达到95%,较好地实现了系统需求。  相似文献   

13.
14.
案例学习是CBR(Case-Based Reasoning)推理机的重要环节,但由于案例的多样性以及对领域的依赖性,导致CBR系统中案例自动生成困难的问题。针对这一问题,本文提出将seq2seq(Sequence-to-Sequence)模型用于案例学习,通过seq2seq模型自动生成案例,引入attention机制,提高seq2seq模型生成案例的效果,并利用潜在语义分析LSA(Latent Semantic Analysis)对网络爬取语料库进行筛选,利用过滤后的语料库对模型进行训练,提出一种基于三元组的评估方法,对生成案例进行评估和存储,从而实现CBR推理机的自主学习。最后将改进的案例学习系统应用到实际的智能机器人上进行验证,测试结果表明该方法具有可行性,且能够有效提高机器人的智能性及易用性。  相似文献   

15.
In digital cameras, the process of making white colors to appear as white under different illuminants is referred to as auto white balancing. This paper presents an auto white balancing algorithm, named discrete wavelet transform (DWT)-based scoring, which is computationally much more efficient than the original auto white balancing scoring algorithm. Its computational efficiency is thus utilized to achieve a real-time implementation on an actual digital camera platform. The platform consists of the Texas Instruments TMS320DM320 programmable processor which is specifically designed for the digital camera market. The real-time implementation results indicate the effectiveness of this algorithm in identifying a scene illuminant as compared to the widely used gray-world auto white balancing algorithm.  相似文献   

16.
介绍了Modbus协议与ActiveX控件技术,以及基于Modbus协议通信的ActiveX控件实现;同时介绍了Modbus自动测试系统的流程和方案。最终说明了ActiveX控件技术的应用为MODBUS协议自动测试系统的开发提供了一种快速有效的解决方案。  相似文献   

17.
极限学习机(ELM)由于高效的训练方式被广泛应用于分类回归,然而不同的输入权值在很大程度上会影响其学习性能。为了进一步提高ELM的学习性能,针对ELM的输入权值进行了研究,充分利用图像局部感知的稀疏性,将局部感知的方法运用到基于自动编码器的ELM(ELM-AE)上,提出了局部感知的类限制极限学习机(RF-C2ELM)。通过对MNIST数据集进行分类问题分析实验,实验结果表明,在具有相同隐层结点数的条件下,提出的方法能够获得更高的分类精度。  相似文献   

18.
陈玺  杨雅婷  董瑞 《计算机工程》2021,47(12):112-117
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。  相似文献   

19.
在大规模计算机基础课考试中,自动阅卷和评分是必然选择。采用DELPHI自主开发了计算机考试系统,以自动评分模块为例,详细介绍和分析了各题型的评分策略及一些关键技术的解决方法。  相似文献   

20.
In the News     
On the face of it, scoring student essays would seem to push AI capabilities to their limits. After all, students express themselves through their writing in vastly different ways. Furthermore, they might misunderstand the essay questions they've been asked to write about, or drift off the topic in the course of writing. Even so, for decades now, researchers have known ways to automatically evaluate student writing. What's been lacking, explains Tom Landauer, executive vice president at the Knowledge Technologies group ol Pearson, is the computer processing power to make grading practical. Processing power has now become a nonissue, of course. LSA is one of many techniques that researchers are employing to advance the state of automated essay grading.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号