首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
基于多层向量空间模型的Web信息检索方法   总被引:1,自引:0,他引:1  
雷景生 《计算机应用》2004,24(4):26-27,30
针对Web信息检索的特点,在分析传统向量空间模型存在问题的基础上,提出了一种多层向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段。按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。  相似文献   

2.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制.  相似文献   

3.
针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题,提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector spacemodel)。该模型把领域本体中的概念扩展为文档特征词,并通过概念间的语义关系对特征词权重进行调整,最终建立包含语义关系的文档DOBVSM。通过实验分析表明:DOBVSM计算的文档相似度值更加发散,与专家评价值最为接近,能够较好地反映文档之间的相似情况。  相似文献   

4.
随着社会与互联网的不断发展,公民的法律意识越来越强,传统的律师业务流程与发展模式已经不能满足客户和行业的需求。根据已有的专业律师咨询回复规范,文中建立了判定 回复信息质量优劣的准则,并从5个方面对回复文本进行了量化描述。利用word2vec算法对律师问答系统的历史数据库进行训练,得到该数据库的词向量和对应词语的相似度。基于词语相似度和文本长度,构造文本间相似度。由此,建立了律师回复信息质量评价模型。对数据库中各个律师的问答文本进行了量化分析,结果表明,该模型能够很好地评估律师的回复质量。  相似文献   

5.
6.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

7.
基于改进向量空间模型的Web信息检索技术研究   总被引:12,自引:1,他引:12  
提出了一种改进的向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。  相似文献   

8.
基于本体的向量空间模型的压缩算法   总被引:2,自引:0,他引:2       下载免费PDF全文
采用本体(Ontology)为向量空间模型提供更为丰富、详细的概念空间,在本体的支持下,文档中的术语不再被孤立地看成关键词,而是彼此间有了一定的语义联系。以已获得丰富而详细的本体为前提,考虑当本体空间很大时,解决向量空间的高维数给计算带来复杂性与难度这一问题,提出基于HCA(Hierarchical Clustering Algorithm)的向量空间压缩算法。  相似文献   

9.
文字类主观题的自动批改是在线考试系统的一个关键技术。本文在研究主观题自动批改技术现状的基础上,提出了一种基于向量空间模型的短语级句子相似度计算方法,并基于该计算方法设计了一种主观题自动批改算法,经验证,实验结果基本达到预期目标。  相似文献   

10.
基于向量空间模型的题库相似度检查算法   总被引:2,自引:0,他引:2  
随着题库系统的广泛应用和题库中试题数量的日益增大,如何避免试题重复,成为研究的重要问题。利用向量空间模型,首先通过TF-IDF公式得到试题的文本权重向量,再通过余弦理论计算试题相似度,并与设定的相似度阈值比较,得到相似度检查结果。在现有题库的基础上进行的实验结果显示,算法计算出的试题相似度的准确率与专家人工判别相比达到94%。算法取得了较好的结果。  相似文献   

11.
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。  相似文献   

12.
针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。  相似文献   

13.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

14.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

15.
文中研究的是基于常问问题库(FAQ库)的智能答疑系统。FAQ库是很多智能答疑系统中的一个重要组成部分,它把用户常问的问题和相关答案保存起来,对于用户输入的问题,可以首先在FAQ库中查找答案。如果能够找到相似的问题,就可以直接将问题所对应的答案返回给用户。为解决智能答疑系统因词的同义或多义现象而导致的“漏答”或“错答”,采用一种基于加权潜在语义分析模型的相似度计算方法。针对特定教育领域的智能答疑系统.改进了反映词与词之间相关性的权值计算。通过对特定课程中常问问题的实验,结果显示明显优于向量空间模型。  相似文献   

16.
向量空间模型是最常用的信息检索模型,它根据词频来计算文档之间的相关度,这种方法虽然能够满足用户的基本检索需求,但是对于检索要求较高的用户,其效果仍然不甚理想。文中在向量空间模型的基础上,首先通过领域本体和上层本体来计算特征词项之间的相似度,据此得出与查询词相关的词,在求词项频率和逆文档频率时考虑这些词,然后引入了词序相关度和词语相邻相关度这两个概念,把特征项的位置关系也考虑进来。实验结果表明,文中提出的模型相比原始向量空间模型,在准确率上有了较大的改善。这完全说明,与原始向量空间模型相比,文中提出的检索模型不仅考虑了与原有词项具有相似语义的词项,而且还考虑了词项顺序和词项相邻信息,从而更能符合用户的检索要求。  相似文献   

17.
基于概念向量空间模型的中文自动文摘系统   总被引:1,自引:0,他引:1  
文章提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号