期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈雅兰胡小华涂新辉何婷婷《计算机科学》2015,42(7):265-269

在大多数现有的检索模型中常常忽略了如下事实:一个文档中匹配到的查询词项的近邻性和打分时所基于的段落检索也可以被用来促进文档的打分。受此启发,提出了基于位置语言模型的中文信息检索系统,首先通过定义位置传播数的概念,为每个位置单独地建立语言模型;然后通过引入KL-divergence检索模型,并结合位置语言模型给每个位置单独打分;最后由多参数打分策略得到文档的最终得分。实验中还重点比较了基于词表和基于二元两种中文索引方法在位置语言模型中的检索效果。在标准NTCIR5、NTCIR6测试集上的实验结果表明,该检索方法在两种索引方式上都显著改善了中文检索系统的性能,并且优于向量空间模型、BM25概率模型、统计语言模型。相似文献

2.

基于主题词对的文档重排方法

下载免费PDF全文

何婷婷许婷瞿国忠涂新辉《计算机工程与应用》2007,43(11):161-163

信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6% 和55.8%。相似文献

3.

一种全文检索系统的设计与实现 总被引：4，自引：0，他引：4

涂新辉何婷婷罗景《计算机工程》2005,31(17):55-57

在对全文检索有关技术进行分析和研究的基础之上,提出并实现了一个实用的全文检索系统UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案以及分布式检索。依次讨论了该系统中的存储层、词法语法分析层、系统核心接口层。最后给出了该系统的一种分布式部署方案。相似文献

4.

概率潜在语义检索模型中中文索引技术的比较研究

罗景涂新辉《计算机与数字工程》2007,35(4):102-106

概率潜在语义检索模型使用统计的方法建立“文档—潜在语义一词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明：在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。相似文献

5.

基于相关术语群的中文查询扩展

涂新辉罗景《计算机与数字工程》2008,36(1):29-31,36

查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素.查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度.利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果.在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高. 相似文献

6.

基于Pre-RoBERTa-MTL的中文机器阅读理解模型

代寒静涂新辉《计算机应用》2020,40(z2):12-18

相似文献

7.

基于概率潜在语义分析的中文信息检索 总被引：1，自引：1，他引：0

下载免费PDF全文

罗景涂新辉《计算机工程》2008,34(2):199-201

传统的信息检索模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象,对召回率和准确率有不利的影响。概率潜在语义模型使用统计的方法建立“文档-潜在语义-词”之间概率分布关系并利用这种关系进行检索。该文将概率潜在语义模型用于中文信息检索,实验结果表明,概率潜在语义模型相对于传统的向量空间模型能够显著地提高检索的平均精度。相似文献

8.

中文维基百科的结构化信息抽取及词语相关度计算方法

涂新辉张红春周琨峰何婷婷《中文信息学报》2012,26(3):109-116

维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。相似文献

9.

基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析

苏莹张勇胡珀涂新辉《计算机应用》2016,36(6):1613-1618

针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。相似文献

10.

面向稠密检索的伪相关反馈方法

胡文浩罗景涂新辉《计算机应用》2023,(4):1036-1042

伪相关反馈（PRF）机制是一种自动化的查询扩展（QE）技术，它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询，从而进一步提高信息检索系统的性能。但是，现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失，而且在检索阶段的空间复杂度较高。针对上述问题，提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先，通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量；其次，对相关段落向量进行平均池化以得到QE项向量；然后，按照权重结合原始查询向量和QE项向量构建新的查询向量；最后，根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验，相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益（NDCG）指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题，并提升检索精度。相似文献