首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
中文词句快速查找系统的研究与实现   总被引:2,自引:0,他引:2  
介绍了一种中文词句快速找系统该系统将中文文献转换为文献中每个汉字的位置列表,根据位置列表系统能够迅速地找出用户关心的某个词句在文献中的所有出现位置,并将该词句所在的上下文提供给用户。  相似文献   

2.
使用倒排索引优化面向组合的语义服务发现   总被引:9,自引:0,他引:9  
邝砾  邓水光  李莹  吴健  吴朝晖 《软件学报》2007,18(8):1911-1921
提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的优势,极大地减少了搜索空间,并通过挖掘服务组合提高服务发现的查全率.仿真实验表明,该方法能够在大规模服务库中快速、全面地响应用户请求.  相似文献   

3.
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
  相似文献   

4.
在结构化P2P网络中,针对分布式散列表与复杂查询之间的矛盾,提出了一个在分布式散列表网络中基于多关键字的数据信息索引和查找算法,对该算法进行了分析和优化,为解决分布式散列表网络与复杂查询之间的矛盾提供了一种有效方法。  相似文献   

5.
播存网络将广播分发模式引入现有互联网体系结构,极大地降低网络共享过程中产生的冗余流量,可有效缓解信息过载问题.播存网络采用统一内容标签(uniform content label, UCL)适配用户兴趣和推荐信息资源,在UCL个性化推荐过程中,如何结合播存网络的富语义、高时效特征,有效地提高UCL推荐列表的多样性,成为播存网络中一个亟需解决的关键问题.针对播存网络环境的需求,提出了一种基于语义覆盖树的UCL推荐多样性优化算法UDSCT,将该问题分为UCL语义覆盖树构建和多样化UCL列表查询2个步骤.在UCL语义覆盖树构建阶段,基于语义覆盖树的若干约束条件,充分考虑UCL语义信息及非语义用户评分信息,同时,较新的UCL具有较高的优先权,以保证列表的时效性;在多样化UCL列表查询阶段,采用简单树查询及启发式列表补充操作,可快速高效地获得多样性优化后的UCL推荐列表,并可进一步根据用户请求快速返回指定的UCL集合.通过理论分析及一系列仿真实验验证,结果证明:UDSCT算法相对于基准算法能够获得更好的多样性优化效果及效率,可有效满足播存网络环境的需求.  相似文献   

6.
通过分析A*算法,设计并实现用索引数组和二叉堆表示开放列表的A*改进算法。该算法与用索引数组表示的开放列表相比,可以节省约11%的运行时间。  相似文献   

7.
改进的多维关联规则算法研究及应用   总被引:2,自引:1,他引:1  
关联规则是数据挖掘研究中最主要、最活跃的领域之一。以Apriori算法为前提,借助Apri-oriTid算法事务压缩的思想,减少了重复扫描数据库的时间;并提出了一种利用事务标识列表,该列表长度即是对应候选项集的支持度计数,在计算支持度计数时,仅需要得到对应列表长度即可,从而缩短了计算计数时的比较时间;同时,在生成频繁项集时引入地址索引机制,在剪枝过程中,利用候选项集的首元素在地址索引表中快速定位,减少了多次扫描事务数据库,有效地缩短了计数时间和占用的内存空间。利用改进的算法对科研管理系统数据进行关联关系分析,从中萃取数据中隐含的、有价值的信息,辅助下一阶段的科研管理工作。并通过试验进行性能比较得出,改进后的算法效率更高。  相似文献   

8.
潜在语义索引方法在信息过滤中的应用   总被引:9,自引:2,他引:9  
信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推迟,其核心技术之一是用户兴趣主题模型的表示。文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤。初步实验的结果表明,该方法与传统的向量空间方法相比,效率有明显提高。  相似文献   

9.
潜在语义索此方法在信息过滤中的应用   总被引:1,自引:0,他引:1  
信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推送,其核心技术之一是用户兴趣主题模型的表示,文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤,初步实验的结果表明,该方法与信传统的向量空间方法相比,效率有明显提高。  相似文献   

10.
针对传统推荐系统追求推荐列表的准确率而忽略推荐的多样性以及数据集信息缺失等问题,提出了融合偏好度与网络结构的推荐算法。通过用户历史反馈数据分析用户偏好度,将偏好度与二部图随机游走推荐算法融合,初步得出项目推荐列表;利用用户-标签二部图,挖掘用户不跟随大众的喜好标签,得到推荐项目列表;根据模型融合得到最终的推荐结果。实验表明,新算法在保持较好精确率和召回率的情况下,有效提高了推荐的多样性。  相似文献   

11.
基于本体语义检索技术研究   总被引:2,自引:0,他引:2  
网络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具仅提供了基于关键字的检索,而忽视了关键字本身所含的语义内容.该文提出的图书信息检索系统,利用本体论中概念规范、语义丰富的特点,将用户的检索要求扩充成语义集.并且将检索到的文档通过文档分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的文档.  相似文献   

12.
This study addresses the problem of Chinese microblog opinion retrieval, which aims to retrieve opinionated Chinese microblog posts relevant to a target specified by a user query. Existing studies have shown that lexicon-based approaches employed online public sentiment resources to rank sentimentwords relying on the document features. However, this approach could not be effectively applied to microblogs that have typical user-generated content with valuable contextual information: “user–user” interpersonal interactions and “user–post/comment” intrapersonal interactions. This contextual information is very helpful in estimating the strength of sentiment words more accurately. In this study, we integrate the social contextual relationships among users, posts/comments, and sentiment words into a mutual reinforcement model and propose a unified three-layer heterogeneous graph, on which a random walk sentiment word weighting algorithm is presented to measure the strength of opinion of the sentiment words. Furthermore, the weights of sentiment words are incorporated into a lexicon-based model for Chinese microblog opinion retrieval. Comparative experiments are conducted on a Chinese microblog corpus, and the results show that our proposed mutual reinforcement model achieves significant improvement over previous methods.  相似文献   

13.
为了更好地向用户提供个性化的Web检索服务,实现了一种改进的个性化词典的生成算法——IGAUPD,用于在用户浏览的大量兴趣网页中挖掘出真正符合用户兴趣的词语,以此缩小传统词库的容量,使得在用户兴趣建模时,能更快更准确地形成兴趣网页的特征描述,并更好地支持个性化检索。IGAUPD算法采用新的词权计算公式IWTUPD,以更好地描述词语在网页集中的重要性,有效排除频繁词。最后,用实验验证了由IGAUPD算法生成的个性化词典的优势。  相似文献   

14.
汉语同音字和多音字处理方法研究   总被引:2,自引:0,他引:2  
汉语同音字和多音字的存在给我国计算机应用增加了难度,本文分析了汉语关键词在计算机内存储、检索的过程,给出了同音检索算法。此外,还介绍了一种解决汉语系统中多音字判别和处理的方法。  相似文献   

15.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

16.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

17.
为在信息检索系统中获得更好的查询效果,提出一种混合的个性化查询扩展模型。通过潜在语义分析建立潜在语义空间,并在潜在语义空间中计算得到查询的概念相关扩展词和兴趣相关扩展词,不但有效解决了词典问题,而且满足了不同用户需求多样性和用户多兴趣点的需求。实验表明,该算法能够较好地提高搜索引擎系统的查全率、查准率,以及信息检索效率。  相似文献   

18.
中文信息检索引擎中的分词与检索技术   总被引:34,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

19.
利用标签的形式简单有效地对教育资源进行准确描述,对互联网中杂乱、庞大的教育资源进行高效分类,能使用户便捷地浏览和获取教育资源信息并提高教育资源的利用率。自然语言处理中生成文本标签的方法有很多种,但特征描述不全面,因此需要研究多特征融合的标签生成方法。本文结合中文文本的特点,在TextRank算法基础上,加入TF-IDF权重和位置信息权重,考虑词语在语料库中的信息及在文章中的位置信息,生成包括语料库信息和位置信息的标签,形成多特征融合的标签生成算法。测试结果及分析表明,多特征融合后的标签生成算法最高F值为0.571,其平均值为0.34,优于常用的TextRank算法和TF-IDF算法,有效提高了教育资源标签质量,有利于教育资源更好的利用和管理。  相似文献   

20.
提出一种分组并具有三级索引结构的词库组织体系,并就词库的扩充问题,考虑一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法.仿真实验结果表明,采用该方法可较大提高对中文文本的切词速度,保证系统具有较高的信息查全和查准率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号