首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
何建忠  吕振俊 《计算机工程》2008,34(17):56-58,61
针对传统数据挖掘算法的不足,提出基于两个矩阵的优化关联规则挖掘算法.该算法对事务数据库进行一次扫描,将其转换成两个用于存放逻辑数据的矩阵,并保留项目间的关联信息.对两个矩阵进行挖掘,基于矩阵MA得到频繁1-项集和频繁2-项集,基于矩阵MB得到最大频繁项集,其他频繁k-项集基于两个矩阵和已得频繁集获取.该算法极大减少了候选频繁集数量,挖掘过程采用逻辑运算.实验结果证明了其可行性和高效性.  相似文献   

2.
数据流最大频繁项集的项集数目相对很少并且已隐含所有的频繁项集,所以数据流中最大频繁项集的挖掘具有很好的时空效率并且有很大的意义,也受到了业界更多的关注。针对数据流最大频繁项集的挖掘,提出了在滑动窗口中基于矩阵的数据流最大频繁项集挖掘方法SWM-MFI,主要采用两个矩阵来存储数据信息:一个矩阵是事务矩阵,存储事务数据;一个矩阵是二项集矩阵,存放频繁2-项集。通过二项集矩阵扩展得到频繁k-项集,基于SWM-MFI算法挖掘出最大频繁项集。经过理论和实验证明该算法具有很好的时效性。  相似文献   

3.
一种基于矩阵的动态频繁项集挖掘算法   总被引:4,自引:0,他引:4  
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

4.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

5.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。  相似文献   

6.
荀娇  徐连诚  杨仁华 《计算机工程》2012,38(19):41-44,48
针对Apriori算法产生候选项集的问题,提出一种基于排序索引矩阵(SIM)的频繁项集挖掘算法.将频繁1-项集形成的1-项集向量依次与对应矩阵相乘,生成频繁2-项集.从频繁3-项集开始,对每次生成的频繁k-项集建立SIM,借助SIM结构实现项集的跨越式搜索和连接.整个过程只需扫描一次数据库,不会产生候选项集.实验结果表明,该算法能提高频繁项集的挖掘效率.  相似文献   

7.
如何从海量数据信息中挖掘出有用的关联规则已经成为人们广泛关注的问题,而在关联规则挖掘中,首要的问题就是如何高效地挖掘出频繁项集。针对已有FIMM算法作出改进,提出了一种改进的基于矩阵的频繁项集挖掘算法N—FIMM,该算法在FIMM基础上去除大量冗余的非频繁项集的项集,减少计算可能频繁项集的工作量,同时缩小了矩阵规模,提高了空间效率。通过对矩阵操作,一次性地产生所有的频繁项集。试验结果表明,该算法对已有的基于矩阵的频繁项集挖掘算法有了很大的改进,提高了挖掘效率。  相似文献   

8.
一种改进的基于矩阵的频繁项集挖掘算法   总被引:1,自引:0,他引:1  
如何从海量数据信息中挖掘出有用的关联规则已经成为人们广泛关注的问题,而在关联规则挖掘中,首要的问题就是如何高效地挖掘出频繁项集.针对已有FIMM算法作出改进,提出了一种改进的基于矩阵的频繁项集挖掘算法NFIMM,该算法在FIMM基础上去除大量冗余的非频繁项集的项集,减少计算可能频繁项集的工作量,同时缩小了矩阵规模,提高了空间效率.通过对矩阵操作,一次性地产生所有的频繁项集.试验结果表明,该算法对已有的基于矩阵的频繁项集挖掘算法有了很大的改进,提高了挖掘效率.  相似文献   

9.
最大频繁项集挖掘在数据挖掘领域已经有广泛的应用。本文提出了一种新颖的基于位图矩阵的最大频繁项集挖掘算法BM_MFI。该算法只需要构造一个布尔矩阵,通过对矩阵的逻辑操作挖掘出局部最大频繁项集,并采用优化的超集检测方法得到最大频繁项集。实验表明以上算法是有效的,并且运行效率高于FPmax算法。  相似文献   

10.
纪怀猛 《计算机工程》2013,(11):183-186
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。  相似文献   

11.
杜永萍  叶乃文 《计算机工程》2008,34(17):186-187
问答式信息检索是新一代搜索引擎,集成自然语言处理和信息检索科学的研究成果,提高信息检索效率。该文介绍问答式信息检索中的模式优化及其应用,并进行客观评价。模式在问答式信息检索中有两个重要应用——查询扩展和答案抽取。实验结果表明,在TREC标准测试集上,采用模式匹配策略实现答案抽取,能有效地提高问答式信息检索系统的准确率。  相似文献   

12.
模式学习在QA系统中的有效实现   总被引:6,自引:1,他引:6  
开放领域的问题回(question answering)是自然语言处理领域中具有挑战性的研究方向.提出了一种基于模式学习实现问题回答的方法,核心思想是利用机器学习方法得到的答案模式获取问题答案.该方法优势在于:①模式学习完全自动化实现;②解决了目前普遍存在的模式约束性弱及答案缺乏语义类型限制等缺陷.在TREC测试集上的实验结果表明,它不但解决了简单模式所覆盖的问题集,同时也解决了需要较强约束性模式进行答案抽取的问题集,而后者的问题数目在TREC测试问题集中占约80%.  相似文献   

13.
基于句法结构特征分析及分类技术的答案提取算法   总被引:1,自引:0,他引:1  
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%.  相似文献   

14.
Question answering (QA) over knowledge base (KB) aims to provide a structured answer from a knowledge base to a natural language question. In this task, a key step is how to represent and understand the natural language query. In this paper, we propose to use tree-structured neural networks constructed based on the constituency tree to model natural language queries. We identify an interesting observation in the constituency tree: different constituents have their own semantic characteristics and might be suitable to solve different subtasks in a QA system. Based on this point, we incorporate the type information as an auxiliary supervision signal to improve the QA performance. We call our approach type-aware QA. We jointly characterize both the answer and its answer type in a unified neural network model with the attention mechanism. Instead of simply using the root representation, we represent the query by combining the representations of different constituents using task-specific attention weights. Extensive experiments on public datasets have demonstrated the effectiveness of our proposed model. More specially, the learned attention weights are quite useful in understanding the query. The produced representations for intermediate nodes can be used for analyzing the effectiveness of components in a QA system.  相似文献   

15.
基于自动问答系统的信息检索技术研究进展   总被引:2,自引:0,他引:2  
汤庸  林鹭贤  罗烨敏  潘炎 《计算机应用》2008,28(11):2745-2748
自动问答是根据用户以自然语言提出的问题给出一个明确的答案。近年来,自动问答越来越受到信息检索和自然语言处理的研究者的关注。典型的自动问答系统通常包含问题分析、文段检索和答案选择等部件。介绍了自动问答的最新研究进展和相关国际会议情况,着重阐述问题分类、查询扩展、文段检索和答案选择这四个热点技术的主要功能和常用方法,最后提出存在的一些问题和展望。  相似文献   

16.
乔少杰  杨国平  于泳  韩楠  覃晓  屈露露  冉黎琼  李贺 《软件学报》2023,34(10):4584-4600
基于知识图谱的问答系统可以解析用户问题,已成为一种检索知识、自动回答所询问题的有效途径.知识图谱问答系统通常是利用神经程序归纳模型,将自然语言问题转化为逻辑形式,在知识图谱上执行该逻辑形式能够得到答案.然而,使用预训练语言模型和知识图谱的知识问答系统包含两个挑战:(1)给定问答(questionanswering, QA)上下文,需要从大型知识图谱(knowledge graph, KG)中识别相关知识;(2)对QA上下文和KG进行联合推理.基于此,提出一种语言模型驱动的知识图谱问答推理模型QA-KGNet,将QA上下文和KG连接起来形成一个工作图,使用语言模型计算给定QA上下文节点与KG节点的关联度,并使用多头图注意力网络更新节点表示.在Commonsense QA、OpenBookQA和Med QA-USMLE真实数据集上进行实验来评估QA-KGNet的性能,实验结果表明:QA-KGNet优于现有的基准模型,表现出优越的结构化推理能力.  相似文献   

17.
陈哲  文敦伟 《计算机工程》2006,32(20):205-206
问答系统是当前人工智能应用的一个重要领域,而传统的基于模式匹配方法的问答系统具有很大的局限性。该文研究了基于HMM模型、图句法分析、词典和规则的自然语言处理算法。将这些算法应用到问答系统中,扩展了对话管理模块,对用户的自然语言进行语义分析,从而实现对话的语义块识别、主题识别和对话信息提取,提高了系统对复杂用户输入的处理能力,克服了传统方法的不足,并使用Java实现了一个实验系统。  相似文献   

18.
基于语义计算的公交移动问答系统   总被引:1,自引:0,他引:1       下载免费PDF全文
为解决外来旅客公交问询困难的问题,本文利用模式匹配、编辑距离计算、语义计算、自动问答等技术,实现了基于自然语言问答的公交移动问答系统。本文在抽象公交节点的基础上引入站点概念词,对站点关键词进行扩展、消除问询歧义,把公交线路抽象成线路节点网络模型,引入查询日志记录快表辅助问答,借助手机短消息业务实现了双向向传输。实验结果表明,该系统达到了预期效果。  相似文献   

19.
王慧芝  安玉朋 《微机发展》2006,16(11):136-139
与传统的搜索引擎相比,自动问答系统支持自然语言提问,返回给用户一个简短而准确的答案,是自然语言处理领域的一个研究热点。文中介绍了一种基于常见问题库的多搜索引擎自动问答系统,它利用常见问题库和两大搜索引擎,快速准确地回答用户的问题,更加智能化地满足用户的检索需求。  相似文献   

20.
张江涛  杜永萍 《计算机科学》2013,40(2):257-260,300
自动问答系统以自然语言提出问题,并采用自然语言处理技术自动地将答案返回给用户。利用WordNet构 建语义链,并将语义链用于问答系统。在面向Web的问答系统中,采用两种不同的计算文本相似度的方法对Google 返回的Snippets按照相似度进行排序,对返回的第一个和前十个Snippets中包含答案片段的情况进行分析,与不使用 语义链时的情况相比,使包含答案片段的准确率分别提高了150%和66. 12 0 0。对实验结果进行了显著性检验,在显 著性水准a=0. 05的条件下,得到p=0. 000078,使系统的准确率得到显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号