首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于领域本体的软构件检索   总被引:3,自引:1,他引:2  
为了提高刻面分类检索软构件的查准率,结合领域本体,提出了支持自然语言检索的软构件检索过程模型.该模型抽象了领域知识,形成领域本体库,用于匹配用户检索使用的自然语言,提供领域内一致认可的检索术语.该术语然后与软构件描述库中的软构件描述术语进行匹配,进而从软构件库中检索软构件.软构件描述库采用了刻面分类方法.ATS软构件检索实验结果表明,较之于传统的刻面分类方法,该检索策略既提高了检索精度,又增强了检索的灵活性.  相似文献   

2.
基于本体集成的语义标注模型设计   总被引:1,自引:0,他引:1  
语义Web的全面实现需借助于语义标注,标注网页信息会涉及到多个本体.据此,通过研究桥本体,提出一个在本体集成的基础上建立起来的多本体语义标注模型.该模型利用桥本体集成顶层本体和多个领域本体,同时借助基于本体的信息抽取技术对网页进行语义标注,并将标注信息存入标注库,使标注信息与网页分离,提高语义检索的效率.通过举例说明了本模型的合理性.  相似文献   

3.
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的Deep Web查询接口。在网页分类和表单内容分类中引入本体的半自动构建和自动扩展模块,在表单结构分类中添加启发式规则。实验结果证 明,该方法能有效提高Deep Web数据源的查全率和查准率。  相似文献   

4.
针对单个网站构建本体库垂直搜索引擎的过程中,叙词及其间逻辑关系等收集整理所耗人力成本高,导致该技术框架虽成熟,而大多网站搜索功能仍以字符匹配为主,缺乏分词、查询扩展及结果的相关度排序,很难准确命中相关查询内容等问题,设计并开发了一套基于网站简约本体库的垂直搜索系统。该系统以中国气象数据网(http://data.cma.cn)为例,利用protégé根据网站的导航目录,构建了中国气象数据网的本体库,基于Lucene引擎构建技术框架,对本体库中的对象及网页内容分别进行分词,并构建本体对象索引库及网页索引库;前端对查询内容分词后,先在本体对象索引库中进行扩展,利用TF-IDF相关度算法计算扩展结果的相关度并排序,该值作为各扩展本体对象的权值,并将各自的权值动态赋给利用Jena二次语义分析技术扩展的对象,最后将所有带有权值的关键词在网页索引库中查询检索,计算结果相关度并排序。实验结果表明,该系统构建简便,能为用户扩展、推荐相关查询内容,提高了针对网站检索的查准率及查全率。  相似文献   

5.
基于语义的主题爬行策略   总被引:1,自引:0,他引:1  
叶育鑫  欧阳丹彤 《软件学报》2011,22(9):2075-2088
为使主题爬行能够充分利用资源的语义信息,提出基于语义的主题爬行策略.该策略利用领域本体刻画爬行主题,将本体语义映射到关键词表.通过定义断言集一致性扩展和域值关联推理任务,推演关键词间语义关系.在定义网页主题概念的基础上,结合本体推理方案提出主题概念的语义叠加效应模型.最后,利用主题概念的语义包含关系判定URLs抓取顺序.实验结果表明,该语义主题爬行策略在抓取收获率和爬行效率上优于现有同类方法,该方案有效、可行.  相似文献   

6.
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。  相似文献   

7.
结合编辑距离和Google距离的语义标注方法*   总被引:1,自引:0,他引:1  
提出了一种在领域本体指导下对网页进行语义标注的方法。该方法利用编辑距离和Google距离从词语的语法和语义两方面综合度量词汇与本体概念之间的语义相关度,从而在网页与本体之间建立映射关系。此外,对网页进行语义标注后,利用标注结果对本体进行有效扩充,使本体更趋于领域化。实验结果表明该方法是行之有效的。  相似文献   

8.
从Web中提取中文本体非分类关系的方法   总被引:2,自引:0,他引:2  
为了有效地学习本体中的非分类关系以协助知识工程师构建领域本体,提出了一种在中文领域本体学习环境中自动获取概念之间非分类关系的方法,该方法以Web为数据源来提取候选关系并计算信息分布的统计特征,把动词作为发现非分类关系的中心点,把领域相关的动词作为种子来检索领域相关概念并用来标记相应的关系.该方法的学习结果是一个多级分类关系和非分类关系组成的语义体系.最后,通过对"癌"本体相应关系的提取及其性能分析,表明了该方法的学习结果和性能.  相似文献   

9.
提出一种基于领域服务本体的语义标注方法.并结合电力系统领域本体对该方法进行实例说明,该方法通过分析文档(或者网页)的关键信息,使用基于OWL-S本体的语义描述方法建立关键信息与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的Web服务信息显式地表现出来,这样多个文档(或者网页)之间就具有语义关联关系.为服务的语义解析及智能监控提供基础.  相似文献   

10.
网页信息抽取及其自动文本分类的实现   总被引:3,自引:1,他引:2  
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息.文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题.为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法.该方法可以提高网页正文提取及其自动文本分类的效率.实验证明,该方法是可行的.  相似文献   

11.
汤亚玲  崔志明 《计算机工程》2012,38(20):179-183
现有网页分类技术忽略用户个性行为的差异.为此,提出一种结合用户行为特征分析的网页分类技术.运用知识规则发现、页面特征提取等方法,分析Web用户的访问历史和个性化定制信息,学习并掌握用户的行为和兴趣.针对用户的认知特征,提供合适的Web页面分类模式,能在一定程度上改进单纯统计学网页分类方法在自然语言理解上的不足.实验数据表明,该分类方法与多种统计学方法相结合实施网页分类均能有效地提高分类准确率,使网页分类结果更接近分类的真实情形和要求.  相似文献   

12.
吕英杰  叶强  李一军 《计算机工程》2007,33(15):178-180
互联网的发展使网页分类技术成为了研究热点,针对传统的基于统计的分类技术只能提供精确分类的情况,该文运用模糊综合评判理论进行文本分类,根据自然语言的复杂性和理解的不确定性,使分类后的网页以一定的概率分属于各个类别,真实地反映了网页信息。实践表明,用户可以根据所得概率进行灵活处理,以满足各种实际需要。  相似文献   

13.
一个基于Web挖掘的中文专业搜索引擎的设计与实现   总被引:3,自引:0,他引:3  
本文介绍了一个基于Web挖掘技术的中文专业搜索引擎的实现和所用的关键技术,提出了类别向量的概念以及如何将Web结构挖掘和内容挖掘结合起来,利用改进的VSM技术实 现网页自动分类的方法。  相似文献   

14.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

15.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

16.
17.
Web浏览器历史数据自动分类取证系统   总被引:1,自引:1,他引:0  
石淼磊  苏璞睿  冯登国 《计算机应用》2006,26(10):2427-2429
为提高取证的自动化程度,提出了一种基于页面自动分类技术的浏览器历史数据取证算法,并设计实现了一个原型系统。该系统在获取浏览器历史数据的基础上,自动对其进行特征提取、页面分类。实验结果表明该系统有效提高了取证人员的效率和准确度。  相似文献   

18.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

19.
随着Web技术的迅速发展,动态和个性化网页的比重日益增加,而传统缓存一般只适用于静态内容,难以减少获取动态网页所需的流量和延时代价。为了更有效地分发动态网页,人们提出了各种动态内容加速方案。文中研究了典型的动态网页分发加速方法,并对相关的加速技术进行了分析和比较。针对ESI和CDE这两种技术的优缺点,提出基于共享片段的动态网页分发加速模型。实验结果表明,与ESI和CDE相比,该模型可以节省更多的带宽,减少更多的延时。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号