首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
本文介绍了一个Web维文信息检索系统,此系统根据用户设定的主题对指定的网站进行信息检索。该系统采用在西文信息检索中非常成功的向量空间模型来解决维文信息检索的问题,在维文文档的特征项抽取,加权、相似度计算,模型的建立等方面做了一些探讨,提出了一种针对解决基于网络的维文信息处理(如:维文网页下载,网页内容信息的存储,以及维文检索)的方法。文中论述了系统的设计思想和相关的算法以及实现技术。  相似文献   

2.
近年来,随着互联网技术在新疆地区的发展和普及、微信、QQ、论坛、微博等网络交流逐渐成为新疆人民日常交流的主要方式。由于历史和地理原因,网络平台上的维吾尔语言呈现传统维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。由于这些文字缺乏科学的对应标准、互相转换的工具等原因,造成实际使用中存在很多问题,给维吾尔网民的日常互联网使用及“一带一路”沿线国家间和居民间的沟通和交流带来不便。为此首先研究传统维文、拉丁维文及西里尔维文之间的渊源,以及三种字母目前的对应标准存在的问题和转换规则。借此提出三种字母之间的Unicode字符编码转换算法,以期解决国内外维吾尔人间的在线文字交流困难的问题,进而实现维文搜索引擎系统中使用后两种文字的信息检索。通过实验验证了所提的LUTC和CUTC转换算法的字符编码转换效率有明显提升,拉丁维文和西里尔维文的信息检索效果与传统维文一致。  相似文献   

3.
随着Internet的发展,基于多种文字信息的维文信息也越来越多。为了获取有用的维文Web信息,必须要创建符合维文信息检索需求的搜索引擎。文章从分析维文文字的多种性、编码的多样性以及维文Web表示的特殊性等问题的基础上,探讨如何利用Google Web API来实现基于维文信息的单机版元搜索引擎。  相似文献   

4.
随着近年互联网技术在新疆地区的发展和普及,大量维语网站如雨后春笋般涌现。由于历史原因,维文呈现老维文、新维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。现有的维文搜索引擎仅支持老维文,然而,目前国际通行的主流维语交流字母体系以拉丁维文及西里尔维文居多。由此,如何设计支持维文“一语多文”特点的维文搜索引擎将是维文信息检索研究领域的重要挑战,其研制成果将对广大维族网民的日常互联网使用及国家的“一带一路”战略产生深远的影响。研究拉丁维文、西里尔维文和老维文之间的转换规则;提出Unicode字符编码体系和Unicode字符编码转换算法,实现在维语搜索引擎系统中通过拉丁维文和西里尔维文来直接检索老维文网页内容,弥补了当前维文搜索引擎系统的空白;通过翔实的实验,验证了所提的LCCU编码转换率达到100%,拉丁维文和西里尔维文的检索效果与老维文完全一致。  相似文献   

5.
为了解决分布式协同设计系统中的信息快速检索以及多副本同步等问题,引入了对等模型,给出了该系统的功能模型、信息检索模型等。提出了DHT的对等信息检索方法,保证了用户能够在分布式协同设计系统中快速共享资源。采用基于DHT的分布式互斥等算法作为协同数据的一致性维护方法,给出了系统的具体实现方法和实例。  相似文献   

6.
介绍了一个基于内容的维文文本检索系统,该系统采用向量空间模型.文中对该系统的设计思想进行了介绍,给出了文档标引、权值计算和相似度计算的具体方法,并针对维文自身的特点.对维文的存储以及维文文档特征项的抽取等方面的问题进行了具体探讨.  相似文献   

7.
根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率.在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%.  相似文献   

8.
分布式超媒体信息检索原型系统DHIRS的设计   总被引:2,自引:0,他引:2  
超文本技术多媒体信息检索问题的解决提供了一条新的途径,此文介绍了一个面向信息检索应用的分布式超媒体原型系统DHIRS的体系结构模型和数据模型的设计,并给出系统的功能构成。  相似文献   

9.
P2P信息检索及其优化策略   总被引:4,自引:0,他引:4  
本文研究对等计算(P2P)环境中语义丰富的信息检索及其优化策略,提出了P2P信息检索系统(PIRS),实现了P2P环境中语义丰富的信息检索,定义了一套评价PIRS效率的指标体系;明确了决定PIRS效率的关键因素并提出相应的解决策略,包括:基于向量空间模型的节点数据分类管理策略、基于节点聚类的系统数据管理策略以及自适应查询路由策略,并用实验结果验证了这些策略的有效性。  相似文献   

10.
基于Web的信息检索技术综述   总被引:12,自引:0,他引:12  
随着信息技术的发展,特别是Web的不断普及和应用,Web上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。  相似文献   

11.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。  相似文献   

12.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。  相似文献   

13.
目前互联网上提供农产品市场信息的站点基本上处于分散独立的状态,用户为获得农产品市场信息不得不耗费大量精力在各个网站之间穿梭。农产品市场信息站点如何发布信息,这些信息又如何整合是当前研究的热点问题。为解决该问题,文章提出通过扩展RSS1.0模块来实现Web农产品市场信息的发布与聚合,并在此基础之上构建了农产品信息服务平台。  相似文献   

14.
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。  相似文献   

15.
基于语义的Web信息检索   总被引:2,自引:0,他引:2  
用户要从网络中得到所需的信息一般是通过各种搜索引擎。但是现有的搜索引擎都存在着检索相关度不高等问题。随着语义Web概念的提出及相关技术的发展,基于语义的Web信息检索逐渐成为了语义Web研究的热点。给出了传统搜索引擎存在的问题,从理论上分析了如何将语义Web技术融入Web信息检索中去,并在理论分析的基础上给出了基于语义的Web信息检索的模型。  相似文献   

16.
Web石油化工信息服务管理系统的研究   总被引:3,自引:2,他引:1  
针对Web石油化工信息服务系统,设计并实现了Web信息管理系统。在分析了系统的功以需求与结构的基础上,进行了数据库设计和模块设计。管理系统实现了页面生成与更新、用户管理、网站分析、镜像维护、信息订阅与发送以及关键词检索等其它功能,使得整个信息服务系统具有安全、一致、易扩充、自适应、界面灵活和易于检索等特点。管理系统既可应用于石化信息服务系统,也可应用于其它类似系统。另外,系统中的每个模块及工具都相  相似文献   

17.
针对个性化搜索需要多种Web Robot支持工作的需求,在分析Web Robot工作原理的基础上,利用面向对象的分析设计方法,提出了一种可实现增量开发的Web Robot的系统模型,并经过了充分的实验验证。实验结果表明应用此模型可以灵活控制Web Robot的搜索策略,通过合理扩展可适用于不同类型的Web资源搜索,能够根据不同的个性化搜索需求灵活定制相应的Web Robot,有效地节约了开发Web Robot的各项成本。  相似文献   

18.
石油化工信息系统Web权限管理的研究   总被引:4,自引:2,他引:2  
对Web权限控制进行了研究分析和应用,首先分析了进行权限控制的必要性;介绍了进行要限控制的几种实现形式,包括利用Web Server本身权限管理工具,通过在ASP/PHP页面中嵌入权限认证代码,或是将二者结合;最后,基于Apache服务器开发了图形化的权限管理系统,并已将它应用在Internet石化信息服务系统中。该软件可以方便地完成增删改用户/组,为用户/组设定权限,限制某些IP对本系统的访问等功能,并可以方便地移植到其他类似系统中。  相似文献   

19.
基于语义的Web信息检索   总被引:1,自引:0,他引:1  
语义万维网的研究逐渐引起了知识表示、逻辑编程、信息系统集成和开发等各个领域的广泛关注。文中概述了语义万维网的概念、技术框架,并且对含有自由文本和丰富语义标记的网络文档资源的三种语义检索系统原型进行了深入分析。最后,提出了设计Web语义检索系统应该满足的条件,可以基于它来设计语义检索系统框架。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号