首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。  相似文献   

2.
基于DOM修剪的藏文Web信息提取   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文“音节点”的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。  相似文献   

3.
藏文Web应用的质量模糊综合评判   总被引:1,自引:0,他引:1  
为给藏文Web应用提供一种定量的质量评判方法,将模糊数学中的模糊综合评判方法应用于对Web中藏文文字的规范呈现、藏文Web中的功能特性、效率和易用性等因素进行综合评价,提出了数学模型和评判方法,同时说明在模糊综合评判中权重至关重要,并且给出了权重的确定方法.最后通过实例说明这种方法在藏文Web评判中的应用中是有效和可行的.  相似文献   

4.
基于Web页面的藏文在线输入技术   总被引:1,自引:0,他引:1       下载免费PDF全文
于洪志  何向真 《计算机工程》2008,34(18):260-262
Web页面藏文在线输入技术,能够在浏览器中脱离本机输入法而进行藏文输入,实现藏文网络在线文字交互,为网络系统提供了跨平台的藏文输入解决方案。阐述了基于Web页面藏文在线输入技术的工作原理及基本设计思想,介绍藏文在线输入法的组成、内码外码设计原则和输入法流程,对藏文输入法进行系统分析,给出实现模型,论述浏览器内嵌藏文字体信息技术,达到在线、即时的藏文输入。采用内嵌法和外挂法,实现藏文在线输入技术与主流网页编辑器的整合。  相似文献   

5.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。  相似文献   

6.
7.
藏文属于拼音文字,她的书写规则与英语书写规则一样是从左向右,从上到下,但每个单词之间没有空格,只用音节符把每个单词给分隔开.根据藏文文法,藏文的换行只能发生在音节符、单垂符,双垂符与空格的后面.目前主流浏览器(如Firefox,Netscape等)都不能处理藏文的这一断行特性,所以这些浏览器无法正常显示藏文文本,如Firefox将整个一段没有空格文本当作一个单词,造成在屏幕的右边无法换行.结果是用户必须拖动鼠标来浏览整篇文章,给用户带来了很大的麻烦.又由于藏文中大部分的拼音字母的宽度是不同的,在编写HTML文档时候也无法根据藏文字符串的多少来决定字符串的长度.该算法将采用了一个粗略的方法得到一个字符串长度的近似值,再根据行宽的限制在字符串的适当的位置找到一个可断行点进行断行.虽然得到的是近似值,但是基本上解决了主流浏览器无法处理藏文排版的问题.  相似文献   

8.
非结构化对等网络具有连接度幂律分布和小世界特性,其搜索具有高度灵活性和对动态环境的适应性,但是资源搜索效率比较低。本文通过研究基于非结构化对等网络的搜索算法,指出了每种搜索算法的应用领域和不足之处.并对搜索算法中需要解决的查询截止问题、冗余开销问题、服务质量问题提出了新的解决思想。  相似文献   

9.
Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。  相似文献   

10.
分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程.针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比.实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题.  相似文献   

11.
在分析Web社区搜索资源分散特点的基础上,运用Web抓取器、向量空间模型和相关性排序等技术设计了Web社区搜索引擎的体系结构,实现了一个Web社区搜索引擎系统--ChinalabSearch.根据对系统的性能评估,系统满足Web社区的搜索要求,提高了在社区内查找信息的效率,为组织间的合作提供了方便.  相似文献   

12.
Web社区发现技术综述   总被引:23,自引:1,他引:22  
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势.  相似文献   

13.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

14.
Search engines retrieve and rank Web pages which are not only relevant to a query but also important or popular for the users. This popularity has been studied by analysis of the links between Web resources. Link-based page ranking models such as PageRank and HITS assign a global weight to each page regardless of its location. This popularity measurement has shown successful on general search engines. However unlike general search engines, location-based search engines should retrieve and rank higher the pages which are more popular locally. The best results for a location-based query are those which are not only relevant to the topic but also popular with or cited by local users. Current ranking models are often less effective for these queries since they are unable to estimate the local popularity. We offer a model for calculating the local popularity of Web resources using back link locations. Our model automatically assigns correct locations to the links and content and uses them to calculate new geo-rank scores for each page. The experiments show more accurate geo-ranking of search engine results when this model is used for processing location-based queries.  相似文献   

15.
随着科学技术水平的不断提高,语言文字信息处理工作已经进入人们的日常生活,并且以日新月异的速度在发展。世界上所有文化发达的民族都在不同程度地进行着本民族的语言信息处理工作。藏文字是藏族同胞使用的语言文字,也是在国际上有影响的语言文字之一。针对目前藏文网站特别是动态交互网站稀少的现状,介绍了几种目前在网站上显示藏文的技术及其优缺点,在利用这些技术的基础上提出了一个新的解决方案。  相似文献   

16.
Web社区管理研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网不断增长,对Web社区这种新的社会交流应用形式进行研究具有重要的意义,并引起人们广泛关注,但其理论研究仍然落后于实践。通过讨论Web社区的定义,对比分析国内外的研究现状,对Web社区管理的研究主要集中在建模、社区发现、用户交互和推荐等领域,其中社区发现和推荐研究充分利用了Web社区具有关系和协同的特点。总结相关研究成果,并从服务管理、声誉管理和社会搜索三个方面对未来的研究趋势进行了展望。  相似文献   

17.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号