首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
本文主要介绍了TextPorter工具软件具有对多种格式,多种语言的电子文档的文本内容进行浏览和编辑的功能,分别阐述编辑器的文本的浏览、文字串的查找和替换,文字输入等功能对多语言的支持特性,说明了TextPorter在采用16位UNIXCODE内码的基础上,实现了对多语言的灵活的支持的性能。  相似文献   

2.
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前 N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。  相似文献   

3.
本文提出了对软件工程中的图形文档进行布局处理的设计思想和布局规则,并对数据流图和结构图这两类常用图的图形文档的布局给出了处法概述,这些算法已在微机上实现了成为一个实用化的软件工具。  相似文献   

4.
为了满足用户对信息检索结果准确不断提高的需求,尽可能应用那些与查询及检索结果有关的信息进行查询结果优化是一种有效的手段。查询扩展和结果重排就是利用附加信息进行检索结果优化的方法。该文提出了基于文档团的文档重排模型(DCRM模型),此模型通过对文档集的学习,构造文档与文档关系的Markov网络,提取出文档Markov网络中的“文档团”,应用文档团信息进行文档重排。在adi、cacm、med、cisi和cran五个数据集上的实验结果表明,本文提出的基于文档团的文档重排模型较BM25模型性能得到有效提高。  相似文献   

5.
黄丽雯  钱微 《计算机应用》2006,26(11):2626-2627,2630
提出了一种对HITS算法进行改进的新方法,本方法将文档内容与一些启发信息如“短语”,“句子长度”和“首句优先”等结合,用于发现多文档子主题,并且将文档子主题特征转换成图节点进行排序。通过对DUC2004数据的实验,结果显示本方法是一种有效的多文本摘要方法。  相似文献   

6.
Word2007提供了选择多处文本的多种方法.它们可以在某些特殊时刻满足你的编辑需要。在此,笔者就选择多处文本的三点体会列示于下,希望对你能够有所帮助。  相似文献   

7.
用“Microsoft Word”进行文字处理是微机家庭使用和现代办公的一项主要内容,可是在进行文字处理,特别是输入姓名时,有时会遇到一些生僻字(如:、、、、等字),这对只熟悉拼音输入法的操作者来说是一件比较棘手的事情。当操作者按照常规方法正确输入汉语拼音以后,出现的“候选窗口”的候选字中却找不到所需的汉字。连五笔字型等其它的输入法也往往对这些生僻字的输入无能为力。如果一个数据文件或一份文档因有几个生僻字无法输入进去,打印出来之后不得不用手写来弥补。这种打印字和手写字相间的文件不仅影响了整个打印…  相似文献   

8.
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。  相似文献   

9.
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。  相似文献   

10.
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。  相似文献   

11.
国际化文字处理综述   总被引:3,自引:0,他引:3  
计算机与不同用户的交互通常必须实现通过多种文字信息的输入/输出以实现,因此操作系统对多种文字的支持程度是其功能性的一个衡量标准。各种文字特征的巨大差异导致现代操作系统的文字处理实现非常复杂。本文总结了操作系统文字处理的范围与内容,包括文本输入与存储,文本处理以及用户交互处理;归纳了通用的文字处理模型和可能采取的技术途径及其优缺点;分析了常用操作系统的文字处理实现;最后展望了文字处理仍面临的挑战。  相似文献   

12.
复杂文字在显示输出的过程中,表现出极为复杂的语言特征.为此提出了一种基于谓词规则的复杂文字处理模型,模型以谓词规则的方法给出了复杂文字字形布局特征的形式化描述,按照复杂文字处理的过程,设计了实现该模型的软件体系结构,将复杂文字的语言特征从程序控制逻辑中隔离出来,提高了系统的灵活性,便于增加新的复杂文字的支持.在研制蒙古文、藏文、维吾尔文办公套件的应用中表明,该模型是实用有效的.  相似文献   

13.
图文互斥版面中确定文字的阅读顺序是排版及版面理解过程中的一个难点。尤其是中文等东方文字特有的分栏串文互斥,其空间关系的复杂性使得阅读顺序存在歧义。针对此问题,建立新的版面布局模型,并引入新的版面对象PMRegion。给出了版面逐层快速分解构造版面对象和基于有序树的阅读顺序确定算法。已成功运用于专业中日文排版系统,取得了满意的效果,并对更深入研究文档图像理解具有十分重要的理论和实践意义。  相似文献   

14.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。  相似文献   

15.
改进的OPTICS算法及其在文本聚类中的应用   总被引:1,自引:0,他引:1  
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。  相似文献   

16.
文档聚类综述   总被引:28,自引:6,他引:28  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。  相似文献   

17.
基于规则的自动分类在文本分类中的应用   总被引:8,自引:3,他引:8  
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术(k近邻分类器、支持向量机分类器和朴素贝叶斯分类器),剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为:当类别之间分类特征的交叉变大时,分类精度呈下降趋势,在多层分类的情况下,此局限尤为突出。针对此局限性,为了提高自动分类的精度,我们引入了基于规则的自动分类来对其进行改进和扩充,并整合两种自动分类技术的优点,设计出了混合分类器系统,从而获得了比较理想的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号