首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
从互联网可比语料中筛选高质量的平行句对,是提升低资源机器翻译性能的有效手段之一.针对该问题,融合预训练语义表征提出一种基于双向交互注意力机制的跨语言文本语义匹配方法,首先利用预训练语言模型分别获得源语言和目标语言的双语表征,其次基于双向交互注意力机制实现跨语言特征的空间语义对齐,最后基于多视角特征融合后的语义表征实现跨...  相似文献   

2.
双语语料库作为基础资源,在机器翻译、跨语言信息检索、词典编纂等领域起着重要作用。早期的双语语料库主要靠人工挑选和整理,网络的快速传播和web挖掘技术的发展为双语语料库构建提供了新途径。双语语料库按照互译程度的差异可分为平行语料库和可比语料库。本文分别对平行语料库和可比语料库目前主要的构建方法进行了介绍。平行语料库构建主要面向同一网站内部不同网页间的平行语料资源,这些资源url地址相关且网页结构相似,利用这种特点构建的系统都获得了很好的效果。也有人利用网页内部结构特征挖掘双语混合网页内的平行语料。近几年,又出现了利用跨语言信息检索技术收集不同网站间的平行语料,这一技术同样适用于可比语料库的构建。相比平行语料库,可比语料库来源更加广泛,近年来研究逐渐增多。除了利用跨语言信息检索技术,学者们还研究了基于统计特征的方法。针对蕴含着大量多语资源的维基百科等特定网站,也有人专门进行了一些研究。文章最后对双语语料库未来发展前景进行了展望。  相似文献   

3.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法.首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐.之后基于语料的特点提取句对齐特征融入输入层.通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对...  相似文献   

4.
汉语句模对计算机在处理自然语言时具有重要作用,可以使其更好地理解和分析汉语文本、抽取文本信息,提高自然语言处理的准确性和效率。但由于中文文本表达存在一定的灵活性和多样性,使得目前现有的句模存在匹配精度低、句模数量多、难以完全覆盖所有句子等问题,阻碍了句模在具体领域实现广泛应用和发展。针对以上的不足,文章提出基于句子层次结构的语义句模(HSST)。该句模以句子是嵌套的、有层次结构的,句子结构并非单向线性的为构建依据,使用多个句模且根据句子的层次结构对这些句模进行组合,大大减少了句模的数量,提高句模的匹配精度,并使得其对中文文本的覆盖面更广,使机器能更准确有效地理解与抽取文本语义信息。  相似文献   

5.
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。  相似文献   

6.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.  相似文献   

7.
鲁明羽  沈抖  郭崇慧  陆玉昌 《电子学报》2006,34(8):1475-1480
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.  相似文献   

8.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

9.
蓝瞻瞻 《电子测试》2013,(5S):203-204
随着互联网的发展,双语网站逐渐增多,使得通过对网页双语资料的挖掘而建立双语语料库成为可能。双语语料库的建设涉及到对双语网站的获取,然后根据URL命名规律获取网页的双语材料,段落层次的对齐,句子的对齐等步骤。实验证实了双语语料库的研建的可操作性。  相似文献   

10.
《现代电子技术》2016,(15):108-111
针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题,提出基于平行语料库的双语术语抽取方法,同时,分析此方法的不足,结合多种方法进行改善。在此基础上开发了一个双语术语抽取系统,并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响,而且该系统已经作为商品化软件投入实际应用。  相似文献   

11.
This letter introduces a new method to automatically acquire paraphrases using bilingual corpora. It utilizes the bilingual dependency relations obtained by projecting a monolingual dependency parse onto the other language's sentence based on statistical alignment techniques. Since the proposed paraphrasing method can clearly disambiguate the sense of the original phrases using the bilingual context of dependency relations, it would be possible to obtain interchangeable paraphrases under a given context. Through experiments with parallel corpora of Korean and English language pairs, we demonstrate that our method effectively extracts paraphrases with high precision, achieving success rates of 94.3% and 84.6% respectively, for Korean and English.  相似文献   

12.
基于BP神经网络的Web页面分类算法   总被引:3,自引:0,他引:3  
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。  相似文献   

13.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

14.
分析了web2.0网络的网络爬虫面临的新挑战,对目前学术界出现的多种实现方案和策略进行了全面的综述,提出了AJAX爬虫的设计并加以实现,最后进行了实验验证,验证了这种AJAXCrawler能够很好地获取AJAX的动态页面,并与普通的爬虫在下载速度方面进行了对比。  相似文献   

15.
To understand website complexity deeply, a web page complexity measurement system is developed. The system measures the complexity of a web page at two levels: transport-level and content-level, using a packet trace-based approach rather than server or client logs. Packet traces surpass others in the amount of information contained. Quantitative analyses show that different categories of web pages have different complexity characteristics. Experimental results show that a news web page usually loads much more elements at more accessing levels from much more web servers within diverse administrative domains over much more concurrent transmission control protocol (TCP) flows. About more than half of education pages each only involve a few logical servers, where most of elements of a web page are fetched only from one or two logical servers. The number of content types for web game traffic after login is usually least. The system can help web page designers to design more efficient web pages, and help researchers or Internet users to know communication details.  相似文献   

16.
宋鳌   《电视技术》2011,35(13):44-48,63
提出了一种基于LCS的特征树最大相似性匹配网页去噪算法.通过将目标网页和相似网页转化为特征树,并将特征树映射为一个特征节点序列,利用LCS算法能获得最长子序列全局最优解的特点,找出两棵特征树之间的不同节点作为候选集,并对候选集进行聚集评分找出网页重要内容块.给出了算法的原型系统,并对每一个模块的实现做了详尽的描述.  相似文献   

17.
18.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

19.
In recent years, with the development of the social Internet of Things (IoT), all kinds of data accumulated on the network. These data, which contain a lot of social information and opinions. However, these data are rarely fully analyzed, which is a major obstacle to the intelligent development of the social IoT. In this paper, we propose a sentence similarity analysis model to analyze the similarity in people’s opinions on hot topics in social media and news pages. Most of these data are unstructured or semi-structured sentences, so the accuracy of sentence similarity analysis largely determines the model’s performance. For the purpose of improving accuracy, we propose a novel method of sentence similarity computation to extract the syntactic and semantic information of the semi-structured and unstructured sentences. We mainly consider the subjects, predicates and objects of sentence pairs and use Stanford Parser to classify the dependency relation triples to calculate the syntactic and semantic similarity between two sentences. Finally, we verify the performance of the model with the Microsoft Research Paraphrase Corpus (MRPC), which consists of 4076 pairs of training sentences and 1725 pairs of test sentences, and most of the data came from the news of social data. Extensive simulations demonstrate that our method outperforms other state-of-the-art methods regarding the correlation coefficient and the mean deviation.  相似文献   

20.
Web objects are the entities retrieved from websites by users to compose the web pages. Therefore, exploring the relationships among web objects has theoretical and practical significance for many important applications, such as content recommendation, web page classification, and network security. In this paper, we propose a graph model named Bipartite Request Dependency Graph (BRDG) to investigate the relationships among web objects. To build the BRDG from massive network traffic data, we design and implement a parallel algorithm by leveraging the MapReduce programming model. Based on the study of a number of BRDGs derived from real wireless network traffic datasets, we find that the BRDG is large, sparse and complex, implying that it is very hard to derive the structural characteristics of the BRDG. Towards this end, we propose a co-clustering algorithm to decompose and extract coherent co-clusters from the BRDG. The co-clustering results of the experimental dataset reveal a number of interesting and interpretable connectivity structural patterns among web objects, which are useful for more comprehensive understanding of web page architecture and provide valuable data for e-commerce, social networking, search engine, etc.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号