首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
(1)数量上的海量化——现代微电子技术以其超强的集成度、柔性的系统结构和严密的处理方式保证了网络信息资源具有数量上的海量特征。  相似文献   

2.
命名实体识别、排歧和跨语言关联   总被引:5,自引:0,他引:5  
命名实体是文本中承载信息的重要语言单位,命名实体的识别和分析在网络信息抽取、网络内容管理和知识工程等领域都占有非常重要的地位。有关命名实体的研究任务包括实体识别、实体排歧、实体跨语言关联、实体属性抽取、实体关系检测等,该文重点介绍命名实体识别、排歧和跨语言关联等任务的研究现状,包括难点、评测、现有方法和技术水平,并对下一步需要重点解决的问题进行分析和讨论。该文认为,命名实体识别、排歧和跨语言关联目前的技术水平还远远不能满足大规模真实应用的需求,需要更加深入的研究。在研究方法上,要突破自然语言文本的限制,直接面向海量、冗余、异构、不规范、含有大量噪声的网页信息处理。  相似文献   

3.
Web文本挖掘系统及其关键技术研究   总被引:10,自引:0,他引:10  
随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻参照法模型、基于隐马尔科夫模型(HMM)的信息抽取、机器学习方法,进行了研究和探讨,并且给出了基于信息抽取的文本挖掘系统的设计实现和下一步的研究重点。  相似文献   

4.
《软件学报》2004,15(3):450-450
由上海交通大学和上海图书馆联合举办的2004年第7届亚洲数字图书馆国际会议——“国际合作与相互发展”(The7thInternationalConferenceofAsianDigitalLibraries——InternationalCollaborationandCross-Fertilization)将于2004年12月13日~17日在上海召开。一、论文主题内容(不局限于)1)技术与标准·数字图书馆系统:体系结构,移动应用,与数字图书馆相关的代理;·分布式异构数字馆藏的存取:互操作性,海量存取,相关信息发现、元信息集成;·信息检索和数据挖掘:文本和多媒体信息检索新技术,数据挖掘,跨语种、多语种数据存取和检索,用于信…  相似文献   

5.
《软件学报》2004,15(4):632-632
由上海交通大学和上海图书馆联合举办的2004年第7届亚洲数字图书馆国际会议——“国际合作与相互发展”(The 7th International Conference of Asian Digital Libraries——International Collaboration and Cross-Fertilization)将于2004年12月13日~17日在上海召开。 一、论文主题内容(不局限于) 1) 技术与标准 ·数字图书馆系统:体系结构,移动应用,与数字图书馆相关的代理; ·分布式异构数字馆藏的存取:互操作性,海量存取,相关信息发现、元信息集成; ·信息检索和数据挖掘:文本和多媒体信息检索新技术,数据挖掘,跨语种、多语种数据存…  相似文献   

6.
通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset, CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。  相似文献   

7.
文本知识发现:基于信息抽取的文本挖掘   总被引:11,自引:0,他引:11  
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知  相似文献   

8.
一、网络不良信息内容治理亟待重视随着互联网的不断发展,在海量信息不断丰富人们网络生活的同时,网络信息平台类型差异化加强、内容生产者增多,内容多样化明显等特点和趋势,使网络平台面临的不良信息传播风险不断提高,从而使强化平台使用者的参与方式、参与过程的规范化管理,营造健康网络生态和清朗网络空间变得日益重要。2020年3月1日起,国家互联网信息办公室颁布的《网络信息内容生态治理规定》(以下简称《规定》)即将施行。  相似文献   

9.
随着互联网的迅速发展,网络资源呈现领域开放性和语言多样性的特点。而语言多样性将造成网络信息交流上的障碍,整合多语言数据资源让用户快速了解其他语言信息具有重要的应用价值和现实意义。该文结合跨语言情感倾向判别的特点,提出策略融合的跨语言文本情感倾向判别框架。通过跨语言一致文本和跨语言混合概念空间的文本两种策略,构建基于双语协同文本情感倾向判别框架和基于跨语言特征混合文本情感倾向判别框架。在两种判别框架的基础上,融合两种框架判别结果,给出文本整体情感倾向性。实验表明,该文提出的融合策略在跨语言文本情感倾向判别上是有效的。  相似文献   

10.
随着图像、文本、声音、视频等多模态网络数据的急剧增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,由于其存在异构性差异,在不同的数据模态之间寻找内容相似性仍然具有挑战性。现有方法大都将异构数据通过映射矩阵或深度模型投射到公共子空间,来挖掘成对的关联关系,即图像和文本的全局信息对应关系,而忽略了数据内局部的上下文信息和数据间细粒度的交互信息,无法充分挖掘跨模态关联。为此,文中提出文本-图像协同注意力网络模型(CoAN),通过选择性地关注多模态数据的关键信息部分来增强内容相似性的度量。CoAN利用预训练的VGGNet模型和循环神经网络深层次地提取图像和文本的细粒度特征,利用文本-视觉注意力机制捕捉语言和视觉之间的细微交互作用;同时,该模型分别学习文本和图像的哈希表示,利用哈希方法的低存储特性和计算的高效性来提高检索速度。在实验得出,在两个广泛使用的跨模态数据集上,CoAN的平均准确率均值(mAP)超过所有对比方法,文本检索图像和图像检索文本的mAP值分别达到0.807和0.769。实验结果说明,CoAN有助于检测多模态数据的关键信息区域和数据间细粒度的交互信息,充分挖掘跨模态数据的内容相似性,提高检索精度。  相似文献   

11.
如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, PU)学习的图卷积高质量文章内容识别模型——基于PU学习的图卷积网络(graph convolutional network based on positive and unlabeled learning, GCN-PU),在统一的框架中使用一个异构网络同时建模社交媒体文章的文本和社交信息,并在该网络上使用图卷积网络来融合这些信息得到高阶特征.另外,使用多媒体文章的全局视觉布局信息来捕捉文章的综合视觉质量特征,用于补充图卷积网络输出的高阶特征.最后,在训练机制和损失函数中引入了PU学习来充分利用社交媒体中大量未标注的文章信息.在真实社交媒体数据集上的实验结果表明,相比于现有的方法, GCN-PU方法的F值提升了3%以上.  相似文献   

12.
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingualEvaluationUnderstudywith1-gram)、BLEU4 (BiLingualEvaluationUnderstudywith4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROU...  相似文献   

13.
拥措  史晓东  尼玛扎西 《计算机科学》2018,45(Z6):46-49, 68
随着社交网络的逐渐成熟,各类语种的文本出现在社交网络上。而这些非规范的短文本蕴藏着人们对事物的褒贬、需求等意见,是国家政府和企业了解公众舆论的重要参考信息,具有重大的研究价值和应用价值。首先,对 目前互联网短文本情感分析领域常用的神经网络、跨语言和应用语言学知识等研究方法进行归纳和总结;其次,对当前短文本情感分析研究的热点领域——社交媒体和资源稀缺语言的情感分析进行现状分析;最后,对短文本情感分析研究的趋势进行总结,分析存在的问题,并对未来进行展望。  相似文献   

14.
对内容分发网络(CDN)和对等网络(P2P)分别进行了分析对比,指出了它们各自的优缺点,并根据电信运营商主动参与P2P网络(P4P)技术的特点,给出了一种结合P4P、P2P与CDN技术的混合系统的设计方案,以及混合系统中协助CDN节点分发内容节点(伪CDN节点)的选择算法.该算法利用P4P技术获得运营商提供的网络信息,选择合适的边缘节点,贡献出其容量和带宽,为其他节点服务,以减少了系统边缘代理服务器的数量,增大系统容量,同时减少网络骨干网上的负载.模拟实验分析了考虑底层网络情况后,系统在链路花费、时间花费上的改进,结果表明该算法减少了跨网络运营商(ISP)流量,提高了系统性能.  相似文献   

15.
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,如何从这些医学文本中挖掘出有价值的信息,是医学行业和自然语言处理领域的研究热点.随着深度学习的发展,深度神经网络被逐步应用到关系抽取任务中,其中"recurrent+CNN"网络框架成为了医学实体关系抽取任务中的主流模型.但由于医学文本存在实体分布密度较高、实体之间的关系交错互联等问题,使得"recurrent+CNN"网络框架无法深入挖掘医学文本语句的语义特征.基于此,在"recurrent+CNN"网络框架基础之上,提出一种融合多通道自注意力机制的中文医学实体关系抽取模型,包括:1)利用BLSTM捕获文本句子的上下文信息;2)利用多通道自注意力机制深入挖掘句子的全局语义特征;3)利用CNN捕获句子的局部短语特征.通过在中文医学文本数据集上进行实验,验证了该模型的有效性,其精确率、召回率和F1值与主流的模型相比均有提高.  相似文献   

16.
《微型机与应用》2018,(1):48-51
随着信息技术的发展,网络已经成为民众表达观点和意愿的主流媒介。网络舆情具有数量大、传播速度快和范围广的特点,面对海量的舆情信息,单靠人工分析和识别的方法远不能满足需求。因此,提出运用词嵌入的方式对文本特征进行抽取,再用机器学习的方法自动对舆情信息的倾向性进行分析。实验比较了几种不同机器学习方法的效果,结果表明,机器学习算法能快速且准确地对舆情倾向性做出判断,其中,集成学习方法在数据集上取得最高准确率。  相似文献   

17.
文本分类综述   总被引:3,自引:0,他引:3  
靳小波 《自动化博览》2006,23(Z1):24-29
1文本分类的背景和意义上世纪九十年代以来,因特网以惊人的速度发展起来,它容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何从这些浩瀚的文本中发现有价值的信息是信息处理的一大目标。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。2文本分类的研究历…  相似文献   

18.
文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。  相似文献   

19.
在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF算法对文本褒贬倾向性分类是有效的。  相似文献   

20.
文本分类能够帮助人们更有效地利用不断膨胀的海量网络信息,然而网络文本中已不再是以单一的文本内容形式出现,更多的是包含标题、关键字、摘要、正文等多种要素.若用传统的文本分类器,则效果明显不好.综合利用文本各要素,提出通过KNN算法对各要素进行文本分类,再使用模拟退火算法以及Bayes定理协调各要素比重的多要素文本协调分类算法.实验结果表明,该算法是可行的,并且使用该算法得到的分类器比仅使用文本内容得到的分类器具有更高的分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号