共查询到17条相似文献,搜索用时 78 毫秒
1.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。 相似文献
2.
邵振凯 《计算机技术与发展》2013,(9)
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。 相似文献
3.
4.
5.
刘军 《数字社区&智能家居》2007,1(2):451-452
为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法.该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息.封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%. 相似文献
6.
金涛 《电脑与微电子技术》2012,(1):16-18
网络爬虫是为了实现网络资源下栽功能的程序,是搜索引擎最重要的构件。考虑到网络上信息的种类繁多,研究一种基于网络爬虫的网页信息提取技术,并给出相关的设计方案,对设计方案进行验证,结果表明设计的可行性。 相似文献
7.
8.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 相似文献
9.
10.
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 相似文献
11.
基于网页结构特征的网页主要文本信息抽取策略 总被引:1,自引:0,他引:1
根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作.该抽取方法具有较强的空阃适应性和时间适应性. 相似文献
12.
基于正文特征的网页正文信息提取方法 总被引:2,自引:0,他引:2
利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法.谊方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息.实验结果证明该方法是有效的、通用的. 相似文献
13.
14.
钟祥睿 《数字社区&智能家居》2006,(5):96-97
在分析当前一些主流的wrapper技术的基础上,提出了一个基于移动Agent的web信息抽取系统框架。在该框架中,利用移动Agent所具有的自治性、移动性、交互性和智能性.将数据抽取和转换任务交给移动Agent.让其移动到Web数据源上去完成信息抽取任务,并将抽取结果传田。这样不但可以减少数据传输量,节约网络带宽。降低响应时间;还可以减少对网络的依赖性,允许网络的间断连接。 相似文献
15.
钟祥睿 《数字社区&智能家居》2006,(14)
在分析当前一些主流的wrapper技术的基础上,提出了一个基于移动Agent的Web信息抽取系统框架。在该框架中,利用移动Agent所具有的自治性、移动性、交互性和智能性,将数据抽取和转换任务交给移动Agent,让其移动到Web数据源上去完成信息抽取任务,并将抽取结果传回。这样不但可以减少数据传输量,节约网络带宽,降低响应时间;还可以减少对网络的依赖性,允许网络的间断连接。 相似文献
16.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。 相似文献