排序方式: 共有43条查询结果,搜索用时 4 毫秒
1.
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。 相似文献
2.
基于Web的表格信息抽取研究 总被引:1,自引:0,他引:1
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
3.
快速视网膜特征(FREAK)描述子通过计算模式方向实现了旋转不变性,但对于旋转尺度变化较大的情况匹配性能并不理想,误匹配率较高,为此提出了一种改进的基于FREAK描述子的精确图像配准算法。首先,对原有FREAK算法添加长距离点对,设定距离阈值,只利用关键点采样模式中距离较远的点来生成角度信息。其次,对Hamming距离进行加权。对每一个关键点,在为了生成描述子选择点对时,对训练数据描述子的每一列计算均值,越接近0.5的列权值越大,改进了原来Hamming距离计算粗略的状态,使距离计算更精确。最后,使用最近邻匹配结合最近邻和次近邻的比值以及随机抽样一致(RANSAC)方法进行快速匹配和优化。实验结果表明,改进算法更适用于旋转尺度变化较大的环境及匹配性能要求较高的场合。 相似文献
4.
5.
6.
随机数产生器在科学研究的许多领域具有重要意义。Linux内核利用系统环境噪声的随机特性,实现了一个高强度的随机数产生器。以Linux2.6.10内核源代码为基础,分析了其内核随机数产生器的设计。介绍了随机数产生器的基本原理和设计思想,并对其具体的实现细节,如输入输出接口作了详细的阐述,最后讨论了系统启动导致随机数质量下降的问题以及Linux内核随机数产生器的解决方法。 相似文献
7.
8.
大学物理仿真实验教学系统中霍尔效应虚拟实验课件的设计实现 总被引:2,自引:0,他引:2
霍尔效应虚拟实验课件采用面向对象技术实现实验场景及仪器的数值建模与图像建模,用逼真的三维图片和事件驱动方式实现场景和仪器的界面及操作仿真,实现了可设计性、操作的任意性和具有真实感的交互功能,使学生能像操作真实实验一样操作它,产生浓厚的兴趣,达到良好的教学效果。 相似文献
9.
10.
巧用黑盒法逆推百度中文分词算法 总被引:1,自引:0,他引:1
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术.笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象.介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法--正向最大匹配分词算法.该算法是最常见的一种中文分词算法,比较符合人的思维习惯.了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进. 相似文献