摘 要: | 目前旅游信息数据量庞大却无法满足用户的特定需求,很多不确定因素导致用户评分出现偏差,使推荐结果不准确且实时性差。鉴于此,本文提出构建基于Spark框架的瀑布型融合旅游推荐系统。首先,利用爬虫技术对各大旅游网站景点信息进行爬取和整理,搭建Spark框架读取数据并进行数据清洗和预处理,通过API将景点地理位置转换为经纬度坐标以便后续可视化;其次,设计2个过滤层,第一层采用SimHash算法,该算法能够实现海量数据的快速降维处理,有效节约时间。第二层采用余弦相似度算法并利用TF-IDF计算词频,进而过滤和更新旅游景点推荐数据库,最终形成反馈给用户的推荐数据库;最后,用户从系统推荐的Top-N景点选择自己感兴趣的景点,系统将会对其进行地图可视化,并标注每个省市景点的数量和平均票价,为用户提供智能旅游推荐的完美体验。该系统从用户需求出发,通过分析用户需求文本语义,与旅游数据库进行相似度计算进而获得推荐结果,达到了实时性和准确性的统一,是对旅游推荐系统的补充和完善,具有一定的实用价值。
|