设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
web爬虫系统设计与实现 开题报告
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

毕业设计(论文)开题报告

学生姓名:

学号:

题目

Web爬虫系统设计与实现

指导教师姓名

指导教师职称

一、本课题研究的意义、内容、思路、方法及参考文献等:

(1) 研究意义

互联网是一个超级庞大的数据库,有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼睛,不可能一个网页、一个网页地去点去看,所以将数据有效地检索并组织呈现出来有着巨大的应用前景。

爬虫作为搜索引擎的重要组成部分,而搜索引擎作为一个辅助人们检索信息的工具,成为了用户访问万维网的入口和指南。但是,这些通用性的搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。

(2) 工作内容

爬虫实际上就是采集网络上数据的一段程序。这段程序的功能就是从网络上采集需要的数据。目前来说,大多数爬虫是用后台脚本类语言写的,其中Python无疑是用的最多最广的,而且相对于其他语言来说,python相对简单一点,并且页诞生了很多优秀的库和框架。本课题将采用Python作为web爬虫系统实现语言对爬虫进行编写。

一个爬虫的工作流程如下:(1)发起请求;(2)获取响应内容;(3)解析内容;(4)保存数据;所以,爬虫就是从请求内容到获取响应,接着解析内容,最后显示相应或者保存内容的过程。内容需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;如果有网站不愿本站数据流出,则会针对爬虫特性进行识别,将爬虫拒之门外;所以一个完整的爬虫一般会包含如下几个模块:网络请求模块、主机过滤模块、反爬虫对策模块(如果需要)。

(3) 参考文献

[1]潘晓英, 陈柳, 余慧敏,等. 主题爬虫技术研究综述[J]. 计算机应用研究, 2020, 037(004):961-965,972.

[2]刘爱琴, 王友林, 尚珊. 基于爬虫技术的关键词关联推荐算法优化与实现[J]. 情报理论与实践, 2018, 041(004):134-138.

[3]丁晓东. 数据到底属于谁?——从网络爬虫看平台数据权属与数据保护[J]. 华东政法大学学报, 2019, v.22;No.126(05):70-84.

[4]张海涛, 张枭慧, 魏萍,等. 网络用户信息检索行为研究进展[J]. 情报科学, 2020, v.38;No.345(05):171-178.

[5]钟机灵. 基于Python网络爬虫技术的数据采集系统研究[J]. 信息通信, 2020, No.208(04):101-103.

[6] 朱震. 利用Python设计网络爬虫系统[J]. 数字化用户, 2019, 25(014):83,216.

[7]孙冰. 基于Python的多线程网络爬虫的设计与实现[J]. 网络安全技术与应用, 2018, 000(004):38-39.

[8]张元. 基于Python网络爬虫的设计研究——K12教育教学网数据获取[C]// 教育部, 2017.

[9]戚利娜, 刘建东. 基于Python的简单网络爬虫的实现[J]. 电脑编程技巧与维护, 2017(8).

[10]巫宇超, 鲍正德, 唐娅雯. 基于Python的网络爬虫[J]. 计算机系统网络和电信, 2019, 001(002):P.277-281.

[11]郭锋锋. 基于python的网络爬虫研究[J]. 佳木斯大学学报(自然科学版), 2020, 038(002):62-65.

[12]李培. 基于Python的网络爬虫与反爬虫技术研究[J]. 计算机与数字工程, 2019, 47(6).

[13]朱震. 利用Python设计网络爬虫系统[J]. 数字化用户, 2019, 25(014):83,216.

[14] 孔洁,刘杨. 数据挖掘技术分析[J].电脑知识与技术.2017(32)

[15] 涂小琴. 基于Python爬虫的电影评论情感倾向性分析[J]..现代计算机(专业版).2017(35)

[16] 曲伟峰. 浅析Python网络爬虫[J]. 计算机产品与流通, 2019(9).

二、课题工作的总体安排及进度:

第一阶段(2020年12月11日——2020年12月25日)

完成毕业设计(论文)的开题报告和任务书,搜集关于网络爬虫的相关知识。

第二阶段(2020年12月26日——2021年1月31日)

将相关知识进行学习吸收,确定爬取网页和需要爬取的数据。

第三阶段(2021年2月1日——2021年2月12日)

按任务要求开展毕业设计,包括详细设计、代码生成、测试及撰写,完成毕业论文初稿并提交电子文档给导师。

第四阶段(2021年2月13日——2021年3月14日)

进行查重检测,教务处组织抽查。

第五阶段(2021年3月15日——2021年3月30日)

院(系)审核毕业设计(论文),4月15日——4月30日进行答辩。

三、课题预期达到的效果:

1、完成本科学位的论文。

2、对web爬虫有充分理解和学习。

3、设计开发实现一个具备信息检索功能的web爬虫系统。

四、指导教师意见:

签名:                       年    月    日

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于PLC控制的小车运料控制系统 圆柱形卷绕倍捻机传动机构机械设计 基于微信小程序+JavaSSM+
基于微信小程序+JavaSSM+ 基于微信小程序+JavaSSM+ 基于JSP+Maven+MySQ
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!