聚焦爬虫¶
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
而我们今天要学习的网络爬虫,就是聚焦爬虫。
电影天堂爬取案例¶
- http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
- 从页面中提取单个电影的连接地址: http://www.ygdy8.net/html/gndy/dyzz/20190509/58565.html
- 只提取我们关心的数据: 电影的名字 电影海报 下载地址
- 打开连接 urllib.request
- response解析
- 提取数据