聚焦爬虫

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

而我们今天要学习的网络爬虫,就是聚焦爬虫。

电影天堂爬取案例

  1. http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
  2. 从页面中提取单个电影的连接地址: http://www.ygdy8.net/html/gndy/dyzz/20190509/58565.html
  3. 只提取我们关心的数据: 电影的名字 电影海报 下载地址
  4. 打开连接 urllib.request
  5. response解析
  6. 提取数据