博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用python写网络爬虫 -从零开始 3 编写ID遍历爬虫
阅读量:6441 次
发布时间:2019-06-23

本文共 915 字,大约阅读时间需要 3 分钟。

我们在访问网站的时候,发现有些网页ID 是按顺序排列的数字,这个时候我们就可以使用ID遍历的方式来爬取内容。但是局限性在于有些ID数字在10位数左右,那么这样爬取效率就会很低很低! import itertools from common import download def iteration():     max_errors = 5 # maximum number of consecutive download errors allowed     num_errors = 0 # current number of consecutive download errors     for page in itertools.count(1):         url = 'http://example.webscraping.com/view/-{}'.format(page)         html = download(url)         if html is None:             # received an error trying to download this webpage             num_errors += 1             if num_errors == max_errors:                 # reached maximum amount of errors in a row so exit                 break             # so assume have reached the last country ID and can stop downloading         else:             # success - can scrape the result             # ...             num_errors = 0

转载于:https://www.cnblogs.com/mrruning/p/7638459.html

你可能感兴趣的文章
指针[收藏]
查看>>
审批流程设计方案-介绍(一)
查看>>
Python多进程编程
查看>>
使Eclipse下支持编写HTML/JS/CSS/JSP页面的自动提示。
查看>>
IIS_右键点击浏览网站没有反应
查看>>
POJ训练计划1035_Spell checker(串处理/暴力)
查看>>
Makefile 使用总结【转】
查看>>
一起学微软Power BI系列-官方文档-入门指南(4)Power BI的可视化
查看>>
Android.util.Log 关于Android开发中打印log
查看>>
转:Python yield 使用浅析 from IBM Developer
查看>>
仪表板颜色
查看>>
NodeJS、NPM安装配置步骤(windows版本)
查看>>
mysql oom之后的page 447 log sequence number 292344272 is in the future
查看>>
chrome禁用某个网站js脚本的执行
查看>>
数组排序 和 二分法查找
查看>>
MongoDB C Driver Building on Windows
查看>>
备忘zookeeper(单机+伪集群+集群)
查看>>
无需编译、快速生成 Vue 风格的文档网站
查看>>
AtomicBoolean介绍与使用
查看>>
Elasticsearch之curl删除
查看>>