Yifei Kong

Aug 14, 2017

爬虫如何尽量模拟浏览器

http headers

发送http请求时，Host, Connection, Accept, User-Agent, Referer, Accept-Encoding, Accept-Language这七个头必须添加，因为正常的浏览器都会有这7个头。其中：

Host一般各种库都已经填充了
Connection填Keep-Alive
Accept一般填text/html 或者application/json
User-Agent使用自己的爬虫或者伪造浏览器的UA
Referer一般填当前URL即可，考虑按照真是访问顺序添加referer，初始的referer可以使用google。
Accept-Encoding 从gzip和deflate中选，好多网站会强行返回gzip的结果
Aceept-Language根据情况选择，比如zh-CN, en-US

cookies

cookie是需要更新的

others

可能有一些人类不可见的陷阱链接，不要访问这些链接

爬取间隔自适应

就是已经限制了你这个IP的抓取，就不要傻傻重复试，怎么也得休息一会。网易云音乐操作起来比较简单，sleep一下就好了。其实sleep的间隔应该按情况累加，比如第一次sleep 10秒，发现还是被约束。那么久sleep 20秒... 这个间隔的设置已经自适应的最终效果是经验值。

ref

http://www.cnblogs.com/jexus/p/5471665.html

posted at 22:21 · 计算机 · 计算机爬虫