博客文章

前言爬虫和反爬虫是一对矛和盾，反爬虫很常见的一个方法就是封IP，一个IP短时间内频繁访问，可以做限流或者是加入黑名单，我之前的后台开发相关博客也有涉及这一块。不过今天说的是爬虫，所以应对的方法就是用代理池，每次请求都用不同的IP就行，再加上UA模拟，完全是正常用户的行为，可以避开限流和黑名单反爬。然后爬虫是一种IO密集型程序，如果全程单线程执行那会很慢，因此可以用多线程来提高数据采集效率，不

爬虫

前端

02-12

2022-02-12

683

爬虫

DealiAxy

一个玄学的爬虫bug竟让我放弃Python语言！？背后的原因令人唏嘘~

每一位成功的程序员，背后也许都站着无数秃头的男人——为其提供各种开发工具&代码库，当然也包括…… 各种玄学bug…… 玄学的开端最近在用Python做一个爬虫项目的时候遇到一个很奇怪的问题，而且还不是每次都会触发，实在是令人费解…… 报错信息如下： UnicodeEncodeError: 'latin-1' codec can't encode character '\u2026' in pos

爬虫

前端

12-18

2021-12-18

5303

爬虫

DealiAxy

Selenium爬虫实践：ajax请求抓包、浏览器退出

前言最近在搞公司内部系统，累的一批，需要从另一个内部系统导出数据存到数据库做分析，有大量的数据采集工作，又没办法去直接拿到那个系统的接口，太难了，只能爬虫，但是cookie还经常失效，为了不每次登录失效就来找我重新注入Cookie，我写了一个手机版的网页，用来控制后台的selenium自动登录，截取token和cookie。 ajax请求抓包方案搜索资料的过程真的痛苦，不过还好这时间没有白花，

爬虫

前端

12-18

2022-05-27

5713

爬虫

DealiAxy

Selenium爬虫实战：截取网页上的图片

前言同样是为了刷课，没想到工作后依然和大学一样逃脱不了需要刷网课的命运…… 正文直接说干货了，截取图片，需要截取的图片是什么图片大家都懂（说的就是你，验证码），其他图片的话不需要截取，直接拿到地址下载就行，验证码不行，同样的地址再访问一次内容就变了。我不知道为啥selenium不能直接把特定img元素的图片拿出来，太反人类了。根据我找到的资料，主要有两种思路，一种是模拟鼠标操作，在验证码上

爬虫

前端

12-18

2022-05-27

174

爬虫

博客文章

搜索和控制面板

编写爬虫下载公众号上好看的壁纸

爬虫笔记：代理池和线程池

一个玄学的爬虫bug竟让我放弃Python语言！？背后的原因令人唏嘘~

Selenium爬虫实践：ajax请求抓包、浏览器退出

Selenium爬虫实战：截取网页上的图片