编程学习网 > 编程语言 > Python > 通俗一点了解python爬虫是什么?
2022
01-07

通俗一点了解python爬虫是什么?

相信很多人在网上看到很多关于Python爬虫的解释,但是总是觉得云里雾里,看似了解却不知怎么和其他人解释,所以本文就通俗的和大家说说Python爬虫是什么。

爬虫

顾名思义,“爬来爬去的虫子”,听着都觉得瘆得慌。没错,这个虫子就是偷偷摸摸去爬别人的数据。(可想而知一般不受欢迎)可以形象理解为小偷,偷偷摸摸到别人家里偷值钱的东西。➡  问题来了:

1、你得知道地址吧。url 换种角度理解就是资源位置。

2、到了家门口,礼貌一点你得问问能不能来“偷”东西?  得到允许了(事实上很多人压根不知道,这个允许指的是另一个层面的允许,比如你没有装防盗窗没有装锁,门还开着,这不就是“允许”吗?)  robots协议。

3、房子很大,我只想要最值钱的珠宝,藏在哪里?

4、好不容易珠宝到手了,我得考虑如何保存吧。

(源代码)显然可能很大很大,这对你来说不是好事,意味着东西难找啊。这里就有很多方法了。比如一般来说之前的藏在保险柜里,而保险柜一般在。。。特殊的定位查找方法。

爬虫怎么玩?


在互联网上许许多多的网站它们都是托管在服务器上的,这些服务器 24 小时运行着时时刻刻,兢兢业业的等待着别人的请求。所以我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样。爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)大多数的服务器呢,以为是浏览器发送请求,就直接返回数据给爬虫了,



当然了,有一些网站比较精明,所以他们会建立一些反爬虫机制,但是,对于我们来说,不在话下,这个是后话了!反正这个时候呢,服务器把数据返回给我们了,那么我们就可以对这些数据进行操作了。


不同的情况下,服务器返回给我们的数据格式不一样。有HTML、JSON、二进制的数据啦。根据不同的情况,我们可以使用不同的方式对他们进行处理。处理完之后我们就可以对他们进行保存啦,保存的方式也有几种:数据库、硬盘、等等..

以上就是我们的爬虫的具体爬取流程,这是我们学习Python爬虫的重要阶段,想要了解更多Python教程欢迎持续关注编程学习网



扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取