首页 > 编程语言 > Python > python爬虫数据是什么意思?
2021
09-25

python爬虫数据是什么意思?

一、什么是python爬虫

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。而这个数据则是我们想要的价值信息

比如新浪微博,一天产生数亿条的状态更新,而在百度搜索引擎中,随意搜一条——减肥100,000,000条信息。

而我们通过爬虫将相关的内容收集起来,在分析删选才能得到我们真正需要的信息。

这个信息收集分析整合的工作,可应用的范畴非常的广泛,无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等……都能够借助这个技术获取更精准有效的信息加以利用。


爬虫的工作原理其实就是模拟我们通过浏览器获取网页信息的过程,无外乎“发送请求—获得页面—解析页面—抽取并储存内容”从这个过程中,我们可以获取到的信息是,在爬虫工作中需要涉及到前端页面相关的知识,网络协议相关的知识,以及数据存储的相关知识。


二、爬虫所需要的库


请求库:requests

每个领域总会有那么几个最经典的实例。而在请求库中,requests就是总统山。不管是复杂的还是简单的爬虫,requests都能帮你解决。通过get和post的方法,以不变应万变

selenium+chromedrive

当你无法破解复杂API请求的时候,这个时候如果爬虫能够像人一样去操作浏览器该多好呀。Selenium+ChromeDrive就是帮你解决这个问题的。这套组合拳一直秉承着所见即所得,只要是浏览器能够打开的网站,它们都能够爬虫,完全按照人类的行为去操作


解析库:PyQuery

拿到返回的Html代码之后,我们需要从代码里面获取到需要的数据。当然这个时候你可以通过正则表达式来解决。但是这是一种多么违反人性的事情呀。

有没有更加简单的方法?

这种问题一般来说答案都是肯定的。PyQuery轻松定位数据,就像手术刀一样。


存储库:PyMysql

拿到数据之后,绝大部分的人还是想要把数据保存下来的。这个时候就要用到数据库。Mysql和Python是两种东西,我该怎么去建立二者的联系。

PyMsql来了!!!

你只管写Python代码,具体的底层操作交给它,妥妥的!


APP爬取:Charles

移动互联网时代,很多内容都在APP上面。我通过之前的爬虫无法爬取APP的内容,该怎么办?

Charles帮你在电脑上面监听APP发送的各种数据,就像电影中黑客一样,通过数据的分析,拿到接口,接着请求。

以上就是“python爬虫数据是什么意思?”的详细内容,想要了解更多python教程欢迎持续关注编程学习网

扫码芷若 获取免费视频学习资料

编程学习

查 看2019高级编程视频教程免费获取