博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫入门
阅读量:6333 次
发布时间:2019-06-22

本文共 2009 字,大约阅读时间需要 6 分钟。

写在前面

学习爬虫也很久了,但是一直没有整理自己的笔记,然后,今天整理的是慕课网疯狂的蚂蚁crazyant 老师的《Python开发简单爬虫》这门课程的内容,大家也可以关注一下这位老师,讲得很不错,这边文章中也加上了自己的一些见解,如有错误,告诉我一下,谢谢

什么是爬虫

从百度词条中,我们可以知道,爬虫是一段自动抓取万维网信息的程序.通过爬虫我们可以爬取URL,获取我们想要的数据信息

爬虫分类

我这里就简单从复杂程度来分类了

1.简单爬虫[本次讲解的]

特点:不需要登录,直接可以爬取的静态网页

2.复杂爬虫

特点:

1.需要登录才能获取数据,
2.页面数据通过Ajax异步渲染得到的页面

爬虫架构

架构这个东西,是一开始心里得有个底的,我们需要了解爬虫的整个执行流程

这里写图片描述

上面就是包括了爬虫程序的5个主要部分

我们来看看动态运行流程
这里写图片描述
简单说明:
1.调度器首先询问URL管理器是否有待爬取的url,

2.如果有,就从URL管理器中获取一个待爬取的URL交给下载器进行下载,

3.下载器下载完,将数据返回给调度器

4.调度器将下载下来的数据发给解析器进行解析,解析器解析价值数据和新的URL列表

5.调度器将价值数据进行收集,并且将新解析出来的url列表发给URL管理器

这样一直循环,一直到URL管理器中没有待爬取的url,才会停止

URL管理器介绍

1. 什么是URL管理器

顾名思义,这个当然是管理的url地址的

为了防止重复抓取,循环抓取,这个URL地址必须包含两个部分
1.待爬取的URL列表
2.已经爬取过的URL列表

简单说明:

1.一开始,待爬取URL列表中有一个起始的URL,爬取过的URL列表为空

2.爬取起始的URL,会得到价值数据和新得URL列表,并将起始URL放到爬取过的URL列表中

3.将新的URL列表保存在待爬取列表中(保存之前,会先判断待爬取列表中是否已经存在,[这样保证了不会重复]),供调度器使用

2.URL管理器实现方式

这里写图片描述

网页下载器介绍

调度器将待爬取的URL交给下载器进行下载,下载得到html文件,并将文件保存到本地

下载器分类

第一类:Urllib2(Python官方基础模块)

1.支持直接静态网页下载
2.或者需要向网页提交一些需要用户输入的数据
3.支持需要用户登录访问的cookie处理
4.需要代理访问的代理处理

第二类requests是一个第三方的库[其实更加强大]

开始介绍urllib2

urllib2网页下载器下载网页的方法

方式一:直接将需要下载的url传送给urllib2.urlopen()方法

import urllib2# python2from urllib import request #python3#直接请求response = urllib2.urlopen('http://www.baidu.com')# python2response2 = urllib2.urlopen('http://www.baidu.com')# python3# 获取状态码,200表示成功print("方式一")print (response.getcode())# 读取内容文本cont = response.read()

方式二:添加data.header等信息到urllib2.request类,,生成一个request对象才能够

#方式二:创建Request对象request_ = request.Request(baidu)#添加请求头request_.add_header('User-Agent','Mozilla/5.0')#发送请求response2 = request.urlopen(request_)print("方式二")print(response2.getcode())

网页解析器

这里写图片描述

常用的网页解析器有:

正则表达式:将整个文档当做一个字符串 使用模糊匹配的方式提取出有价值的数据

适用于简单文档

Html.parser:这个是python自带模块的

BeautifulSoup:这个第三方的插件

Lxml:第三方插件解析html或者xml

ps:BeautifulSoup

可以使用Html.parser作为解析器
也可以使用lxml作为解析器

Beautiful Soup操作流程

[查看官网]

步骤一:引入包

from bs4 import BeautifulSoup

步骤二:创建Beautiful Soup对象

soup = BeautifulSoup(html_doc, 'html.parser',from_encoding='utf8')

接着,就可以使用soup这个对象对html数据进行解析了

转载于:https://www.cnblogs.com/liuge36/p/9882886.html

你可能感兴趣的文章
Silverlight实用窍门系列:50.InkPresenter涂鸦板的基本使用,以及将效果保存为Png图片【附带源码实例】...
查看>>
MySQL数据库经典书籍share
查看>>
给出三个数,要求输出 最大的一个
查看>>
Linux系统中获取帮助的方法及Linux系统的哲学思想
查看>>
在windows环境创建,安装windows服务
查看>>
Nginx请求反向代理
查看>>
golang的GJSON库
查看>>
mybatis 中的<![CDATA[ ]]>
查看>>
Springboot配置文件读取报错Configuration property name 'projectUrl' is not valid:
查看>>
HTTP状态码
查看>>
今天的学习
查看>>
面试必问之JVM原理
查看>>
linux批量修改文件名大小写
查看>>
我的友情链接
查看>>
CSS预处理器-Sass
查看>>
mysql主主同步+Keepalived
查看>>
F5 负载均衡学习笔记----V9.x启动U盘制作方法
查看>>
如何学编程
查看>>
学习Linux决心书
查看>>
javascript中函数的参数与arguments关系
查看>>