Python爬虫学习总结

网络爬虫的流程和原理 整个网络爬虫的流程可以分为如下的三个步骤: 整个爬虫的过程都可以使用 Python(本文使用 Python 3)来完成,每个步骤使用的模块大致如下: 获取网页:requests、urllib、selenium(模拟浏览器) 解析网页:re正则表达式、BeautifulSoup、HTML 解析器lxml等 存储数据:存储至 txt、csv 等文件或是存储至 MySQL、MongoDB 等数据库 使用 requests 模块发起 HTTP 请求与抓取静态网页 使用 pip 命令安装requests模块。 1 pip install requests 使用requests.get()可以向目标 URL 发送一个GET请求并返回页面内容与信息。 1 2 import requests r = requests.get('https://www.baidu.com') 此时我们就已经实现了一个静态网页的抓取。requests.get()方法返回的对象包含了关于本次请求的信息,通过它的一些实例变量和方法可以进行访问。下面列出了一些常用的变量和方法: status_code :返回 HTTP 状态码 headers :返回请求头 encoding :返回编码类型 text :返回响应内容(Unicode) content :返回响应内容(二进制数据) json() :返回 JSON 响应内容 url :返回网页 URL 上面只是一个所有参数都为默认时的请求。有时候我们可以对requests进行定制,使得请求符合我们的需求。 设置 URL 参数 可以使用一个字典用于保存参数名称与其对应的值,然后通过params参数传入requests.get()方法中。在下面的代码中,将值为value1的参数key1和值为value2的参数key2传入网页http://httpbin.org/get,发现 URL 已经正确编码: 1 2 3 4 5 import requests key = {'key1': 'value1', 'key2': 'value2'} r = requests....

Sep. 27, 2019 · 13 min · 2728 words