Scraping

网络爬虫的流程和原理整个网络爬虫的流程可以分为如下的三个步骤：整个爬虫的过程都可以使用 Python（本文使用 Python 3）来完成，每个步骤使用的模块大致如下：获取网页：requests、urllib、selenium（模拟浏览器）解析网页：re正则表达式、BeautifulSoup、HTML 解析器lxml等存储数据：存储至 txt、csv 等文件或是存储至 MySQL、MongoDB 等数据库使用 requests 模块发起 HTTP 请求与抓取静态网页使用 pip 命令安装requests模块。 1 pip install requests 使用requests.get()可以向目标 URL 发送一个GET请求并返回页面内容与信息。 1 2 import requests r = requests.get('https://www.baidu.com') 此时我们就已经实现了一个静态网页的抓取。requests.get()方法返回的对象包含了关于本次请求的信息，通过它的一些实例变量和方法可以进行访问。下面列出了一些常用的变量和方法： status_code ：返回 HTTP 状态码 headers ：返回请求头 encoding ：返回编码类型 text ：返回响应内容（Unicode） content ：返回响应内容（二进制数据） json() ：返回 JSON 响应内容 url ：返回网页 URL 上面只是一个所有参数都为默认时的请求。有时候我们可以对requests进行定制，使得请求符合我们的需求。设置 URL 参数可以使用一个字典用于保存参数名称与其对应的值，然后通过params参数传入requests.get()方法中。在下面的代码中，将值为value1的参数key1和值为value2的参数key2传入网页http://httpbin.org/get，发现 URL 已经正确编码： 1 2 3 4 5 import requests key = {'key1': 'value1', 'key2': 'value2'} r = requests....