Python爬虫详解

1、任务介绍

需求分析
爬取豆瓣电影Top250的基本信息，包括电影的名称，豆瓣评分，评价数，电影概况，电影链接等。

https://movie.douban.com/top250

2、基本流程2.1、准备工作通过浏览器查看分析目标网页，学习编程基础规范与Java的一些区别，Python没有主函数，需要自己去定义并判断

def main():#所有程序从这里开始执行    print("hello")if __name__=="__main__": #当 当前程序执行时#调用函数    main()

2.1.1引入模块作用就是使用模块里封装好的功能

from bs4 import BeautifulSoup#网页解析import re #正则表达式，进行文字匹配import urllib.request,urllib.error #指定URL，获取网页数据import xlwt #进行Excel操作import sqlite3 # 进行SQLite数据库操作#若你的Python升级到2.7.9以后，就会引入一个新特性，#引入了一个新特性，当使用urllib打开https的链接时，会检验一次ssl证书import ssl#全局取消证书验证(当项目对安全性问题不太重视时，推荐使用，可以全局取消证书的验证，简易方便)ssl._create_default_https_context = ssl._create_unverified_context

2.1.2构建流程

def main():    baseurl="https://movie.douban.com/top250"#要爬取的网站的路径    #1.爬取网页    datalist=getData(baseurl)#将网站爬取的数据存放在datalist中    savepath="豆瓣电影Top250.xls"#爬取的数据保存的文件名    #3.保存数据    saveData(datalist,savepath)#将爬取的数据保存在指定的文件内#爬取网页def getData(baseurl):    datalist=[]    return datalist

2.2、获取数据通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response,便是所要获取的页面内容。伪装head得到的方法

#爬取网页def getData(baseurl):    datalist=[]    for i in range(0,10):#调用获取页面信息的函数，10次        url=baseurl+str(i*25)#baseurl就是参数start后面的值,其实就是个0        html=askURL(url)#保存获取到的网页源码       #得到指定一个URL的网页内容def askURL(url):    #用户代理表示告诉豆瓣服务我们是什么类型的机器，浏览器(本质上是告诉浏览器，我们可以接受什么水平的文件内容)    head={ #模拟浏览器头部信息，向豆瓣服务器发送消息        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36" }    request=urllib.request.Request(url,headers=head)#伪装成是浏览器去发出请求，防止被看出是爬虫    html=""    try:        #将爬取网页的源码存放在response中(获取一个get请求)        response = urllib.request.urlopen(request)        html=response.read().decode("utf-8")#将response中读取到的源代码进行解码        #print(html)    except urllib.error.URLError as e:#访问可能出现404，或者其它错误        if hasattr(e,"code"):            print(e.code)        if hasattr(e,"reason"):            print(e.reason)    return html

2.3、解析内容得到的内容可能是HTML、json等格式，可以用二面解析库，正则表达式等进行解析

#影片详情链接的规则findLink = re.compile(r'')#创建正则表达式，表示规则(字符窜的模式)#影片图片findImgSrc=re.compile(r'<img.*src="https://www.cnblogs.com/twq46/archive/2022/09/30/(.*?)"',re.S)#re.S让换行符包含在字符中#影片片名findTitle=re.compile(r'(.*)')#re.S让换行符包含在字符中#影片评分findRating=re.compile(r'(.*)')#re.S让换行符包含在字符中#找到评价人数findJudge=re.compile(r'(\d*)人评价')#找到概况findInq=re.compile(r'(.*)')#找到影片的相关内容findBd=re.compile(r'https://www.cnblogs.com/twq46/archive/2022/09/30/(.*?)
',re.S)#逐一解析数据soup= BeautifulSoup(html,"html.parser")#使用html的解析器for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表    #print(item)    data=[]    item=str(item)    #影片详情链接    link=re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串(标签里的字符串)    data.append(link)    #图片    imgSrc=re.findall(findImgSrc,item)[0]    data.append(imgSrc)    #影片片名            titles=re.findall(findTitle,item)#片名可能只有一个中文名，没有外国名            if(len(titles)==2):#若该电影有两个名字                ctitle=titles[0]#得到第一个中文名                data.append(ctitle)                otitle=titles[1].replace("/","")#去掉无关的符号，在一个电影名称中，若有多个名字，每个名字之间会使用/分割开了                data.append(otitle)#添加外国名            else:#若只有一个中文名                data.append(titles[0])#将爬取到的第一个名字存入                data.append(' ')#外国名留空            #评分            rating=re.findall(findRating,item)[0]            data.append(rating)            #评价人数            judgeNum=re.findall(findJudge,item)[0]            data.append(judgeNum)#增加评价人数            #概括            inq=re.findall(findInq,item)            if len(inq) !=0:#如果电影有概述                inq=inq[0].replace("。","")#每个电影概述后面有一个句号                data.append(inq)#添加概述            else:                data.append("")#留空            #相关内容            bd=re.findall(findBd,item)[0]            bd=re.sub('
(\s+)?'," ",bd)#去掉
            bd=re.sub('/'," ",bd)#替换/            data.append(bd.strip())#去掉前后的空格            datalist.append(data)#把处理好的一部电影信息放入datalist

2.4、保存数据保存形式多样，可以村委文本，也可以保存到数据，或者保存特定格式的文件

#保存数据def saveData(datalist,savepath):    print("save..")    book=xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)#创建工作表    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")    for i in range(0,8):        sheet.write(0,i,col[i])#列名    for i in range(0,250):        print("第%d条"%(i+1))        data=datalist[i]        for j in range(0,8):            sheet.write(i+1,j,data[j])#数据    book.save(savepath)#保存

最后完整代码

from bs4 import BeautifulSoup#网页解析import re #正则表达式，进行文字匹配import urllib.request,urllib.error #指定URL，获取网页数据import xlwt #进行Excel操作import sqlite3 # 进行SQLite数据库操作#若你的Python升级到2.7.9以后，就会引入一个新特性，#引入了一个新特性，当使用urllib打开https的链接时，会检验一次ssl证书import ssl#全局取消证书验证(当项目对安全性问题不太重视时，推荐使用，可以全局取消证书的验证，简易方便)ssl._create_default_https_context = ssl._create_unverified_contextdef main():    baseurl="https://movie.douban.com/top250?start="    #1.爬取网页    datalist=getData(baseurl)    savepath="豆瓣电影Top250.xls"    #3.保存数据    saveData(datalist,savepath)    #askURL("https://movie.douban.com/top250")#影片详情链接的规则findLink = re.compile(r'')#创建正则表达式，表示规则(字符窜的模式)#影片图片findImgSrc=re.compile(r'<img.*src="https://www.cnblogs.com/twq46/archive/2022/09/30/(.*?)"',re.S)#re.S让换行符包含在字符中#影片片名findTitle=re.compile(r'(.*)')#re.S让换行符包含在字符中#影片评分findRating=re.compile(r'(.*)')#re.S让换行符包含在字符中#找到评价人数findJudge=re.compile(r'(\d*)人评价')#找到概况findInq=re.compile(r'(.*)')#找到影片的相关内容findBd=re.compile(r'https://www.cnblogs.com/twq46/archive/2022/09/30/(.*?)
',re.S)#爬取网页def getData(baseurl):    datalist=[]    for i in range(0,10):#调用获取页面信息的函数，10次        url=baseurl+str(i*25)#baseurl就是参数start后面的值,其实就是个0        html=askURL(url)#保存获取到的网页源码        #逐一解析数据        soup= BeautifulSoup(html,"html.parser")#使用html的解析器        for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表            #print(item)            data=[]            item=str(item)            #影片详情链接            link=re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串(标签里的字符串)            data.append(link)            #图片            imgSrc=re.findall(findImgSrc,item)[0]            data.append(imgSrc)            #影片片名            titles=re.findall(findTitle,item)#片名可能只有一个中文名，没有外国名            if(len(titles)==2):#若该电影有两个名字                ctitle=titles[0]#得到第一个中文名                data.append(ctitle)                otitle=titles[1].replace("/","")#去掉无关的符号，在一个电影名称中，若有多个名字，每个名字之间会使用/分割开了                data.append(otitle)#添加外国名            else:#若只有一个中文名                data.append(titles[0])#将爬取到的第一个名字存入                data.append(' ')#外国名留空            #评分            rating=re.findall(findRating,item)[0]            data.append(rating)            #评价人数            judgeNum=re.findall(findJudge,item)[0]            data.append(judgeNum)#增加评价人数            #概括            inq=re.findall(findInq,item)            if len(inq) !=0:#如果电影有概述                inq=inq[0].replace("。","")#每个电影概述后面有一个句号                data.append(inq)#添加概述            else:                data.append("")#留空            #相关内容            bd=re.findall(findBd,item)[0]            bd=re.sub('
(\s+)?'," ",bd)#去掉
            bd=re.sub('/'," ",bd)#替换/            data.append(bd.strip())#去掉前后的空格            datalist.append(data)#把处理好的一部电影信息放入datalist    #print(datalist)    return datalist#得到指定一个URL的网页内容def askURL(url):    #用户代理表示告诉豆瓣服务我们是什么类型的机器，浏览器(本质上是告诉浏览器，我们可以接受什么水平的文件内容)    head={ #模拟浏览器头部信息，向豆瓣服务器发送消息        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36" }    request=urllib.request.Request(url,headers=head)#伪装成是浏览器去发出请求，防止被看出是爬虫    html=""    try:        #将爬取网页的源码存放在response中(获取一个get请求)        response = urllib.request.urlopen(request)        html=response.read().decode("utf-8")#将response中读取到的源代码进行解码        #print(html)    except urllib.error.URLError as e:#访问可能出现404，或者其它错误        if hasattr(e,"code"):            print(e.code)        if hasattr(e,"reason"):            print(e.reason)    return html#保存数据def saveData(datalist,savepath):    print("save..")    book=xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)#创建工作表    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")    for i in range(0,8):        sheet.write(0,i,col[i])#列名    for i in range(0,250):        print("第%d条"%(i+1))        data=datalist[i]        for j in range(0,8):            sheet.write(i+1,j,data[j])#数据    book.save(savepath)#保存if __name__=="__main__": #当程序执行时    main()

运行结果

Python爬虫详解

最新关注

热文推荐

iOS QQ登录SDK升级后报错Duplicate interface definition for class ‘TencentOAuth‘修复

全民Python的时代，请问财务是否真的需要python?

Jenkins+Allure+Pytest的持续集成

从零搭建机器学习平台Kubeflow

⌈Linux_ 感受系统美学⌋ 剖释Linux操作系统 | 底层级操作增进Linux内功

228.【2023年华为OD机试真题（C卷）】传递悄悄话（优先搜索（DFS）-Java&Python&C++&JS实现）