爬虫爬取黑马程序员论坛的网页数据

#引入requests库import requests#根据url发起请求，获取服务器响应文件url：待抓取的urldef load_page(url):#这里的请求头header可以是任意一个网站上面的请求头，进入开发者模式就可以找到，推荐使用google浏览器，比较方便查看#header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36 QIHU 360SE'}#发送get请求response = requests.get(url, headers = header)#返回html源代码return response.text#将html文件保存为网页文件def save_file(html, filename):print('正在保存' + filename)with open(filename, 'w', encoding='utf-8') as file:file.write(html)#调度函数def heima_fornum(begin_page, end_page):for page in range(begin_page, end_page + 1):#组合页面完整的urlurl = f'http://bbs.itheima.com/forum-568-{page}.html'#上面的url以黑马程序员论坛的大数据技术交流模块为例子#文件名称file_name = '第' + str(page) + '页.html'#抓取网页数据html = load_page(url)#保存网页数据save_file(html, file_name)#定义主函数if __name__ == '__main__':begin_page = int(input('请输入起始页：'))end_page = int(input('请输出结束页：'))heima_fornum(begin_page, end_page)

输入完成后运行将会是这样：