Python 操作 Excel 数据表:数据读取

用 Python 操作 Excel 数据表
Excel 由于其直观的界面、出色的计算功能和图表工具,目前已经成为最流行的个人计算机数据处理软件,在日常办公中必不可少。而借助于 Python 可以让用户更加高效的使用 Excel,减少重复性的工作,我们之前也说过,Python 拥有大量的第三方库可以帮助我们完成丰富的场景,现在我们将学习用来操作 Excel 的第三方库:xlrd。

xlrd 模块

xlrd 是一个用于从 Excel 文件(.xls/.xlsx)读取数据和格式化信息的库。在内容正式开始前,建议先回顾下 Excel 文件中的一些名词概念,即工作簿、工作表、行、列、单元格,如下图所示。

1.1 安装
xlrd 是 Python 的第三方库,使用前需要通过以下命令进行安装:
pip install xlrd==1.2.0
(注意:高版本的xlrd有可能不兼容,所以需要指定低版本)

1.2 使用步骤
步骤 1:导入 xlrd 模块
import xlrd

通过 import xlrd 完成导入。
步骤 2:加载 Excel 文件
import xlrd
filename=r’D:\lx\test.xlsx’ #记得用r转换
data=xlrd.open_workbook(filename)

open_workboox () 方法返回当前工作簿的一个实例,后续的操作都是通过这个实例进行。
步骤 3:读取数据
拿到 Excel 的实例后,即可通过 xlrd 模块提供的方法进行数据的读取。

2. xlrd 模块使用

这部分内容我们将针对 Excel 中常用概念:工作表、列、行、单元格,依次对应介绍 xlrd 模块的操作方法。接下来的所有操作都将围绕工作簿 test.xlsx 进行,test.xlsx 中包括 3 个工作表(sheet),每个工作表内容如下图所示:


2.1 xlrd 操作 Excel 工作表
在一个工作簿中可以定义多个工作表(sheet),而数据真正所存放的位置正是在工作表中,所以在开始读取数据前,首先需要对工作表进行操作,常用属性,见下表:

属性描述
nsheets获取工作簿中sheet的数量

import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.nsheets) #有3个sheet页,所以输出3

通过上述代码,可以得知在 data.xlsx 文件中,共有 3 个工作表(sheet)。xlrd 操作工作表(sheet)常用方法,见下表。

方法描述
sheets()获取所有 sheet 的对象,以列表形式显示
sheet_by_index(sheetx )根据索引返回对应的 sheet
sheet_by_name(sheet_name )通过 sheet 名称返回对应 sheet
sheet_names()返回工作簿中所有 sheet 名称
sheet_loaded(sheet_name_or_index )通过 sheet 名称或索引判断该 sheet 是否导入成功,返回值为 bool 类型,True 表示已导入,False 表示未导入
unload_sheet(sheet_name_or_index )通过 sheet 名称或索引取消 sheet 加载

下面来具体看下每个方法的使用:
sheets () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheets())

代码解释:sheets () 方法为获取 excel 中所有的工作表(sheet)对象,目前 data.xlsx 中共包含三个 sheet,所以这里输出返回三个 sheet 对象,后续可以通过每个 sheet 对象来对 sheet 中的行、列、单元格进行操作。

sheet_by_index () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheet_by_index(0))

代码解释:sheet_by_index () 方法是根据索引获取 excel 中的工作表(sheet),上述代码中传递 0,表示获取索引为 0 的 sheet 对象,可以通过 sheets () 方法的输出结果与 sheet_by_index () 方法的输出结果进行对比,即可发现,第一个 sheet 在内存中的位置是相同的,都是 0x02A08EB0。
(注:可理解为代码index(0)为第一个sheet,index(1)为第二个sheet)

sheet_by_name () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheet_by_name(‘s1’)) #sheet表名称

代码解释:sheet_by_name () 方法是根据工作表名称来获取 excel 中的工作表(sheet),上述代码中传递 “s1”,对应到 test.xlsx 中即第一个工作表。

sheet_names () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheet_names()) #工作簿test.xlsx中所有sheet名称

代码解释:sheet_names () 方法为返回工作簿中所有工作表的名称,本小节中 test.xlsx 共包含 3 个工作表,固这里返回 [‘s1’, ‘s2’, ‘Sheet3’]。

sheet_loaded () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheet_loaded(‘s1’)) #sheet名称
print(data.sheet_loaded(0)) #索引

代码解释:sheet_loaded () 方法表示指定工作表是否已导入(加载),返回值为布尔类型,其中参数可以为索引或工作表名称,代码中传递为 0,表示检查第一个工作表是否已导入(加载),xlrd 模块在使用 open_workbook () 方法加载工作簿时,其所有工作表均已加载完成,所以在输出时,输出 True。

unload_sheet () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
print(data.sheet_loaded(‘s1’)) #True
data.unload_sheet(‘s1’) #取消加载
print(data.sheet_loaded(‘s1’)) #False

代码解释:unload_sheet () 方法表示取消指定工作表导入(加载),其中参数可以为索引或工作表名称,代码中传递为 s1,表示取消第一个工作表导入(加载),代码中共做了两次输出,第一次为初始判断第一个工作表是否加载,返回 True,第二次输出时,第一个工作表已经被取消加载,所以输出 False。

2.2 xlrd 操作 Excel 列
xlrd 中在工作表中对 Excel 列进行操作,常用属性,见下表。

属性描述
ncols获取指定工作表中总列数

对应代码中访问,如下所示:
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.ncols)

想要对 Excel 列进行操作,首先需要找到具体的工作表,在上述代码中,通过 sheet_by_index 方法得到第一个工作表(s1),工作表索引从 0 开始,对应工作簿中效果为从左到右排列。得到具体的工作表后,访问 ncols 属性输出 3,即表示在 test.xlsx 文件中第一个工作表(s1)共有 3列数据。

xlrd 中操作 Excel 列的常用方法,见下表。

方法描述
col(colx)返回给定列所有单元格对象组成的列表
col_values(colx[,start_rowx,end_rowx,])返回给定列中单元格的值
col_types(colx[,start_rowx,end_rowx,])返回给定列中单元格类型

下面来具体看下每个方法的使用:
col () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.col(0)) #第一列的值

代码解释:col () 方法返回指定列所有单元格对象组成的列表,代码中传递 0,表示获取索引为 0 的列,由于索引从 0 开始,即表示获取的是第 1 列的所有单元格对象。传递1,则是第二列,以此类推

col_values () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.col_values(0))

代码解释:col_values () 方法返回指定列所有单元格的值,代码中传递 0,即表示获取的是第 1 列的所有单元格的值,以列表的形式返回。

col_types () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.col_types(1)) #第二列中单元格类型 返回值0:空 1:字符串 2:数字

代码解释:col_types () 方法返回指定列所有单元格的类型,代码中传递 1,由于索引从 0 开始,即表示获取的是第 2 列的所有单元格的类型。返回结果中,0 表示空,1 表示字符串,2 表示数字。

2.3 xlrd 操作 Excel 行
xlrd 中在工作表中对 Excel 行进行操作,常用属性,见下表。

属性描述
nrows获取指定工作表中总行数

对应代码中访问,如下所示:

import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.nrows) #总行数

在上述代码中,通过 sheet_by_index 方法得到第一个工作表(s1),访问 nrows 属性输出 3,即表示在 test.xlsx 文件中第一个工作表(s1)共有 3 行数据。

xlrd 中操作 Excel 行的常用方法,见下表。

方法描述
row(rowx)返回给定行所有单元格对象
row_values(rowx[,start_colx,end_colx,])返回给定行中单元格的值
row_types(rowx[,start_colx,end_colx,])返回给定行中单元格类型

下面来具体看下每个方法的使用:
row () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.row(0)) #第一行

代码解释:row () 方法返回指定行所有单元格对象组成的列表,代码中传递 0,表示获取索引为 0 的行,由于索引从 0 开始,即表示获取的是第 1行的所有单元格对象。

row_values () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.row_values(1)) #第二行

代码解释:row_values () 方法返回指定行所有单元格的值,代码中传递 1,即表示获取的是第 2 行的所有单元格的值,以列表的形式返回。

row_types () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.row_types(1)) #第二行的值的类型

代码解释:row_types () 方法返回指定行所有单元格的类型,代码中传递 1,表示获取索引为 1 的行,由于索引从 0 开始,即表示获取的是第 2 行的所有单元格的类型。返回结果中,0 表示空,1表示字符串,2 表示数字。

2.4 xlrd 操作 Excel 单元格
单元格即表格中行与列的交叉部分,具体的内容也是写在单元格中,在获取单元格内容时需要通过行和列进行定位。常用操作单元格方法,见下表。

方法描述
cell(rowx,colx)返回指定行和列中单元格对象
cell_value(rowx,colx)返回指定行和列中单元格的值
cell_type(rowx,colx)返回指定行和列中单元格的类型

下面来具体看下每个方法的使用:
cell () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.cell(0,1)) #索引0行1列=表中 第1行2列

代码解释:cell () 方法根据指定的行索引和列索引,返回指定单元格对象。代码中传递 1,2,表示获取行所以为 1,列索引为 2 的单元格对象,即第 2 行第 3 列的单元格对象。

cell_value () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.cell_value(0,1)) #索引0行1列=表中 第1行2列

代码解释:cell_value () 方法返回指定行索引和列索引符合条件的单元格的值。代码中传递 0,1,即第 1 行第 2 列的单元格的值。

cell_type () 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.cell_type(1,2)) #索引1行2列=表中 第2行3列

代码解释:cell_type () 方法返回指定行索引和列索引符合条件的单元格类型。代码中传递 1,2,即第 2 行第 3 列的单元格类型,输出结果 1 表示为字符串类型。返回结果中,0 表示空,1表示字符串,2 表示数字。

除了上述方法可以获取到单元格中内容之外,也可以在获取到单元格对象后,通过单元格对象属性对单元格的值、类型进行获取,见下表。

属性描述
ctype获取单元格数据类型
value获取单元格中的值

下面来具体看下每个属性的使用:
ctype 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.cell(1,2).ctype) #索引1行2列=表中 第2行3列

代码解释:获取到单元格对象后,通过 ctype 属性来获取单元格数据类型。代码中通过 cell (1,2) 表示获取到了行索引为 1,列索引为 2 的单元格对象,通过 ctype 属性获取单元格类型,输出 1 表示为字符串类型。返回结果中,0 表示空,1表示字符串,2 表示数字。

value 方法
import xlrd
filename=r’D:\lx\test.xlsx’
data=xlrd.open_workbook(filename)
sheet1=data.sheet_by_index(0)
print(sheet1.cell(1,2).value) #索引1行2列=表中 第2行3列

代码解释:获取到单元格对象后,通过 value 属性来获取单元格的值。代码中通过 cell (1,2) 表示获取到了行索引为 1,列索引为 2 的单元格对象,通过 value 属性获取单元格的值。

3. 小结

本章节我们主要学习了 xlrd 模块的使用。重点如下:
回顾 Excel 中各名词概念;
了解 xlrd 模块作用及使用步骤;
掌握 xlrd 模块操作 Excel 工作表(sheet)、行、列、单元格的常用属性和方法。

具体方法和解释

方法注释
Sheet1 = data.sheet_by_index(0)#通过索引顺序获取sheet表
Sheet1 = data.sheet_by_name(u‘sheet1’)#通过名称获取sheet表
Sheet1 = data.sheets()[0]#通过索引顺序获取sheet表
num =data.nsheets#返回sheet的数目
list = data.sheets()#返回所有sheet对象的列表
list = data.sheet_names()#返回所有sheet对象名字的列表
name = sheet1.name#返回sheet1的名称
nrows =sheet1.nrows#返回sheet1的行数
ncols = sheet1.ncols#返回sheet1的列数
sheet1.cell_type(x,y)#返回cell的对象类型
sheet1.cell(x,y).ctype#返回cell的对象类型
sheet1.cell_value(x,y)#返回cell的值
sheet1.cell(x,y).value#返回cell的值
sheet1.row(x)#获取指定行,返回cell对象的列表
sheet1.row_values(x)#获取指定行,返回列表
sheet1.col(x)#获取指定列,返回cell对象的列表
sheet1.col_values(x)#获取指定列,返回列表