专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 前言
  • 概述
  • 结构体定义
    • 结构体别名
    • 结构体指针
    • 结构体嵌套定义
    • 可变长结构体定义
  • 结构体大小
    • 字节大小端
    • 结构体大小
    • 结构体紧凑格式
  • 结构体地址
    • 结构体成员首地址
    • 获取成员地址
  • 结构体赋值
    • 结构体变量赋值
    • 结体体指针成员
  • 结构体类型转换
  • 总结
  • 结尾

前言

经过前面几个专栏,我们了解了数据库作为基础软件,类似于操作系统,几乎涉及到数据的应用都会使用;我们也通过手写数据库内核,开源了一款数据库,名叫toadb,它是一个轻量级的、开源的关系型数据库,它提供了基本的SQL支持和数据存储管理功能。相比于其他成熟的数据库产品,toadb更加简单和易于理解,适合初学者和数据库内核开发人员使用。通过学习和使用toadb,我们可以更好地理解数据库的基本原理,掌握数据库的核心技术,为以后的数据库设计和优化工作打下坚实的基础。

toadb是使用C语言编写,在内核开发过程中,我们发现一些初学者,对于数据库中使用C语言方法和技巧,阅读代码时需要学习。本专栏就特别将这些方法和技巧整理出来,方便初学者系统的了解和学习,以便很快能上手数据库内核的开发,不致于在开发语言层面遇到很多障碍,更多精力在数据库理论的实践。

本专栏建议为学习过C语言基础知识的读者,可以进一步深入学习,更贴进实际项目的开发应用。

概述

本文主要分享一下,C语言中最常用的数据结构常用的使用方法和技巧。C语言为了定义复杂的数据类型,引入了数据结构 struct,可以通过对基础数据类型的组合,自定义符合现实的组合类型。因为是对于多个基础数据类型的组合,所以引出了很多问题,如数据结构的大小如何计算,成员的地址是多少,字节大小端带来的影响如何消除等等。

通过以下四部分来系统的了解结构的知识:

  • 结结体定义
  • 结构体地址
  • 结构体大小
  • 结构体赋值
  • 结构体类型转换

结构体定义

如何定义出一个符合我们代码要求的结构体类型,同时在使用中可以简单明了,下面我们一起来看一下实际中如何定义。

结构体别名

在C语言中结构体的定义很简单,如下:

#define NAME_MAX_LEN64struct ColumnDefInfo{char colName[NAME_MAX_LEN];int type;int options;};

这样就定义了一个名为ColumnDefInfo的结构定,当我们定义该类型的变量时,会如下使用

struct ColumnDefInfo stColumn; 

每次都要多写struct这个单词,当写上几十上百遍时,是不是也很烦的;这就用到C语言的一个特性,给这个结构体定义一个别名,平常使用别名就可以

typedef struct ColumnDefInfo{char colName[NAME_MAX_LEN];int type;int options;}ColumnDefInfo; ColumnDefInfo stColumn;// 定义变量 

在定义结构体struct ColumnDefInfo的同时定义别名为ColumnDefInfo,这样在定义变量或引用结构体类型的地方,就可以直接使用别名即可,是不是看这简洁很多,当然为了区分结构体类型,可以加上st等前缀,统一命名。

结构体指针

C语言的实际使用中,避免不了指针类型,结构体类型的指针也是我们常用的,当函数参数需要传递结构体时,需要动态分配空间时等等,普通写法如下:

ColumnDefInfo *pstColumn = NULL; // 定义变量 

每次都会像普通类型定义指针一样,当然也没有错,因为结构体名已经是复杂类型了,如何通过类型就能区分是值还是指针类型呢? 高手一般会如下定义。

typedef struct ColumnDefInfo *PColumnDefInfo;

或者在结构体定义时,同时定义好对应的指针类型。

typedef struct ColumnDefInfo{char colName[NAME_MAX_LEN];int type;int options;}ColumnDefInfo, *PColumnDefInfo;PColumnDefInfo pstColumn = NULL;// 定义变量 

这时定义结构体指针,直接使用对应的指针类型PColumnDefInfo,这样是不是又可以简洁一些,在函数入参中,看到这样的结构体名,我们立马就可以知道它是指针类型了。

结构体嵌套定义

结构体可以定义出来很复杂的类型,但是现实世界更复杂,很多事务都有层次关系,这就必须用到嵌套的结构体定义。

比如表是有行数据组成,那么表的结构体定义中,嵌套有行的结构体定义,如下:

#define FLEXIBLE_SIZE 10typedef struct TableMetaInfo{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];}TableMetaInfo, *PTableMetaInfo;

这次在定义时,就直接使用了上面介绍的技巧,别名,指针类型定义。我们定义了一个表的结构体TableMetaInfo,表有名字,ID等,还有行数量,以及行的数据结构定义,因为行的数量不确定,所以这里定义是一个数组。

对于嵌套结构体,在引用成员时,就有一些麻烦,如果在几层的嵌套,可以写一长串。

PTableMetaInfo stTblInfo;int i; // 其它代码 stTblInfo->colum[i].type = 1;

这里需要注意的是,在嵌套结构体时,要注意内层成员结构体是值类型,还是指针类型,如果是值类型就要用.来引用成员,如果是指针定类的话用->引用成员,在实际使用中,我们可以看到在一条语句中两个混合使用的情况,这就是根据不同的类型进行选择。

可变长结构体定义

每一个表中的数据行,在结构体定义时,我们是不能预知的,它可以有一行,也可以有一万行,那如何定义这个数据结构呢,这就是可变长结构体定义;可变长的数据结构定义中,有一个成员来记录变长部分的大小,如行的数量colNum,而column是行数据,它的数量在每个表中都是不一样的,由动态决定大小。

使用变长结构体方法来定义,如下

#define FLEXIBLE_SIZE typedef struct TableMetaInfo{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];}TableMetaInfo, *PTableMetaInfo;

其中,行数据数组 column[FLEXIBLE_SIZE] 的维度定义FLEXIBLE_SIZE 并没有给出明确的值,这里相当于可变数组的定义

int array[] = {1,2,3};

此时,TableMetaInfo结构体默认大小中,其实没有包括行的结构定义大小,我们通过程序简单输出它们的size。

printf("table size=%d, column size=%d\n", sizeof(TableMetaInfo), sizeof(ColumnDefInfo));

得到的结果如下

table size=76, column size=72

可以看到TableMetaInfo结构体默认大小只有前四个成员的大小,并不包括行数据结构的大小。那么问题来了,如何定义变量呢?

在定义变量时,我们一般动态申请内存,再通过成员数组来访问。

结构体大小

不管是动态申请内容,还是局部变量的定义,我们都需要知道结构体占多少内存空间,尤其是在多并发之间进行交互时,要尽量减少交互数据量。
下面介绍一下结构体大小,在实际应用中的那些事儿。

字节大小端

在介绍结构体大小时,我们首先要知道计算机存储我们的变量值时,并不是按照从左到右完成从高位到低位的存储,而是不同操作系统规定了自己的一个字节顺序。

在常用的X86 CPU架构中,常用的就是小端存储,即0x1234, 在内存中低位是0x34,高位是0x12,进行了反转。

这在一些结构体转为其它类型时,常常会遇到字节序问题,还有一些网络数据转为结构体数据时,明明看似没有问题,但是成员的值就是不对,这就是不同数据对应的字节序在作怪。

结构体大小

对于结构体这一复杂的自定义类型,计算机对访问内存做了一定的优化,也就是字节对齐。如下结构体,

typedef struct A {char a;int b;double c;}st_A;

这个结构体st_A中只有三个成员,sizeof(st_A)算出来是16字节,符合你的预期吗? 单从代码看,只有13字节,如何多出了3字节呢? 这就是计算机内部优化的结果,成员b的地址被对齐到了四字节上,也就是成员ab的地址相差4,而不是字面上的1字节,这样就多出了3字节。

如果定义了一个结构体类型的唯一标识,而其中成员的类型不同时,将这个标识按字节进行计算hash值时,就会存在问题,因为多出来的3字节,永远不知道它的值到底是什么,那么虽然成员的值都是一样的,但是算出来的hash却有可能不同。

结构体紧凑格式

上面介绍了,计算机会对结构体采用字节对齐的优化,当然这是一种空间换时间的方式。如果我们对于空间比较敏感时,就要放弃这种默认的优化了,这就定义成紧凑格式。

typedef struct __attribute__((packed)) A {char a;int b;double c;}st_A;

这样就告诉编译器,不要在成员间加多余的字节。有多种写法,也可以用 __attribute__((aligned(1)))

结构体地址

C语言中经常使用地址来访问内存,如结构体的指针,也即地址,那么对于结构体类型的变量,它会有几种地址需要我们注意了。

结构体成员首地址

想必大家会有疑问,结构体的首地址,就是结构体指针内容嘛,不是很简单吗?

没错,是的,我们举个例子来说明。

/* 10个table ,平均每个table 中有4行数据 */PTableMetaInfo tbl = (PTableMetaInfo)malloc(sizeof(TableMetaInfo) * 10 + sizeof(ColumnDefInfo) * 40);PTableMetaInfo pstTbl = tbl;

这里用指针pstTbl来遍历数组tbl,那么pstTbl++都会移动sizeof(TableMetaInfo)字节,这样使用是正确的吗?

前面我们介绍了变长结构体,这里的sizeof(TableMetaInfo)中,是不包括最后一个成员的长度的,所以下一个数据结构的首地址不是通过默认的偏移得到的,这里就需要计算了,根据成员colNum来计算需要偏移多少了。

#define GET_NEXT_TABLE(addr) ((addr) + sizeof(TableMetaInfo) + (addr)->colNum * sizeof(ColumnDefInfo))

GET_NEXT_TABLE这个宏定义,就是进行可变长结构体的数组偏移计算,而不是简单的通过默认运算得到。

获取成员地址

结构体成员的地址,可以通过->.引用的方式获得,当然也可以计算获得,比如ColumnDefInfo结构体中,成员type与结构体首地址相差64字节,就可以通过首地址来计算。

通过计算方式获取成员的地址时,尤其在非紧凑格式的定义的结构体时,就需要特别注意结构体成员并不一定是基础类型的字节数,要根据结构体类型字节对齐规则进行计算;对于可变长结构体,不能使用指针的默认+1移动方式,需要自己计算偏移,这在另一篇博客《C语言可变数组 嵌套的可变数组》中有详细介绍。

结构体赋值

结构体的赋值方法不同于基础类型,也有很多方式进行赋值,需要正确的使用。

结构体变量赋值

一般结构体类型的变量,我们都会清零操作,有两种方法进行初始化为零,如下示例:

struct ColumnDefInfo stColumn = {0}; memset(&stColumn, 0x00, sizeof(stColumn));
  • 在定义时,使用初始化方式进行置零,这种方式如果只写一个0,所有内容都会置零,也可以根据成员数量和类型分别写出初始化的值;
  • 使用内存操作方式,初始化为0,这种方式要能正确计算结构体的大小;

结体体指针成员

当结构体中有指针成员时,在结构体拷贝时就会存在深拷贝和浅拷贝的问题。当一处结构体直接赋值给另一个结构体变量时,它们的指针成员指向的地址是一样的,所以释放内存时需要判空,非空时才释放。

当结构体中有可变长成员时,与指针成员一样,赋值时需要特别注意,两个结构体变量内存大小是否可以容纳新值。

结构体类型转换

在数据库中,尤其执行计划,执行器处理等地方,为了方便统一使用相同的函数调用,将不同类型的结构体会强转成统一的类型,如下所示:

typedef struct Node{NodeType type;}Node, *PNode;typedef struct NestLoop{NodeTypetype;PNode leftplan;PNode rightplan;PNode expr; /* join expr */int isJoin;int mergeType;PList targetList; /* result columns */}NestLoop, *PNestLoop;PNestLoop nl = NewNode(NestLoop);PNode node = (PNode)nl;

为了达到可以相互转换,如示例所示,在结构体NestLoop的第一个成员为type, 与结构体Node的成员是一致的,这样由NestLoop强制转换为Node类型时,就只能看到成员type了。

这样类似的其它节点类型,都可以转为结构体Node,然后根据节点类型选择不同的处理调用,进行执行,这样就可以达到统计处理调用的目的。

总结

在我们进行C语言学习时,只是学习了基础的结构体使用,需要在实际使用中不断加深对它的理解,从内存部局,成员地址对齐,拷贝赋值等各方面进行探索,在数据库中,对于C语言结构体的使用方法非常丰富,在学习数据库内核过程,我们对于C语言的驾驭也会精进。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。