一文解读 SQL 生成工具

 更新时间:2026年02月15日 14:38:56   作者:KaiwuDB  
SQL生成工具用于测试数据库产品的兼容性,通过解析YACC语法文件生成SQL语句,并执行以判断与其他数据库语法的兼容性,工具首先使用预处理脚本去除语法文件中的非必要内容,保留产生式,然后,根据参数使用工具生成SQL语句,

SQL 生成工具可用于测试 Parser 与其他数据库产品的兼容性,通过解析 YACC 语法文件中的产生式,生成对应的 SQL 语句,再使用数据库执行该 SQL,根据结果判断语句是否与其他数据库语法兼容。

01 工具使用

语法文件预处理

预处理目的是将语法文件中无关的内容去除,只保留各个语句的产生式,可以通过命令 bison -v sql.y 获取语法文件中的语法规则(不带 Action),然后再去除生成文件中的无用部分,如终结符列表、非终结符列表、状态转换表等,如下所示:

生成的 sql.output 文件内容如下,我们仅保留其“语法”一节

注:对于保留的“语法” 一节,还需要去除其序号。

对于上述过程,我们通过预处理脚本 preprocess.sh 进行封装,使处理后的文件满足工具的要求。生成的文件形式如下,输出的 .output 文件即为预处理后的语法文件。

SQL 语句生成

生成符合条件的语法文件后,即可使用工具生成 SQL。工具支持如下参数:

•-b:指定语法文件,必选。语法文件为 preprocess.sh 脚本处理后的产生的文件

•-n:指定待生成的产生式名称,必选

•-R:随机生成模式,可选,默认为枚举模式

•-o:指定生成 SQL 语句的保存文件,可选,默认为 report.csv

•-N:限制生成 SQL 条数,可选,默认不限制

02 工具实现

该工具包含两个 package:yacc_parser和sql_generator,分别负责完成 Token 解析和 SQL 生成。

产生式的表示方法

type SeqInfo struct {
    Items []string
}
type Production struct {
    Head  string    // 产生式头部
    Alter []SeqInfo     // 产生式 body
}

Token 解析

函数 Tokenize 用于将读取的语法文件中的字符 Token 化,每次调用将返回一个 Token。该函数仅处理了简单的分隔符和引号,并未实现标准词法分析器的正则匹配。

Parse 函数调用 Tokenize 函数,每次返回一个 Token,返回后 Parse 函数根据当前状态和 Token 类型,将一连串的 Token 组装成 Production。

SQL 生成

SQL 生成有两种模式:

1、是遍历 Production 中指定产生式的 body 列表,枚举生成 SQL 语句;

2、随机选择 Production 中指定产生式的 body 列表,随机生成 SQL 语句。

1、枚举

枚举的实现方式是使用一个链表保存待 resolve 的Token,每次从链表头取一个 Token,并自增该 Token出现的次数,再根据其每个子表达式中 Token 在记录中出现次数是否大于指定次数,筛选可以继续推导的子表达式。

另一方面使用了两个数组记录当前所取的子表达式的下标(choice)和当前最大子表达式下标(max)进行记录,以便下一次自增 choice 取下一个表达式。

经过筛选后,选取 choice 位置的产生式右部子表达式并将其全部 Token 插入链表头部,然后判断头部是否为 literal 或 keyword,如果是则取出头部放入 SQL 数组,如果不是则继续循环处理链表。

当处理到当前产生式末尾时(判断方式为 choice>max),此时将尝试“进位”,即记录的当前所取的位置数组最后一位自增。

比如:max 数组为 1 2 1 3,choice 数组为 0 0 0 3,则进位后 choice 数组为 0 0 1 0,表示最后一个位置已全部遍历,现在要将倒数第二位自增,最后一位置零,继续下一次排列组合的读取。

生成过程则是通过递归实现,例如针对以下这条产生式,处理逻辑如图所示:

show_tables_stmt: SHOW TABLES FROM name '.' name with_comment
                * SHOW TABLES FROM name with_comment
                * SHOW TABLES with_comment

with_comment: WITH COMMENT
            * %empty

name: IDENT

根据记录的 choice 值,选择产生式的第 choice 条子表达式,直到生成一条 SQL。然后再将choice数组进位,继续下一轮选择。

2、随机

随机生成模式与枚举生成模式类似,区别在于其并不会顺序遍历产生式 body 列表中每个 Token,而是随机选择一个 Token 作为组成 SQL 的一部分。

到此这篇关于一文解读 SQL 生成工具的文章就介绍到这了,更多相关SQL 生成工具内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • DBeaver复制数据库图文教程(数据库表结构以及内容)

    DBeaver复制数据库图文教程(数据库表结构以及内容)

    DBeaver提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,下面这篇文章主要给大家介绍了关于DBeaver复制数据库(数据库表结构以及内容)的相关资料,需要的朋友可以参考下
    2024-01-01
  • Navicat Premium自定义 sql 标签的创建方式

    Navicat Premium自定义 sql 标签的创建方式

    Navicat 中可以自定义一下sql语句的标签,方便开发者使用,这篇文章主要介绍了Navicat Premium自定义sql标签的创建方式,包括自定义标签创建方式,结合示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • SQL 随机查询 包括(sqlserver,mysql,access等)

    SQL 随机查询 包括(sqlserver,mysql,access等)

    SQL 随机查询 包括(sqlserver,mysql,access等),需要的朋友可以参考下,目的一般是为了随机读取数据库中的记录。
    2009-10-10
  • 一条慢SQL导致购物车服务无法使用的解决方案

    一条慢SQL导致购物车服务无法使用的解决方案

    今天小编就为大家分享一篇关于一条慢SQL导致购物车服务无法使用的解决方案,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • 达梦数据库如何设置自增主键的方法及注意事项

    达梦数据库如何设置自增主键的方法及注意事项

    这篇文章主要介绍了达梦数据库如何设置自增主键的方法及注意事项的相关资料,在达梦数据库中实现自增字段通常需要使用序列(sequence)和触发器(trigger),需要的朋友可以参考下
    2024-09-09
  • 数据库基本概念面试必问

    数据库基本概念面试必问

    这篇文章主要介绍了数据库基本概念面试必问的相关资料,需要的朋友可以参考下
    2016-03-03
  • Navicat12.1系列破解激活教程亲测有效

    Navicat12.1系列破解激活教程亲测有效

    这篇文章主要介绍了 Navicat12.1系列破解激活教程亲测有效,本文给大家介绍的非常详细,对大家的学习或工作工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • 关于hive中SQL的执行原理解析

    关于hive中SQL的执行原理解析

    这篇文章主要介绍了关于hive中SQL的执行原理解析,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,需要的朋友可以参考下
    2023-07-07
  • hive数据仓库新增字段方法

    hive数据仓库新增字段方法

    这篇文章主要为大家介绍了hive中新增字段的方法示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Navicat最新版安装详细教程(超简单)

    Navicat最新版安装详细教程(超简单)

    Navicat最新版增加Redis连接功能,支持多种数据库管理,安装步骤包括下载、解压、复制dll文件和启动软件,感兴趣的朋友跟随小编一起看看吧
    2024-11-11

最新评论