首页 > 解决方案 > 是否有关于如何使用 Antlr 4 解析 SQL 语句的规范示例?

问题描述

我正在尝试使用 Antlr4 为 SQL 语句构建解析器。我并不关心我使用哪种特定的 SQL 语法,因为我计划强制只允许使用 ANSI SQL,但在下面的示例中,我碰巧使用了 T-SQL 的语法。这是我的简单代码:

String sql = "SELECT ROW_NUMBER() OVER (ORDER BY id) FROM some_table";
TSqlLexer tSqlLexer = new TSqlLexer(CharStreams.fromString(sql));
CommonTokenStream stream = new CommonTokenStream(tSqlLexer);
TSqlParser parser = new TSqlParser(stream);
ParseTree tree = parser.tsql_file();  // errors happen here
ParseTreeWalker walker = new ParseTreeWalker();
// I built a custom listener, so far not much in it
AnalyticFunctionBaseListener listener = new AnalyticFunctionBaseListener();
walker.walk(listener, tree);

该代码仅tsql_file()在生成以下错误/警告之前调用到:

line 1:35 token recognition error at: 'i'
line 1:36 token recognition error at: 'd'
line 1:44 token recognition error at: 's'
line 1:45 token recognition error at: 'o'
line 1:46 token recognition error at: 'm'
line 1:47 token recognition error at: 'e'
line 1:49 token recognition error at: 't'
line 1:50 token recognition error at: 'a'
line 1:51 token recognition error at: 'b'
line 1:52 token recognition error at: 'l'
line 1:53 token recognition error at: 'e'
line 1:37 no viable alternative at input 'SELECTROW_NUMBER()OVER(ORDERBY)'

显然我在这里缺少一些重要的东西,但我不知道那是什么。我使用ANTLR GitHub 站点上发布的 TSQL 语法构建。

任何 Antlr 大师都可以修改上述代码片段以使其正常工作吗?我希望有人能给出一个如何使用 Antlr 解析基本 SQL 语句的规范示例。

标签: javasqlsql-serverantlr4

解决方案


请注意README中的以下注释:

用法,重要说明

由于 SQL 语法通常不区分大小写,但此语法实现是,您必须使用自定义字符流将所有字符转换为大写,然后再将它们发送到词法分析器。

您可以在此处找到有关各种目标语言实现的更多信息。

简而言之,更改您的代码:

String sql = "SELECT ROW_NUMBER() OVER (ORDER BY id) FROM some_table";
TSqlLexer tSqlLexer = new TSqlLexer(CharStreams.fromString(sql));

至:

String sql = "SELECT ROW_NUMBER() OVER (ORDER BY id) FROM some_table";
CharStream s = CharStreams.fromString(sql);
TSqlLexer tSqlLexer = new TSqlLexer(new CaseChangingCharStream(s, true));

在这里找到来源CaseChangingCharStreamhttps ://github.com/antlr/antlr4/blob/master/doc/resources/CaseChangingCharStream.java

编辑

在评论中,迈克建议:

或者,您可以使用MySQL 语法,它支持不区分大小写的关键字而无需额外的流

这可能是一个更好的选择。我并不是说 T-SQL 语法不好/不准确,但 Mike 建议的语法来自官方 MySQL 存储库(并且 Mike 对此做出了贡献)这一事实会让我对它的质量充满信心。


推荐阅读