java - JFlex 限制单行注释正则表达式
问题描述
我正在为一种组合语言构建一个词法分析器,但我在定义单行注释正则表达式时遇到了问题。
问题是评论的允许字符受到限制。只允许使用一些字符,它们包括:空格、数字、字母和一些符号(比如*
、/
、+
、-
)。单行注释以 开头(如在 C 和 Java 中)//
,其定义(除了受限制的字符)与 C 和 Java 中的相同。
起初我尝试了以下正则表达式:
"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* (\r|\n|\r\n)
这有望捕获单行注释,但不幸的是,这没有捕获文件末尾的单行注释,因为它末尾没有行终止符。
我试图将其更改为:
"//" ([a-zA-Z0-9] | [*] | [/] | [+] | [-] | [ \t\f])* ((\r|\n|\r\n) | [^.])
希望,[^.]
会发现评论后不允许使用任何字符(以某种方式模拟EOF
?)但这没有用,并且正则表达式正在捕获所有内容,直到一个被禁止的字符,例如:// comment = 1
被翻译为single line comment
,=
, 1
.
我不能使用 JFlex,<<EOF>>
因为它不能成为正则表达式的一部分。
这个问题有没有好的正则表达式解决方案?(假设我不能修改输入)。
谢谢!
解决方案
从这里的 jflex 手册:http:
//jflex.de/manual.html#Example
TraditionalComment = "/*" [^*] ~"*/" | "/*" "*"+ "/"
// Comment can be the last line of the file, without line terminator.
EndOfLineComment = "//" {InputCharacter}* {LineTerminator}?
DocumentationComment = "/**" {CommentContent} "*"+ "/"
CommentContent = ( [^*] | \*+ [^/*] )*
另请注意,您可以使用 %eofval 来使用特定的 eof 值,我在上面发布的手册中也对此进行了讨论。
我意识到您是专门要求使用正则表达式解决方案,但也可能有更好的方法通过使用您的词法状态来简化此问题 - 您可以让符号“//”表示评论状态的入口;一旦处于该状态,您可以获取所有字母数字字符,直到您到达单行的行尾终止符,返回 tag.comment 标记,然后转换回 yyinitial 状态并继续进行词法分析。
例如,包括我上面讨论的所有内容:
%%
%state COMMENT
%%
%eofval{
return getToken(tag.EOF, null);
%eofval}
comment = "//"
eol = "\r\n\"
characters = [a-zA-Z0-9] | [*] | [/] | [+] | [-]
%%
<YYINITIAL> {comment}{
yybegin(COMMENT);
return getToken(tag.Comment, yytext());
}
<COMMENT> {characters}{eol}{
yybegin(YYINITIAL);
}
**免责声明,这作为词法分析器是不完整的,并且是在我的脑海中完成的。这更多是为了演示我上面讨论的示例
推荐阅读
- python - 测量多行的协方差
- javascript - ProtractorJS Specs Not Run,浏览器获取数据;只要
- java - JRE 如何为具有非有效最终局部变量的 lambda 主体创建并发问题?
- r - 使用 ggplot2 的 5 维堆叠条形图
- java - Android:如何使用 **Volley** 在导航视图中隐藏登录和注册选项并启用注销选项
- java - Java中的字符串列表
- python - Python S2 库中的多边形支持
- java - Eclipse 大小的 Maven 插件
- asp.net-mvc - ASP.NET MVC - 自定义身份验证不起作用
- variables - TFS/VSTS,在一个变量中引用一个变量