使用antlr解析|分開的文件

所以我認爲這應該很容易，但我有一個艱難的時間。我試圖解析一個|分隔文件以及任何不以|開頭的行是一條評論。我想我不明白評論如何工作。它總是在註釋行上出錯。這是一個傳統文件，所以沒有改變它。這是我的語法。使用antlr解析|分開的文件

grammar Route; 

@header { 
package org.benheath.codegeneration; 
} 

@lexer::header { 
package org.benheath.codegeneration; 
} 

file: line+; 
line: route+ '\n'; 
route: ('|' elt) {System.out.println("element: [" + $elt.text + "]");} ; 
elt: (ELEMENT)*; 

COMMENT: ~'|' .* '\n' ; 
ELEMENT: ('a'..'z'|'A'..'Z'|'0'..'9'|'*'|'_'|'@'|'#') ; 
WS: (' '|'\t') {$channel=HIDDEN;} ; // ignore whitespace

數據：

! a comment 
Another comment 
| a | abc | b | def | ...

來源

2010-01-26 Ben

歡迎來到SO！小提示：您應該用4個空格縮進代碼，這會導致該站點解析並顯示爲代碼，這可以通過突出顯示塊並按頂部的「代碼」按鈕或點擊Ctrl + K來完成。 – RCIX 2010-01-26 22:49:35

謝謝，這是我第一次發佈Stack Overflow，感謝熱烈的歡迎。 – Ben 2010-01-26 23:06:19

這是一個不錯的主意，使用ANTLR進行這樣的工作，但我不認爲這是矯枉過正。例如，這將是很容易的（僞代碼）：

for each line in file: 
if line begins with '|': 
    fields = /|\s*([a-z]+)\s*/g

編輯：嗯，你無法表達意見和線詞法之間的區別，因爲沒有什麼詞彙區分它們。提示讓你朝着一個可行的方向發展。

line: comment | fields; 
comment: NONBAR+ (BAR|NONBAR+) '\n'; 
fields = (BAR NONBAR)+;

來源

2010-01-26 22:56:48

好吧，我同意，但我試圖選擇一個容易的事情與antlr做開始。 – Ben 2010-01-26 23:04:48

這似乎工作，我發誓我試過了。將註釋更改爲小寫將其轉換爲解析器與詞法分析器，但我仍然不明白。

grammar Route; 

@header { 
    package org.benheath.codegeneration; 
} 

@lexer::header { 
    package org.benheath.codegeneration; 
} 

file: (line|comment)+; 
line: route+ '\n'; 
route: ('|' elt) {System.out.println("element: [" + $elt.text + "]");} ; 
elt: (ELEMENT)*; 

comment : ~'|' .* '\n'; 

ELEMENT: ('a'..'z'|'A'..'Z'|'0'..'9'|'*'|'_'|'@'|'#') ; 
WS: (' '|'\t') {$channel=HIDDEN;} ; // ignore whitespace

來源

2010-01-27 01:29:10 Ben

看到我的答案。 * lexing *（將文本轉換爲令牌）和* parsing *（理解令牌）之間的區別。 – 2010-01-27 01:58:25

，一種在語法應該是這樣的：

parse 
    : line* EOF 
    ; 

line 
    : (comment | values) (NL | EOF) 
    ; 

comment 
    : ELEMENT+ 
    ; 

values 
    : PIPE (ELEMENT PIPE)+ 
    ; 

PIPE 
    : '|'  
    ; 

ELEMENT 
    : ('a'..'z')+ 
    ; 

NL 
    : '\r'? '\n' | '\r' 
    ; 

WS 
    : (' '|'\t') {$channel=HIDDEN;} 
    ;

，並測試它，你只需要撒一些代碼在你的語法是這樣的：

grammar Route; 

@members { 
    List<List<String>> values = new ArrayList<List<String>>(); 
} 

parse 
    : line* EOF 
    ; 

line 
    : (comment | v=values {values.add($v.line);}) (NL | EOF) 
    ; 

comment 
    : ELEMENT+ 
    ; 

values returns [List<String> line] 
@init {line = new ArrayList<String>();} 
    : PIPE (e=ELEMENT {line.add($e.text);} PIPE)* 
    ; 

PIPE 
    : '|'  
    ; 

ELEMENT 
    : ('a'..'z')+ 
    ; 

NL 
    : '\r'? '\n' | '\r' 
    ; 

WS 
    : (' '|'\t') {$channel=HIDDEN;} 
    ;

現在通過調用生成詞法分析器/解析器：

java -cp antlr-3.2.jar org.antlr.Tool Route.g

創建一個類RouteTest.java：

import org.antlr.runtime.*; 
import java.util.List; 

public class RouteTest { 
    public static void main(String[] args) throws Exception { 
    String data = 
     "a comment\n"+ 
     "| xxxxx | y |  zzz |\n"+ 
     "another comment\n"+ 
     "| a | abc | b | def |"; 
    ANTLRStringStream in = new ANTLRStringStream(data); 
    RouteLexer lexer = new RouteLexer(in); 
    CommonTokenStream tokens = new CommonTokenStream(lexer); 
    RouteParser parser = new RouteParser(tokens); 
    parser.parse(); 
    for(List<String> line : parser.values) { 
     System.out.println(line); 
    } 
    } 
}

編譯所有源文件：

javac -cp antlr-3.2.jar *.java

和運行類RouteTest：

// Windows 
java -cp .;antlr-3.2.jar RouteTest 

// *nix/MacOS 
java -cp .:antlr-3.2.jar RouteTest

如果一切順利的話，你看這打印到控制檯：

[xxxxx, y, zzz] 
[a, abc, b, def]

編輯：請注意，我通過只允許小寫字母來簡化它，您可以隨時擴展套餐。

來源

2010-01-27 11:36:47

使用antlr解析|分開的文件

回答

相關問題