m解析文本文件

我有一組以下形式的單詞。 (journalistic (((journalism:stem)ist:suffix)ic:suffix)）。我試圖解析爲以下形式m解析文本文件

root- journalistic 
    stem suffix suffix 
    stem - journalism 
    suffix -ic 
    suffix -ic

的代碼，我使用從itertools導入takewhile

is_tab = '\('.__eq__ 

def build_tree(lines): 
    lines = iter(lines) 
    stack = [] 
    for line in lines: 
     indent = len(list(takewhile(is_tab, line))) 
     stack[indent:] = [line.lstrip()] 
     print (stack) 

source = ''' 
(journalistic (((journalism:stem)ist:suffix)ic:suffix))''' 

build_tree(source.split('\n'))

它產生的輸出：

[''] 
['(journalistic (((journalism:stem)ist:suffix)ic:suffix))']

的代碼沒有細分單詞序列。任何代碼修復？

來源

2016-03-18 Karun

您的代碼不足以解析字符串下面的表格。 –

我知道你正在尋找蟒蛇幫助，但你也可以寫一個簡單的Perl腳本，得到的輸出。

#!/usr/bin/perl -w 

use strict; 
while(my $ln = <DATA>) { 
    chomp $ln; 
    my($root, $rest) = $ln =~ m/\((.*?)\s+(.*)\)$/; 
    print "Root - $root\n"; 
    if($rest) { 
    my @pairs = $rest =~ m/(\w+\:\w+)/g; 
    my @v; 
    my @a; 
    map {my ($k, $v) = split(/\:/, $_); push @v, $v; push @a, [$k, $v]} @pairs; 
    print "@v\n"; 
    map {print "$$_[1] - $$_[0]\n"} @a; 
    } 
    print "=====\n"; 
} 

__DATA__ 
(journalistic (((journalism:stem)ist:suffix)ic:suffix))

輸出：

Root - journalistic 
stem suffix suffix 
stem - journalism 
suffix - ist 
suffix - ic 
=====

來源

2016-03-18 15:17:43 Jeesmon

pyparsing包括函數nestedExpr簡化嵌套列表中的元素解析：

source = ''' 
(journalistic (((journalism:stem)ist:suffix)ic:suffix))''' 

from pyparsing import nestedExpr 

print nestedExpr().parseString(source)[0].asList()

打印：

['journalistic', [[['journalism:stem'], 'ist:suffix'], 'ic:suffix']]

編輯

你可以看到嵌套列表的內容使用以下代碼：

個

parsed = nestedExpr().parseString(source)[0].asList() 
print (parsed[0]) # this looks like it would be the root 
print (parsed[1]) # will have to walk this recursively to extract the other bits 
print (parsed[1][0]) 

# how to walk the nested list recursively... 
def dump_tree(t, indent=''): 
    for s in t: 
     if isinstance(s, list): 
      dump_tree(s, indent + ' ') 
     else: 
      print (indent + '- ' + s) 
dump_tree(parsed)

打印：

journalistic 
[[['journalism:stem'], 'ist:suffix'], 'ic:suffix'] 
[['journalism:stem'], 'ist:suffix'] 
- journalistic 
     - journalism:stem 
    - ist:suffix 
    - ic:suffix

來源

2016-03-18 13:32:01 PaulMcG

它沒有解析樹。它只是改變了支架 – Karun

再看一遍。 'asList（）'返回的值不僅僅是一個字符串，其中'（）'改爲'[]'。它實際上是一個字符串和列表的嵌套列表。 – PaulMcG

如何返回以下形式的東西？ oot-新聞- 詞尾後綴詞幹 - 新聞後綴-ic 後綴-ic – Karun

m解析文本文件

回答

相關問題