2016-06-23 26 views
0

我有一批具有以下元數據屬性的PDF文檔: 語言:set([NL,DE,FR,EN])遍歷一個格式錯誤的設定與Python

我想重複這些值,但它輸出的每個字符,如:

s 
e 
t 
(
[ 
... 
E 
N 
, 
] 
) 

我的猜測是該集合缺少引號。 set(["NL","FR","DE","EN"])

有沒有辦法讓我仍然可以迭代值?如果是這樣,我可以重寫該屬性。

+0

即使'set'了引號,你仍然有安全評估字符串的問題。這裏有什麼限制嗎?例如是可能的令牌集合嗎?他們都只有2個字符寬?等等。 – mgilson

+0

他們都是兩個字符和大寫字母。 – user3097526

回答

1
for lang in re.findall("[A-Z]{2}",metadata_text): 
    print lang 

我想也許?

或者

for lang in metadata_text[5:-2].split(","): 
    print lang