我是一個新手,我寫了一個tokenize函數,它基本上接受一個由句子組成的txt文件,並根據空格和標點拆分它們。這裏的東西是它給了我一個父列表中的子列表的輸出。分割python列表
我的代碼:
def tokenize(document)
file = open("document.txt")
text = file.read()
hey = text.lower()
words = re.split(r'\s\s+', hey)
print [re.findall(r'\w+', b) for b in words]
我的輸出:
[['what', 's', 'did', 'the', 'little', 'boy', 'tell', 'the', 'game', 'eggs', 'warden'], ['his', 'dad', 'was', 'warden', 'in', 'the', 'kitchen', 'poaching', 'eggs']]
所需的輸出:
['what', 's', 'did', 'the', 'little', 'boy', 'tell', 'the', 'game', 'eggs', 'warden']['his', 'dad', 'was', 'warden', 'in', 'the', 'kitchen', 'poaching', 'eggs']
如何刪除父列表中的出我的輸出?我需要在代碼中進行哪些更改才能刪除外部列表括號?
爲什麼要取出外支架?你有一個列表子列表。 – 2015-01-21 06:51:39
我不希望子列表實際出現在我的輸出中。 – Wolf 2015-01-21 06:53:06
然後你會得到一個元組(用'()')。你是否試圖以特定的方式打印出來? – 2015-01-21 06:53:35