2016-09-29 82 views
-1

有沒有人有任何建議去除文本分割引號的分隔符?我正在使用Python,並且仍然是初學者。拆分引號

例如,「嗯,」他說,他說,「我想我可以休息一下。」他說,。在這個例子中,斜體的「他說」是分隔符,需要刪除。然後,引號需要被看作是引用中的一個字符串,例如「嗯,我想我可以休息一下。」我還沒有能夠找到類似的代碼,並希望有人能夠指出我的方向。

謝謝!

+0

你可以串取代'他說',不是嗎? –

+0

看起來像一個很基本的正則表達式 – njzk2

+1

不清楚輸入數據是什麼(一段文本,一整本書,一個句子列表,文本行列表?),也不應該做什麼。它可以包括刪除第二個和第三個報價之間的所有內容,以及完整的[NLP](https://en.wikipedia.org/wiki/Natural_language_processing)。 – zvone

回答

2

爲了獲取內容僅在"您定字符串中,你可以使用re庫爲:

import re 
my_string = '"Well," he said, "I suppose I could take a break."' 
quoted_string = re.findall(r'\".*?\"', my_string) 
# 'quoted_string' is -> ['"Well,"', '"I suppose I could take a break."'] 
new_string = ''.join(quoted_string).replace('"', '') 
# 'new_string' is -> 'Well, I suppose I could take a break.' 

你可以寫相同的一行代碼爲:

''.join(re.findall(r'\".*?\"', my_string)).replace('"', '')