對於大多數的新聞報道,第一個句子總是先從位置由連字符或逗號如下,得到實際的語句,如Python的新聞文章分爲第一句和重新使用
吉隆坡:朝鮮週一馬來西亞鎖定對 調查,導致金正恩兄弟被殺害,因爲 錄像片段在他在吉隆坡 機場受到致命襲擊時出現。
波特蘭 - 於 許可FairPoint通信公司要求監管機構停在Scarborough,戈勒姆,沃特維爾,肯納邦克和Cape 伊麗莎白監管座機 服務註冊新客戶。
我試圖用重新到後半段是主句,如單獨拿出作爲
朝鮮和馬來西亞在週一鎖定在 調查牛角爲領導人金正日殺害Jong-Un的兄弟,當他在Kuala 機場遭到致命襲擊時,出現了 影像。
我用下面的regrex將它們分開:
sep = re.split('-|:|--', sent)
但是,這並不爲一切工作,第二句話的結果是:
['緬因州波特蘭\ xe2 \ x80 \ x94 FairPoint Communications已要求 監管機構允許其停止在Scarborough,Gorham,Waterville註冊 受監管的新客戶 Kennebunk and Cape伊麗莎白。']
與unicode有什麼關係?或者我需要在重新編碼中傳遞不同格式的連字符?
有沒有一種更好的方法來做到這一點?
謝謝。
的分隔符是' '-'',你爲什麼各執'' - 」 '? – DyZ
如果可能,你應該開始使用Python 3..6 – wwii
@DYZ對不起,我沒有把它說得很清楚,因爲在一些語句中,它們使用''' – Sean