我正在尋找Python的nltk,但它拆分(標記)won't
爲['wo',"n't"]
。有沒有更強大的庫?是否有將句子拆分爲單詞列表的庫?
我知道我可以建立某種類型的正則表達式來解決這個問題,但是我正在尋找一個庫/工具,因爲它會是一個更直接的方法。例如,在使用句號和逗號的基本正則表達式之後,我意識到像'先生'會打破系統。
(@artsiom)
如果一句 「你會不會?」,分裂()會給我[ 「你」, 「不會?」。所以還有一個'?'我必須處理。 我正在尋找一種久經考驗的方法,它可以消除像上面提到的那樣的扭結問題,還有很多我肯定存在的例外情況。當然,如果我找不到任何東西,我會採取分裂(正則表達式)。
很抱歉,如果我錯過somenthing但爲什麼不text.split()? –
你期望什麼結果? – Simon