2017-09-25 19 views
0

手套上標有'。'被算作一個字。但在美國的情況下。和u.k.它不能分開。如何在python中正確地分割文本以獲得手套?

例如,有句子。

他要我們。

什麼手套要爲[「他」,'S',‘去’,‘到’,‘我們’,「」] 有沒有什麼好的辦法分裂?

+0

您可以迭代數組中的每個值並檢查是否存在'.'。如果它在那裏,根據你的需要刪除它,如將'u.s'轉換爲'us',在那裏從陣列本身移除'.',如果這就是你要找的東西 – Anuj

回答

1

您應該按照訓練中使用的輸入分割的方式拆分輸入。如果您正在使用預先訓練好的矢量,並且不知道它們是如何生成的,您可以訓練自己的矢量或詢問創建者如何標記輸入。

另外,作爲說明,即使最後一個詞是縮寫,句子也不會以雙週期結束。

wrong: He's going to the U.S.. 
right: He's going to the U.S. 

您可以閱讀here的更詳細說明。

另請注意,在現代英語中,不使用縮寫詞的時段非常常見 - 例如,The Guardian有「美國新聞」和「英國新聞」的章節,沒有句號。實際上,我認爲你不必擔心這個特定的問題,除非它在你的特定數據集中出現很多。

相關問題