2015-10-19 60 views
1

我想標記一個句子,但保持預定義的單詞不變。例如除了預定義的單詞之外,是否可以標記所有單詞?

"i went to university of abc and had a wonderful time there!" 

["i", "went", "to", "university of abc", "and", "had", "a", "wonderful", "time", "there", "!"] 

作爲"university of abc"是預先定義的詞語。

我無法在任何NLTK標記器中找到此類參數或控件。我可以通過任何方式來實現這一目標?謝謝!

回答

1

而不是分割使用thisregex使用匹配:

(university of abc|\w+|[^\w\s]+) 

RegEx Demo

您可以在正則表達式LHS的像上面所示的一個添加更多預定義的詞語。

+0

謝謝。我可以將正則表達式的LHS設置爲任何預定義的單詞嗎?即W =「abc大學」,然後在正則表達式中有變量W? – Blue482

+1

您可以使用字符串連接來構建正則表達式。 – anubhava

+1

對不起,延遲迴復。明白了,謝謝! :) – Blue482

1

你可以使用regexp正則表達式標記器,並寫一個正則表達式,比如說,在不是"the university of abc."的一部分的所有空白區域上拆分,但這會很麻煩 - hack-y方法可能只是爲了通過通過文本或寫一個正則表達式替換"the university of abc""the-university-of-abc"或其他字符串不會被分解成單獨的標記(取決於您使用的標記器)。

相關問題