我有一組停用詞,我希望從我解析的內容中刪除。該清單非常詳盡,包含很多代詞和其他常用詞,例如was
,being
,our
等,但不幸的是還有i
,a
,just
和其他。替換給定集合中所有出現的單詞,但前提是該單詞不包含在另一個單詞中
我希望刪除所有這些停用詞,但是只有(如果它們被空格(包括製表符和換行符)包圍)。
我在想在這裏需要一個正則表達式,但它有可能有一個正則表達式裏面有一個變量嗎?
正如我在做這在Python,我會是這樣的:
for word in stopwords:
text = text.replace(`regex for current word`, '')
這是可行的?在這種情況下,正則表達式會是什麼?
如果「單詞」處於開始或結束狀態,這將不起作用。 – vks 2014-12-04 14:08:49
確實如此,但'word'通常是這樣的,它不在文檔的開始或結尾,例如'Disclaimer','Copyright','owner'等。換句話說,我發現它是一個可接受的交易-off。 – user991710 2014-12-04 14:30:59