使用BeautifulSoup刪除分頁符

我使用BeautifulSoup從HTML文檔中提取文本，然後將其傳遞給NLTK進行一些分析。 HTML文件中有分頁符。分頁符導致連續的段落被分割。使用BeautifulSoup刪除分頁符

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, "html5lib") 
txt = (soup.get_text()) 
print(txt)

分割的段落是這樣的：

該文件包含幾個段落。每個段落包含幾個

-6製成的話

句子。單詞由字母組成。

想法如何刪除分頁符並有完整的段落？

2016-11-06 ashap

所以你所有的「分頁符」都是你在這個例子中描述的形式嗎？即頁面，然後一堆空格？ – mircealungu

感謝您的快速響應。雅，他們都是那樣的。 – ashap

您可以使用下面的正則表達式從文本字符串，看起來像刪除：\ n \ n ... -number- \ n \ n ...

import re 
s=re.sub(r'\n+-[0-9]+-\n+', '', txt)

讓我知道，如果這幫助

2016-11-06 20:50:35 mircealungu

這工作，以刪除頁碼和所有的空間，但段落仍然分成兩部分。現在看起來像這樣：該文檔包含幾個段落。每個段落由幾個由詞組成的句子組成。單詞由字母組成。 – ashap

嗯。當你說「像這樣」對我來說看起來相當不錯。我不知道是什麼問題:) – mircealungu

段落之間仍然存在換行符。我使用.strip（）來刪除字母之間的所有空格。不完美，但是我想要做的一個解決方法。再次感謝您的幫助！非常感激！ – ashap

回答