2016-11-06 24 views
1

我使用BeautifulSoup從HTML文檔中提取文本,然後將其傳遞給NLTK進行一些分析。 HTML文件中有分頁符。分頁符導致連續的段落被分割。使用BeautifulSoup刪除分頁符

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, "html5lib") 
txt = (soup.get_text()) 
print(txt) 

分割的段落是這樣的:

該文件包含幾個段落。每個段落包含幾個

-6製成的話

句子。單詞由字母組成。

想法如何刪除分頁符並有完整的段落?

+0

所以你所有的「分頁符」都是你在這個例子中描述的形式嗎?即頁面,然後一堆空格? – mircealungu

+0

感謝您的快速響應。雅,他們都是那樣的。 – ashap

回答

0

您可以使用下面的正則表達式從文本字符串,看起來像刪除:\ n \ n ... -number- \ n \ n ...

import re 
s=re.sub(r'\n+-[0-9]+-\n+', '', txt) 

讓我知道,如果這幫助

+0

這工作,以刪除頁碼和所有的空間,但段落仍然分成兩部分。 現在看起來像這樣: 該文檔包含幾個段落。每個段落由幾個由詞組成的句子組成。單詞由字母組成。 – ashap

+0

嗯。當你說「像這樣」對我來說看起來相當不錯。我不知道是什麼問題:) – mircealungu

+0

段落之間仍然存在換行符。我使用.strip()來刪除字母之間的所有空格。不完美,但是我想要做的一個解決方法。 再次感謝您的幫助!非常感激! – ashap