我使用BeautifulSoup從HTML文檔中提取文本,然後將其傳遞給NLTK進行一些分析。 HTML文件中有分頁符。分頁符導致連續的段落被分割。使用BeautifulSoup刪除分頁符
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)
分割的段落是這樣的:
該文件包含幾個段落。每個段落包含幾個
-6製成的話
句子。單詞由字母組成。
想法如何刪除分頁符並有完整的段落?
所以你所有的「分頁符」都是你在這個例子中描述的形式嗎?即頁面,然後一堆空格? – mircealungu
感謝您的快速響應。雅,他們都是那樣的。 – ashap