0
我正在做一個Python項目,我們應該從一個Project Gutenberg文件解析HTML以隔離該書的內容。我設法擺脫了除目錄之外的所有內容。我想通過將soup.prettify()作爲一個字符串對象,將它拆分到目錄的最後一個短語中,並將最後一個元素從列表中拉出來除去目錄,這將成爲除表格以外的所有內容的內容。這是我迄今爲止所擁有的。解析時,如何分割字符串對象然後拉出最後一個元素(Python)
def get_text(): #writes the html into a new text file called new_christie.txt
with open('new_christie.txt','w', encoding='utf-8') as book:
url = 'http://www.gutenberg.org/files/1155/1155-h/1155-h.htm'
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, 'html.parser')
str = soup.prettify()
text = str.split('XXVIII. AND AFTER') #last phrase in Table of Contents
text = soup.find_all('p') #finds all of the text between paragraphs
content = text[-1:]
for p in content:
line = p.get_text()
book.write(line)
我想我的問題在於,當我嘗試將最後一個元素拉出來使用內容列表的文本= [-1:],但我不能想出另一種方式來做到這一點。
你有沒有嘗試使用剛剛'文[-1]'沒有冒號 – Navidad20
當我想的是,它刪除了所有文本。 – Alanan
此外,您選擇的字符串是否爲所有Gutenberg條目中發現的常量?或者您的解決方案僅適用於幾個看起來像這樣的條目? – CAB