我刮的網頁內容,但堅持了一個問題的Web刮。經過一系列處理以剝離我想要的範圍之後,我無法剝離html代碼,使其在列表中顯示爲純文本。我曾嘗試使用replace,re.compile和join的功能(嘗試將列表更改爲剝離文本)。所有這些都不起作用,因爲它們是爲字符串設計的,或者在運行時彈出錯誤。的Python 3.5:與剝離HTML代碼
任何人都可以給我一些提示如何做到這一點。例如,我想從下面的代碼更改爲Instructor
輸出從
<p class="course-d-title">Instructor</p>
。
import tkinter as tk
import re
def test():
from bs4 import BeautifulSoup
import urllib.request
from urllib.parse import urljoin
'''for layer 0'''
url_text = 'http://www.scs.cuhk.edu.hk/en/part-time/accounting-and-finance/accounting-and-finance/fundamental-accounting/162-610441-01'
resp = urllib.request.urlopen(url_text)
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
a = soup.find_all('p')
k=0
for item in a[:]:
if 'Instructor' in item:
a=a[k:]
break
k+=1
j=0
for item in a[:]:
if 'Enquiries' in item:
a=a[:j-1]
break
j+=1
for i in range(0,a.__len__()):
print (a[i])
if __name__ == '__main__':
test()
酷!你釘了它! –
謝謝,祝你好運:) –