1
我想放棄的網站:報廢文章與Python 3.4和BeautifulSoup,請
https://xueqiu.com/yaodewang
而且我想放棄他的所有文章。我使用BeautifulSoup和採購這樣的:
import requests
from bs4 import BeautifulSoup
url = 'https://xueqiu.com/yaodewang'
header = {'user-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36'}
r = requests.get(url,headers = header).content
soup = BeautifulSoup(r,'lxml')
artile = soup.find_all('ul',{'class':'status-list'})
print(artile)
結果是什麼這是回報!
[]
SO,我TYR另一個規則是這樣的:
# art = soup.find_all('div',{'class':'allStatuses no-head'})
# art = soup.find_all('div',{'class':'status_bd'})
# art = soup.find_all('div',{'class':'status_content container active tab-pane'})
我需要你的幫助,非常感謝!
非常感謝你much.It是一個正確的methlod但是,我想知道,如果我知道conten! t位於腳本中,我如何找到這樣的正則表達式:pattern = re.compile(r「SNB \ .data \ .statuses =({。*?});」,re.MULTILINE | re.DOTALL) –
另一個問題:我想獲得artiles的列表,但現在,我得到了一個字符串。我想得到這樣的結果= [str01,str02 .....] –
@championCh當然,只是提取腳本文本並使用它,例如[regex101](https://regex101.com/)。至於你的第二個問題,我認爲你是在詢問如何將結果放入一個列表中:'articles = [item [「description」] for data in data [「statuses」]]]'。希望有所幫助。 – alecxe