我想抓取本網站上所有論壇帖子的所有主題標題。我不知道如何去做這件事，因爲論壇網站的html格式並不是我所熟悉的。
從urllib.request裏進口的urlopen從BS4進口BeautifulSoup uReq 湯如何使用BeautifulSoup進行網頁掃描

my_url = 'http://thailove.net/bbs/board.php?bo_table=ent' 


uClient = uReq(my_url) 
page_html = uClient.read() 
uClient.close() 

page_soup = soup(page_html, "html.parser") 

#I don't think this is correct, but not sure on how else to to do this... 
containers = page_soup.findAll("td",{"class":"td_subject"}) 


for container in containers: 
subject = container.a.font.font.contents

同樣不知道這是正確的

print("subject: ", subject)

請讓我知道我應該做的。另外請記住，該網站是韓文網站，如果需要可以很容易翻譯成英文。提前致謝。

來源

2017-07-12 Paul Lee

你的代碼是好的，直到你到達for循環，你應該acessing container.a.contents[0]得到的主體，和print功能應該是你for循環中：

for container in containers: 
    subject = container.a.contents[0] 
    print("subject: ", subject)

運行腳本那麼：

>>>  
subject: 
        미성년자도 이용하는 게시판이므로 글 수위를 지켜주세요.      
subject: 
        방콕의 대표 야시장 - 딸랏롯파이2      
subject: 
        공항에서 제일 가까운 레드썬 마사지 
.......

來源

2017-07-12 03:04:39

謝謝你的幫助。這似乎解決了我的問題。如果你不介意，你是否也知道如何能夠在論壇中抓取所有頁面？我嘗試在網上查找，找不到合適的解決方案。 –

你可以嘗試/尋找遍歷'''href「]內容的內容 –

如何使用BeautifulSoup進行網頁掃描

同樣不知道這是正確的

回答

相關問題