2017-01-29 119 views
0

我試圖從使用BeautifulSoup/Python的網站刮表。出於某種原因,其中一個表似乎位於評論標籤內。我可以在評論標籤中獲得整個文本,但我無法弄清楚如何在該文本上運行find_all命令以便能夠在其中查找表格。在評論標籤中查找標籤 - Python

有什麼方法可以告訴它,comment標籤內的文本實際上是更多的HTML?

hockey-reference.com/boxscores/201701260BOS.html

我試圖讓在高級統計報告部分

+0

沒有了2桌,因爲評論裏的任何東西是不是HTML結構。這是一條評論。 *可能*一些Javascript代碼涉及在加載後通過加載數據到頁面(通過AJAX,而不是從評論),但沒有一個合適的例子,我們不能真正幫助。 –

+0

http://www.hockey-reference.com/boxscores/201701260BOS.html 我想要得到2表下的先進的統計報告部分 –

+0

發佈url和你想要的輸出 –

回答

0
import re 

# use table text find comment text 
table_text = soup.find(text=re.compile('table class="adv sortable stats_table"')) 

# use bs4 to parse the text 
table_soup = BeautifulSoup(table_text, 'lxml') 
# find_all .... 
table_soup.find_all('tr') 
+1

工作!謝謝! –