這是我在一週前發佈的一個問題的擴展(getting text from html using beatifulsoup)。 似乎我想提取的大部分數據是data-bind
,並且當我使用soup.findAll
時不會「存儲」。例如考慮這個鏈接:kaggle/user/results我想要獲得用戶參與的所有比賽的名稱。我使用下面的代碼:Python:使用BeatifulSoup從數據綁定中獲取數據
url = 'https://www.kaggle.com/titericz/results'
sourceCode = requests.get(url)
plainText = sourceCode.text
soup = BeautifulSoup(plainText)
for link in soup.findAll('tr'):
print(link)
所以我把第一場比賽,但在link
似乎競爭,在這種競爭中的地位,總競爭對手等的名稱的值丟失,而在HTML是那裏。試圖按照與上面鏈接的問題的答案相同的程序,但我無法管理它(通過使用re.compile
和 pattern.search
)。有沒有辦法通過使用BeatifulSoup
來完成它?我無法在網上找到任何類似的問題。
豈不是更好,如果你只使用基本的GET請求,我猜這就是它。 https://www.kaggle.com/scripts/all/0?userId=54836&sortBy=votes –
感謝您的答案。你能更清楚嗎?我應該遵循什麼程序? –
你可以直接從網址https://www.kaggle.com/knockout/profiles/54836/results以json的形式獲取數據並解析它[用python解析json](https://docs.python.org/2 /library/json.html)。在這種情況下,你不需要美麗的裝備 –