我得到的只是產品ID或網站HTML代碼中的「diamond-data-id」。如何從html中刮取產品ID?
我想提取所有產品id到一個csv文件,所以我可以刮所有有效的產品頁面,而不是所有的900萬頁有錯誤/ 404頁面。
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import csv
import time
import nltk
import string
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import re
url = 'https://www.bluenile.com/diamond-search?track=NavDiaSea'
driver = webdriver.Chrome()
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, "lxml")
driver.close()
這太棒了,非常感謝你!後續問題,我能夠做300個數據記錄的一個請求,但我們如何繼續獲得獨特的產品ID?來自相同的URL,或者我如何遍歷500個請求以獲得140K +產品id?預先感謝您... –
調整我的答案。您必須修改此URL中的參數才能獲得比初始結果更多的參數。 – rrschmidt
太棒了。非常感謝! –