我試圖從購物網站上刮取內容,然後將其保存在我的數據庫表中的產品中。刮這些內容需要了解每個站點的DOM結構。不僅DOM結構,而且菜單中的類別層次結構。特定內容的網頁搜索
有許多解決方案通過爲每個站點設置配置,然後使用regx,XPath或css選擇器查找包含(例如產品名稱,價格,型號...)的特定html元素來實現此目的。
是否有解決方案來避免每個站點的設置配置和自動刮取產品屬性?
有一個類似的解決方案,處理像Readability這樣的新聞,它尋找<p>
標籤和圖像的序列。由於新聞網站和簡單結構之間的相似性,對於新聞來說更容易,
你可以自動執行的過程:給定文本值,發現頁面上的文本,然後按[生成的含元素的CSS選擇器(HTTP: //stackoverflow.com/a/4588211/405017)。但是,不能保證生成的選擇器是穩定的。你可以花費幾天的時間收集多個頁面的腳本,並使用啓發式方法試圖找到一種常見的模式......或者你可以用你的大腦根據明顯的(對人類)模式生成一個好的選擇器。 – Phrogz