這可能是脫離主題,但如果任何人都可以幫助或指出我在正確的方向.....或正確的地方提出這個問題?Web Scrapping自動化程序
任何人都可以提出一個很好的自動網絡刮取程序在Windows機器上使用嗎? 我希望能夠自動化該過程並將其設置爲能夠每隔5分鐘左右「刮擦」該網站,並將生成的XML導出到另一個網站或數據庫?
感謝
這可能是脫離主題,但如果任何人都可以幫助或指出我在正確的方向.....或正確的地方提出這個問題?Web Scrapping自動化程序
任何人都可以提出一個很好的自動網絡刮取程序在Windows機器上使用嗎? 我希望能夠自動化該過程並將其設置爲能夠每隔5分鐘左右「刮擦」該網站,並將生成的XML導出到另一個網站或數據庫?
感謝
如果實際過程花費的時間太長,這10秒鐘或更可能是網絡延遲,而不是實際的解析和刮壞了自我。如果是這樣的話,如果你還沒有這樣做,你可能希望讓它們並行執行而不是順序執行。
如果你有更具體的問題,這將有所幫助,因爲有幾種方法可以解決這個問題。你可以讓它在電話上解析。如果無論出於什麼原因這個問題太嚴重了,我認爲我會爲電話客戶端建立一個單獨的HTTP REST服務器,讓它與它進行交互以獲取它所需的數據。
有很多方法可以解決這個問題,這些只是建議。如果你想要一個更具體的答案,你需要一個更具體的問題。如果遇到一個問題,請考慮然後詢問更具體的編程問題。
好的,謝謝你的建議和建議。 –
沒問題。下次嘗試並更具體,但你總是有嘗試和評估的選項。 –
你想要抓取什麼類型的內容?它是簡單的靜態內容? XPath或者帶有CSS選擇器,Web客戶端和HTML解析器的庫都可以。它是動態內容嗎?然後你需要一些方法讓JavaScript做它想做的事,然後用上述工具來刮擦它。這實際上取決於內容在頁面上的呈現方式。我想你只需要澄清一下。 –
嗨Jaxrtech感謝您的答覆,atm即時通訊在一個Android應用程序中使用jsoup來刮頁面,它只是簡單的內容即表,但它需要一段時間(約10秒)爲所有頁面,所以我開始考慮在計算機上執行解析,然後將所有數據(其結構完整)上傳到網頁,以便從我的應用程序中通過jsoup一次性抓取所有數據?也許這不是最好的辦法,但我只是真的開始玩弄這個想法並加快這個過程。你認爲我可以做什麼?或者更好的方式來獲得所有的數據在一個地方? –
... @誰低估了評論會不錯?我確實聲明,我不確定這是否是提出問題的正確位置,並且很樂意在別處指出問題的答案。 –