網絡爬蟲是否僅從網頁返回提取的文本?說,如果有一些pdf/doc文件存儲在Web服務器中。網絡爬蟲是否可以抓取它們並返回其內容?無論如何,一個好的開源Java網頁爬蟲有什麼建議?網絡爬蟲的功能
謝謝!
網絡爬蟲是否僅從網頁返回提取的文本?說,如果有一些pdf/doc文件存儲在Web服務器中。網絡爬蟲是否可以抓取它們並返回其內容?無論如何,一個好的開源Java網頁爬蟲有什麼建議?網絡爬蟲的功能
謝謝!
Web爬蟲不會提取文本。它只是通過一些轉換返回htmls [例如UTF-8轉換]。
如果您想到爬行器的這種方式,那麼在第一跳時無關緊要。當然對於多跳而言,它需要查看這些文檔,並且典型的抓取工具不會在pdf/docs中提供多跳。
嘗試https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library; 每個人都會有自己的特點。有些可能支持pdf和文檔,而有些可能不支持。
沒有完全得到您在第二段中所說的內容。你能解釋一下你的啤酒花是什麼意思嗎? – Izza
通過啤酒花,我的意思是跟隨html鏈接跳轉的次數。如果您從第一個文檔轉到鏈接的文檔,那麼它就是第一跳,如果轉到鏈接的鏈接,那麼它就是第二跳等等。 – Fakrudeen