2011-06-26 163 views
0

網絡爬蟲是否僅從網頁返回提取的文本?說,如果有一些pdf/doc文件存儲在Web服務器中。網絡爬蟲是否可以抓取它們並返回其內容?無論如何,一個好的開源Java網頁爬蟲有什麼建議?網絡爬蟲的功能

謝謝!

回答

1

Web爬蟲不會提取文本。它只是通過一些轉換返回htmls [例如UTF-8轉換]。

如果您想到爬行器的這種方式,那麼在第一跳時無關緊要。當然對於多跳而言,它需要查看這些文檔,並且典型的抓取工具不會在pdf/docs中提供多跳。

+0

沒有完全得到您在第二段中所說的內容。你能解釋一下你的啤酒花是什麼意思嗎? – Izza

+1

通過啤酒花,我的意思是跟隨html鏈接跳轉的次數。如果您從第一個文檔轉到鏈接的文檔,那麼它就是第一跳,如果轉到鏈接的鏈接,那麼它就是第二跳等等。 – Fakrudeen