Q

網絡爬蟲的功能

2011-06-26 235 views 0 likes

0

網絡爬蟲是否僅從網頁返回提取的文本？說，如果有一些pdf/doc文件存儲在Web服務器中。網絡爬蟲是否可以抓取它們並返回其內容？無論如何，一個好的開源Java網頁爬蟲有什麼建議？網絡爬蟲的功能

謝謝！

2011-06-26 Izza

A

回答

1

Web爬蟲不會提取文本。它只是通過一些轉換返回htmls [例如UTF-8轉換]。

如果您想到爬行器的這種方式，那麼在第一跳時無關緊要。當然對於多跳而言，它需要查看這些文檔，並且典型的抓取工具不會在pdf/docs中提供多跳。

2011-06-26 06:39:49 Fakrudeen

+0

沒有完全得到您在第二段中所說的內容。你能解釋一下你的啤酒花是什麼意思嗎？ – Izza

+1

通過啤酒花，我的意思是跟隨html鏈接跳轉的次數。如果您從第一個文檔轉到鏈接的文檔，那麼它就是第一跳，如果轉到鏈接的鏈接，那麼它就是第二跳等等。 – Fakrudeen

0

嘗試https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library; 每個人都會有自己的特點。有些可能支持pdf和文檔，而有些可能不支持。

2011-06-26 04:56:17 Skaklram

相關問題