2010-06-29 77 views

回答

5

Heritrix是一個用Java編寫的開源Web爬蟲程序。通過他們的javadoc,我看到他們有一個工具類Robotstxt解析robots.txt文件。

+0

Robotstxt中存在一個錯誤。請不要使用它。浪費了很多時間。對於像這樣的文件: User-agent:* Disallow:/ Robotstxt的AllowAll方法顯示爲「true」。 – 10101010 2015-04-27 06:17:13

1

還有在SourceForge上託管的jrobotx library

(全面披露:我剝離出來,形成該庫中的代碼。)