2012-09-05 52 views
0

嗨,我只需要抓取他們的語言是英語的網站。我知道nutch可以通過語言檢測器等插件檢測網站的語言。但是我需要防止nutch爬出沒有英文網站。雖然我知道我們需要抓取一個頁面來理解我想離開網站的語言,因爲我們有可能首先檢測到該語言。你能告訴我它是否可能嗎?例如,如果一個網站的兩三頁被提取,而他們不是英文的,那麼nutch應該離開該網站並放棄這些網頁以及它們的所有網址。謝謝你的幫助。如何抓取英文網站並避免抓取其他語言?

回答

2

如果您快速瀏覽HTTP請求參數(http://en.wikipedia.org/wiki/List_of_HTTP_header_fields),您可以要求提供內容語言,您將得到如下答案:「Content-Language :en「。

您不需要執行GET請求(並下載整個頁面),您可以在HEAD請求中請求此參數(以僅下載標題)。

關於「例如,如果一個網站的兩三頁被提取,而他們不是英文的,那麼nutch應該離開該網站並放棄這些網頁及其所有網址。」 一個網站可能是多語言的。因此,您可以用西班牙文(或其他)獲取3個第一頁,您將離開該網站,儘管有一些英文頁面。