如何抓取英文網站並避免抓取其他語言？

嗨，我只需要抓取他們的語言是英語的網站。我知道nutch可以通過語言檢測器等插件檢測網站的語言。但是我需要防止nutch爬出沒有英文網站。雖然我知道我們需要抓取一個頁面來理解我想離開網站的語言，因爲我們有可能首先檢測到該語言。你能告訴我它是否可能嗎？例如，如果一個網站的兩三頁被提取，而他們不是英文的，那麼nutch應該離開該網站並放棄這些網頁以及它們的所有網址。謝謝你的幫助。如何抓取英文網站並避免抓取其他語言？

來源

2012-09-05 a.toraby

如果您快速瀏覽HTTP請求參數（http://en.wikipedia.org/wiki/List_of_HTTP_header_fields），您可以要求提供內容語言，您將得到如下答案：「Content-Language ：en「。

您不需要執行GET請求（並下載整個頁面），您可以在HEAD請求中請求此參數（以僅下載標題）。

關於「例如，如果一個網站的兩三頁被提取，而他們不是英文的，那麼nutch應該離開該網站並放棄這些網頁及其所有網址。」一個網站可能是多語言的。因此，您可以用西班牙文（或其他）獲取3個第一頁，您將離開該網站，儘管有一些英文頁面。

來源

2012-09-05 06:58:34 arutaku

如何抓取英文網站並避免抓取其他語言？

回答

相關問題