我正在使用Nutch 1.4和solr 3.3.0來爬行和索引我的法語網站。我的網站曾經是在iso8859-1。UTF-8字符顯示不正確
目前我有solr下的2個索引。在第一個存儲我的舊頁面(在iso8859-1中)和第二個存儲我的新頁面(在utf-8中)。
我對這兩個爬網作業使用相同的nutch配置來獲取和索引我網站上的舊頁面和新頁面。我沒有添加任何有關章程編碼的設置(我認爲)。
我在搜索應該在utf-8中的新頁面時遇到問題。法語字符無法正確顯示。但對於iso8859-1中的舊頁面,一切似乎都很好。
我想知道是否有人可以指出我在正確的方向來解決這個問題。
我相信問題來自nutch,因爲當我創建段的轉儲時,我在轉儲文件中看到了那些有趣的字符。
謝謝。
非常感謝Nikolay修復了我的問題。 – breakdown1986 2012-03-22 18:14:06