你好: 我寫在Java代碼Nutch的(開源搜索引擎),除去從阿拉伯語單詞的movments的索引。 我不知道它裏面的錯誤是什麼。 t這是代碼:寫代碼Java進行Nutch的
package com.mycompany.nutch.indexing;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.indexer.IndexingException;
import org.apache.nutch.indexer.IndexingFilter;
import org.apache.nutch.indexer.NutchDocument;
import org.apache.nutch.parse.getData().parse.getData();
public class InvalidUrlIndexFilter implements IndexingFilter {
private static final Logger LOGGER =
Logger.getLogger(InvalidUrlIndexFilter.class);
private Configuration conf;
public void addIndexBackendOptions(Configuration conf) {
// NOOP
return;
}
public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
CrawlDatum datum, Inlinks inlinks) throws IndexingException {
if (url == null) {
return null;
}
char[] parse.getData() = input.trim().toCharArray();
for(int p=0;p<parse.getData().length;p++)
if(!(parse.getData()[p]=='َ'||parse.getData()[p]=='ً'||parse.getData()[p]=='ُ'||parse.getData()[p]=='ِ'||parse.getData()[p]=='ٍ'||parse.getData()[p]=='ٌ' ||parse.getData()[p]=='ّ'||parse.getData()[p]=='ْ' ||parse.getData()[p]=='"'))
new String.append(parse.getData()[p]);
return doc;
}
public Configuration getConf() {
return conf;
}
public void setConf(Configuration conf) {
this.conf = conf;
}
}
我認爲錯誤是使用parse.getdata()
但我不知道我應該用什麼來代替呢?
您有什麼問題?例外?沒有得到預期的結果?什麼?順便說一句,這個新的String.append(parse.getData()[p]);意味着什麼......因爲你不把字符串分配給任何東西。 – MeBigFatGuy 2011-04-10 06:59:58
感謝名單的評論 我有2個錯誤 我怎麼可以在索引的索引分配的話,新的價值? – moneera 2011-04-10 07:42:44
要添加單詞,您需要有兩個字符串的方法doc.add(name,value)。 – Howard 2011-04-10 07:54:50