4
尊敬的用戶我正在使用apache lucene進行索引和搜索。 我必須索引存儲在本地計算機光盤上的html文件。我必須對html文件的文件名和內容進行索引。我能夠將文件名存儲在lucene索引中,但不能存儲html文件內容,該文件內容不僅應該索引數據,還會索引整個頁面組成的圖像鏈接和url,以及如何從索引文件 訪問內容以索引我使用下面的代碼:html文件的lucene索引
File indexDir = new File(indexpath);
File dataDir = new File(datapath);
String suffix = ".htm";
IndexWriter indexWriter = new IndexWriter(
FSDirectory.open(indexDir),
new SimpleAnalyzer(),
true,
IndexWriter.MaxFieldLength.LIMITED);
indexWriter.setUseCompoundFile(false);
indexDirectory(indexWriter, dataDir, suffix);
numIndexed = indexWriter.maxDoc();
indexWriter.optimize();
indexWriter.close();
private void indexDirectory(IndexWriter indexWriter, File dataDir, String suffix) throws IOException {
try {
for (File f : dataDir.listFiles()) {
if (f.isDirectory()) {
indexDirectory(indexWriter, f, suffix);
} else {
indexFileWithIndexWriter(indexWriter, f, suffix);
}
}
} catch (Exception ex) {
System.out.println("exception 2 is" + ex);
}
}
private void indexFileWithIndexWriter(IndexWriter indexWriter, File f,
String suffix) throws IOException {
try {
if (f.isHidden() || f.isDirectory() || !f.canRead() || !f.exists()) {
return;
}
if (suffix != null && !f.getName().endsWith(suffix)) {
return;
}
Document doc = new Document();
doc.add(new Field("contents", new FileReader(f)));
doc.add(new Field("filename", f.getFileName(),
Field.Store.YES, Field.Index.ANALYZED));
indexWriter.addDocument(doc);
} catch (Exception ex) {
System.out.println("exception 4 is" + ex);
}
}
在此先感謝
先生哪裏是文字類:
從文件中獲得的InputStream整潔無法使用它,我怎麼能給文件位置的輸入流對象感謝和問候 – adesh
文本類是org.w3c.dom.Text。它帶有Java。 –
編輯答案顯示如何從文件位置獲取輸入流 –