1
有沒有什麼辦法可以從1-5級執行urlfilter,從5級開始執行不同的urlfilter。我需要提取pdf文件,這些文件只有在給定的水平之後(僅用於實驗)。nutch只提取pdf文件
pdf文件將以二進制格式存儲在抓取/分段文件夾中。我想提取這些pdf文件並將所有文件存儲在1個文件夾中。我已經能夠編寫一個Java程序來識別PDF文件。我無法弄清楚如何使一個PDF文件具有相同字體,頁面#,圖像內容等
- 執行爬
- 合併段數據
- 運行makePDF.java
這隻能識別pdf文件:
String uri = "/usr/local/nutch/framework/apache-nutch-1.6/merged572/20130407131335";
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path path = new Path(uri, Content.DIR_NAME + "/part-00000/data");
SequenceFile.Reader reader = null;
try {
reader = new SequenceFile.Reader(fs, path, conf);
Text key = new Text();
Content content = new Content();
while (reader.next(key, content)) {
String contentType = content.getContentType();
if (contentType.equalsIgnoreCase("application/pdf")) {
//System.out.write(content.getContent(), 0, content.getContent().length);
System.out.println(key);
}
}
reader.close();
}
finally {
fs.close();
}