nutch只提取pdf文件

有沒有什麼辦法可以從1-5級執行urlfilter，從5級開始執行不同的urlfilter。我需要提取pdf文件，這些文件只有在給定的水平之後（僅用於實驗）。nutch只提取pdf文件

pdf文件將以二進制格式存儲在抓取/分段文件夾中。我想提取這些pdf文件並將所有文件存儲在1個文件夾中。我已經能夠編寫一個Java程序來識別PDF文件。我無法弄清楚如何使一個PDF文件具有相同字體，頁面＃，圖像內容等

執行爬
合併段數據
運行makePDF.java

這隻能識別pdf文件：

String uri = "/usr/local/nutch/framework/apache-nutch-1.6/merged572/20130407131335"; 
    Configuration conf = new Configuration(); 
    FileSystem fs = FileSystem.get(URI.create(uri), conf); 
    Path path = new Path(uri, Content.DIR_NAME + "/part-00000/data"); 

    SequenceFile.Reader reader = null; 
    try { 
     reader = new SequenceFile.Reader(fs, path, conf); 
     Text key = new Text(); 
     Content content = new Content(); 
     while (reader.next(key, content)) { 
      String contentType = content.getContentType(); 
      if (contentType.equalsIgnoreCase("application/pdf")) { 
      //System.out.write(content.getContent(), 0, content.getContent().length); 
      System.out.println(key); 
      } 
     } 
     reader.close(); 
    } 
     finally { 
     fs.close(); 
    }

來源

2013-04-06 change

content.getContent()將返回以字節爲單位的內容。
只需使用BufferedOutputStream將字節寫入文件並將其另存爲pdf

來源

2013-04-09 22:20:09

nutch只提取pdf文件

回答

相關問題