2013-04-06 85 views
1

有沒有什麼辦法可以從1-5級執行urlfilter,從5級開始執行不同的urlfilter。我需要提取pdf文件,這些文件只有在給定的水平之後(僅用於實驗)。nutch只提取pdf文件

pdf文件將以二進制格式存儲在抓取/分段文件夾中。我想提取這些pdf文件並將所有文件存儲在1個文件夾中。我已經能夠編寫一個Java程序來識別PDF文件。我無法弄清楚如何使一個PDF文件具有相同字體,頁面#,圖像內容

  1. 執行爬
  2. 合併段數據
  3. 運行makePDF.java

這隻能識別pdf文件:

String uri = "/usr/local/nutch/framework/apache-nutch-1.6/merged572/20130407131335"; 
    Configuration conf = new Configuration(); 
    FileSystem fs = FileSystem.get(URI.create(uri), conf); 
    Path path = new Path(uri, Content.DIR_NAME + "/part-00000/data"); 

    SequenceFile.Reader reader = null; 
    try { 
     reader = new SequenceFile.Reader(fs, path, conf); 
     Text key = new Text(); 
     Content content = new Content(); 
     while (reader.next(key, content)) { 
      String contentType = content.getContentType(); 
      if (contentType.equalsIgnoreCase("application/pdf")) { 
      //System.out.write(content.getContent(), 0, content.getContent().length); 
      System.out.println(key); 
      } 
     } 
     reader.close(); 
    } 
     finally { 
     fs.close(); 
    } 

回答

1

content.getContent()將返回以字節爲單位的內容。
只需使用BufferedOutputStream將字節寫入文件並將其另存爲pdf