是否可以使用Tika從URL中提取文本?任何鏈接將不勝感激。或TIKA僅適用於pdf,文字和其他媒體文件?使用TIKA從URL中提取文本
5
A
回答
5
這是lucid:
InputStream input = new FileInputStream(new File(resourceLocation));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser parser = new PDFParser();
parser.parse(input, textHandler, metadata);
input.close();
out.println("Title: " + metadata.get("title"));
out.println("Author: " + metadata.get("Author"));
out.println("content: " + textHandler.toString());
而不是創建一個PDFParser
可以使用Tika的AutoDetectParser
來自動處理文件的DIFF類型:
Parser parser = new AutoDetectParser();
6
檢查documentation - 是的,你可以。
例
java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika
會告訴你此頁面上的文本。
1
從本地文件不是從URL中提取內容使用此代碼:
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
LOG.info("content: " + handler.toString());
+0
你也可以使用TikaInputStream.get(byte [])來建立InputStream – Gagravarr
+0
謝謝,,我不知道爲什麼它給了我空的字符串handler.toString() ! –
3
是的,你可以做到這一點。這是代碼。該代碼使用Apache http client
HttpGet httpget = new HttpGet("http://url.here");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(instream, handler, metadata, new ParseContext());
String plainText = handler.toString();
FileWriter writer = new FileWriter("/scratch/cache/output.txt");
writer.write(plainText);
writer.close();
System.out.println("done");
}
相關問題
- 1. 在java中使用Apache Tika從PDF文件中提取文本
- 2. 無法使用TIKA提取文本
- 3. 如何使用Apache Tika從.wps文件中提取文本?
- 4. 使用Tika從.tex文件中提取文本
- 5. 無法使用tika從pdf文件中提取文本內容
- 6. 使用Nginx從URL中提取文本
- 7. 從Tika提取大文本中的文本
- 8. 從URL中提取文本
- 9. 如何從中提取內容。使用apache tika的Pst文件?
- 10. 使用apache tika從gzip文件中提取xml數據?
- 11. 從文本文件中提取URL
- 12. 從URL中提取文章文本
- 13. 從文本文件中提取的URL
- 14. 使用TIKA提取網址的內容(文本)
- 15. 使用Java從URL中提取推文?
- 16. 使用java從文本文件中提取特定的url
- 17. Python:從url中提取文本請求
- 18. 如何從文本中提取URL
- 19. 從url Xcode中提取文本?
- 20. Jquery從文本中提取URL
- 21. 從外部URL中提取文本
- 22. Objective-C:從URL中提取文本
- 23. Python - urllib3使用tika服務器從docx獲取文本
- 24. 使用Apache Tika從PDF中提取圖像
- 25. 使用R從搜索結果URL中提取文本
- 26. 使用XPATH從html中提取文本
- 27. 使用jquery從html中提取文本
- 28. 使用Javascript從HTML中提取文本
- 29. 使用python從html中提取文本
- 30. 使用Javascript從HTML中提取文本
如果我需要在Java代碼中使用這個並保存URL文本在一個文本文件。然後還可以..?我不使用maven。我想在java代碼中使用這個。 – ferhan
描述如何在ant中使用tika,就在如何在Maven中使用它的描述之下,並且剛好在命令行工具的指令之上。如果您需要一些關於如何嵌入它的靈感,我肯定有網站上的信息,並且總是有命令行工具的來源。 – fvu
這將是一個很好的例子在文檔中... – topchef