2015-07-10 37 views
2

我正在嘗試Apache Tika:app &服務器,gui和命令行。Apache Tika服務器請求獲取'主要內容'而不是'純文本'

隨着提卡的應用程序,我可以這樣做

java -jar tika-app-1.7.jar --gui 

,並選擇「查看」 - >「主要內容」,或

java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html 

我需要的主要內容,但它似乎在服務器模式我只能得到純文本。我正在檢查this guide

curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta 
    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika 

也許,http://:9998 /之後會出現什麼結果? 有沒有辦法在服務器模式下獲取主要內容?

最後,請求必須在Ruby tika-server-1.3.jar中進行。到目前爲止,看起來像這樣:

require "net/http" 

    tika_prefix = URI('http://<server_ip>:9998/tika') 
    url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html' 
    request = Net::HTTP::Put.new(tika_prefix.to_s) 
    request.body = url 
    request.content_type = 'text/html' 
    http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port) 
    http.request(request).body 
+0

我想知道同樣的事情,所以我發送了一封電子郵件給Tika郵件列表。如果有人回覆,我會通知你。 –

+0

你有沒有找到一種方法在Tika-Server中獲得'--text-main'? –

回答

2

這是今天可能的。現在Tika 1.15實現了TIKA-2343功能請求,該功能請求在服務器模式下添加了相當於--text-main的等效功能。

vaites/php-apache-tika是我使用的Tika的PHP綁定,我已經打開an issue,所以我們應該能夠看到它即將實施。

編輯:PHP綁定庫現在支持此功能。

相關問題