2
我正在嘗試Apache Tika:app &服務器,gui和命令行。Apache Tika服務器請求獲取'主要內容'而不是'純文本'
隨着提卡的應用程序,我可以這樣做
java -jar tika-app-1.7.jar --gui
,並選擇「查看」 - >「主要內容」,或
java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html
我需要的主要內容,但它似乎在服務器模式我只能得到純文本。我正在檢查this guide。
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika
也許,http://:9998 /之後會出現什麼結果? 有沒有辦法在服務器模式下獲取主要內容?
最後,請求必須在Ruby tika-server-1.3.jar中進行。到目前爲止,看起來像這樣:
require "net/http"
tika_prefix = URI('http://<server_ip>:9998/tika')
url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
request = Net::HTTP::Put.new(tika_prefix.to_s)
request.body = url
request.content_type = 'text/html'
http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
http.request(request).body
我想知道同樣的事情,所以我發送了一封電子郵件給Tika郵件列表。如果有人回覆,我會通知你。 –
你有沒有找到一種方法在Tika-Server中獲得'--text-main'? –