2014-12-02 28 views
0

我想流使用stream.url參數遠程文件到Solr索引作爲錯誤在遠程流式PDF文件到Solr

curl 'http://localhost:8983/solr/update/csv?stream.url=http://www.artofproblemsolving.com/Resources/Papers/SatoNT.pdf&stream.contentType=application/pdf;charset=utf-8' 

這裏Remote streaming with Solr解決以下。然而,Solr服務器拋出一個錯誤

<?xml version="1.0" encoding="UTF-8"?> 
<response> 
<lst name="responseHeader"> 
<int name="status">400</int> 
<int name="QTime">518</int> 
</lst>  
<lst name="error"> 
<str name="msg">Document is missing mandatory uniqueKey field: id</str><int name="code">400</int> 
</lst> 
</response> 

我試着在Solr文檔和維基頁面找,但找不到一個例子。任何幫助表示讚賞。

UPDATE

這裏是我的Schema.xml文件 - http://pastebin.com/akmruD9N

的問題是隻有一個領域,即idrequired="true" multiValued="false"屬性和被用作uniqueKey作爲

<uniqueKey>id</uniqueKey> 

並且必須有一個字段設置爲uniqueKey否則Solr遠程流式傳輸不起作用。我應該使用哪個字段而不是id

回答

1

您正嘗試將PDF文件發送到舊版CSV導入終端。所以,它做了奇怪的事情和抱怨。

您想使用Extract handler。它涵蓋了很多的信息,其中包括讓一個例子與PDF文件,並明確設置id:

捲曲「http://example.com:8983/solr/update/extract?stream.file=/path/to/file/StatesLeftToVisit.doc&stream.contentType=application/msword&literal.id=states.doc

+0

,我不得不改變stream.file'''到stream.url '從url遠程流文件,它的工作。我在AWS上部署了Solr服務器,但我無法從本地計算機運行'curl'命令。可以配置Solr來實現這一點嗎?謝謝:) – ajay 2014-12-03 12:10:28

+0

可能是一個不同的問題。而且你需要更精確地說明爲什麼*你無法運行卷曲。很難猜測。 – 2014-12-03 14:12:55

+0

到Solr服務器的連接超時。然後將它作爲一個單獨的問題來提出。 – ajay 2014-12-03 14:21:01