1
我一直在努力研究solr如何在doc或pdf等文檔提交給它時工作。我想知道我是否將pdf提交給solr,它是否最終將pdf文件與解析pdf文件後生成的索引一起存儲?Apache Solr - 文檔本身是否存儲在索引之外的內部?
感謝,
-Keshav
我一直在努力研究solr如何在doc或pdf等文檔提交給它時工作。我想知道我是否將pdf提交給solr,它是否最終將pdf文件與解析pdf文件後生成的索引一起存儲?Apache Solr - 文檔本身是否存儲在索引之外的內部?
感謝,
-Keshav
的Solr(Lucene的)不 「結束了商店PDF文件」 本身。然而它可以可以存儲使用文本提取器,如Tika(如果確實該字段被標記爲存儲在架構中)從PDF中提取PDF的文本內容。
如果您希望完整存儲PDF文件,您需要將PDF轉換爲(例如)Base64表示形式,並將base64字符串保存爲「存儲」字段。所以當你訪問文檔時,你需要從Base64轉換回PDF。
或者,將pdf保存到文件系統並將其位置保存在「存儲」字段中。 – 2010-08-06 18:31:09
Mikos,謝謝你的迴應!你提到可以存儲PDF的文本內容。但索引搜索工作需要文本存儲嗎? – Keshav 2010-08-06 18:36:31
不需要搜索。但是如果你需要突出顯示(片段),那麼你需要存儲。 – Mikos 2010-08-06 18:45:22