我想將MS Office word/excel文檔加載到Marklogic中,並且想用xquery查詢它們,就像用xml文檔完成的一樣。但是,當我將doc文件加載到Marklogic中時,它會將它們加載到二進制格式,並在使用查詢控制檯查看時顯示垃圾字符。我試着用下面的命令加載: -如何在Marklogic Server中加載和查詢word/excel文檔?
xdmp:document-load("E:\doc\sample.doc",
<options xmlns="xdmp:document-load"
xmlns:http="xdmp:http">
<format>xml</format>
</options>)
但它顯示一個錯誤,說文檔不是UTF 8編碼。我想知道doc和xls文件是否可以加載到Marklogic中,或者在加載之前必須將它們轉換爲xml或UTF 8編碼格式。如果是,那麼轉換它們的過程是什麼。如果不是,那麼我們如何用xquery查詢它們。我也想知道,如果MS Office 2007/2010安裝對於轉換過程是必要的,因爲Office 2007支持OOXML格式。
請給我適當的指導。
您的意思是Marklogic的行貨版本是必需的。此功能在快速版中不可用。我對嗎 ? –
@ puneet-pant當然沒有包含在社區許可證中。但我認爲它是在Express許可證中,就像一些最常用的語言一樣。另一方面,如果您可以將它們轉換爲2007/2010格式,那麼您可以遵循wpaven針對這些格式使用可用管道的出色建議。正如他所說,這不需要許可證轉換選項功能。 – grtjn
值得一提的是最近的'xdmp:document-filter'函數,該函數也被封裝在內置的轉換管道中。與例如'xdmp:pdf-convert'相反,它不會花費很多精力來保存文檔的樣式和佈局,但它能夠抓取200多種二進制格式。結果是XHTML元數據記錄在html:meta標籤中。通常足夠FT搜索二進制文件.. – grtjn