使用OpenOffice/LbreOffice和JODConnector 這也主要適用於.doc到.docx。雖然我還沒有制定出圖形的問題。
private static void transformDocXToPDFUsingJOD(File in, File out)
{
OfficeDocumentConverter converter = new OfficeDocumentConverter(officeManager);
DocumentFormat pdf = converter.getFormatRegistry().getFormatByExtension("pdf");
converter.convert(in, out, pdf);
}
private static OfficeManager officeManager;
@BeforeClass
public static void setupStatic() throws IOException {
/*officeManager = new DefaultOfficeManagerConfiguration()
.setOfficeHome("C:/Program Files/LibreOffice 3.6")
.buildOfficeManager();
*/
officeManager = new ExternalOfficeManagerConfiguration().setConnectOnStart(true).setPortNumber(8100).buildOfficeManager();
officeManager.start();
}
@AfterClass
public static void shutdownStatic() throws IOException {
officeManager.stop();
}
您需要運行LibreOffice作爲serverto進行此項工作。 在命令行中,您可以使用此功能;
"C:\Program Files\LibreOffice 3.6\program\soffice.exe" -accept="socket,host=0.0.0.0,port=8100;urp;LibreOffice.ServiceManager" -headless -nodefault -nofirststartwizard -nolockcheck -nologo -norestore
來源
2012-08-16 17:06:22
JFK
我真的無法進入Tika項目來解析文字fils。瞭解解析Word文件的任何其他項目或者如何自行解析它的示例項目/說明。我只需要格式化和圖片旁邊的文字文件中的常規文字。 – Ismet 2011-05-24 15:52:35
Tika應該很容易上手!只需抓住Tika CLI程序並將文件傳遞給它,就可以獲得XHTML。對此感到滿意,然後開始自己調用Java。 – Gagravarr 2011-05-25 11:38:11