2011-01-12 64 views

回答

2

我用於處理Microsoft Office文件的perl庫一直非常缺乏,而且我還沒有找到能夠很好地處理Office 2007和Office 2010擴展的庫(請在註釋中指向一個如果你知道一個!)

如果您有一臺運行Microsoft Office的PC,則可以使用win32ole從unix控制Office應用程序。我用Ruby做之前: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html

下面是使用Win32 OLE Perl模塊: http://metacpan.org/pod/Win32::OLE

我個人不推薦OLE方法,因爲它有很多頭疼的(像你必須讓Office在PC上運行以使unix腳本可以正常工作,隨着您的PC使用補丁更新,Windows防火牆將幾乎隨機地阻止unix腳本)。

我沒有試過,但這裏是一個將使用OpenOffice和Ghostscript爲你做批量轉換Java程序: http://www.codeproject.com/KB/java/PDFCM.aspx

1

作爲一個旁註,有一個實用程序稱爲xpdf converts pdf files to text。這是在Solaris上編譯的,儘管你必須從源代碼編譯(你可以從命令行調用該實用程序)。我用過它,它很棒。

更重要的是,它有一個修改版本converts pdf to html。這個我沒有測試過,但可能值得一試。

1

爲Excel中爲HTML - >你可以使用exceltohtml

需求以下模塊:

use Spreadsheet::ParseExcel; 
use File::Find ; use Cwd ;