2011-10-20 42 views
3

通常我在用grep -r --color word /path/dir進行搜索,但是這對二進制文件不起作用。所以我想編寫一個類似Perl的腳本。因此,我正在搜索一個可以在Linux機器上讀取doc-files的模塊(可能類似於Spreadsheet :: ParseExcel for ms-word-documents)。有沒有一個模塊在Linux上搜尋msword doc-files?

+0

轉換您要求,究竟?請記住,.doc文件和較新的.docx文件是非常不同的文件格式。所以即使你發現了一個可以解析.doc文件的Perl模塊,它也許不支持.docx文件。 – knb

+0

他們是'.doc'文件。 –

回答

3

有很多文字轉換器(如antidoc,wv,catdoc,unoconv ...)。你可以通過他們的輸出grep。這也是msysgit爲編錄doc文件所做的。

1

沒有試圖聽起來那麼尖銳,這是使用閉源專利文檔的危險。您可能會被開發人員提供的工具卡住。

你的實際問題,有幾件事情可以做:

  1. 打開該文件,並保存爲RTF(富文本)甚至以純文本格式,這應該是更多的搜索。
  2. 公開賽的LibreOffice(在Oracle收購之前叫做OpenOffice的強制叉),這可能會允許更多的自定義搜索(如果有人提供了這樣一個插件),或可用於哪些是通過方法1
相關問題