2009-10-16 118 views
0

有沒有什麼辦法從.doc中提取超鏈接?我在我需要導入數據庫的文檔中有一堆超鏈接。從.doc中提取超鏈接

我試圖轉換文檔到HTML,但超鏈接不轉移。

Regardz, 姆拉登

回答

0

我做了以下事情。我已經用officeXP打開了.doc文件,然後將其作爲博客發佈,之後我以過濾的網頁形式保存了該博客。這給你很好的HTML,你可以輕鬆解析。

2

我們也有類似的問題,結束了使用所謂的使用Aspose.Words第三方組件。 您可以在這裏找到它:http://www.aspose.com

它可用於.NET和Java。

+0

哇,我想這一定是新的。幾年前,我搜索並搜索了一個不需要安裝Microsoft Office的解決方案。但是我找不到任何東西,所以我不得不使用Office自動化。我想這有點昂貴,但我更願意使用這樣的組件。 – 2009-10-16 22:19:20

+1

我可以爲Aspose.Words擔保。它爲我們節省了數百小時的開發時間,並使我們能夠動態地創建Word文檔,超越通過簡單郵件合併完成的工作。我們也使用它來剝離Word文檔中的所有文本以進行索引。如果您必須使用許多MS Word文檔,我強烈建議您使用該產品。它也處理RTF,這是一個獎金。 – 2009-10-16 22:24:41

0

你可以試着將文件導入到OpenOffice和看超鏈接是否被轉移。 OpenDocument只是一個帶有XML的ZIP文件,一旦掌握了它就很容易解析。

0

我知道這是你最初的問題後幾個月,但是,你也可以在.doc文件中穿過的Word自動化提取超鏈接。 API中有超鏈接對象,您可以輕鬆提取。