我需要添加一堆word文檔到維基,但想要清理生成的html,所以理想情況下我有文本和圖像標籤......任何人都面臨挑戰? :o)去除格式化Word文檔而不是圖像?
如果解決方案涉及到使用文本編輯器並在其上做一些「體操」,那就沒問題。
我需要添加一堆word文檔到維基,但想要清理生成的html,所以理想情況下我有文本和圖像標籤......任何人都面臨挑戰? :o)去除格式化Word文檔而不是圖像?
如果解決方案涉及到使用文本編輯器並在其上做一些「體操」,那就沒問題。
我會將文本複製出Word並粘貼到記事本中,然後手動將我的圖像輸入到Wiki文檔中。
這不是一個有效的解決方案。隨着文件加載圖片hundres - 手動插入是不行的。可以做一些高級的文本編輯或者使用例如應用程序的應用程序。 VSTO,通過保存爲過濾的html文件並修正圖像鏈接以適應wiki文件結構來運行... – noesgard 2009-10-16 06:07:34
嗨,我已經與Open XML一點點。
您可以循環查看每個段落的單詞文檔並將每個元素轉換爲文字控件。或者你也可以使用LINQ來過濾特定的節點集。您也可以將您的word文件作爲XML節點集處理,然後使用XPath,LINQ to XML,DOM進行導航。
只需嘗試使用SDK下載Open XML工具集,並開始查看文檔內部。
Textism工具似乎可以工作(第一個去掉圖像標籤),儘管當文件大小超過20kB時,它是付費服務。 JavaScript可能也有幫助:o) – noesgard 2009-10-16 07:29:42