2012-10-02 128 views
1

我寫一個C#asp.net web應用程序接收簡歷的各種格式的文檔,即,DOCX,PDF,文本等從各種文檔類型

我在想,如果有一個簡單的方法,我上的文字可以從文檔中刪除某些信息,無論它是什麼文件類型,然後將編輯後的文件傳遞給最終用戶?

被刪除的信息將在一個字符串

+1

不,沒有簡單的方法來做到這一點。 – jrummell

回答

2

您需要解析使用單獨的API每種文件類型進行。

+0

我認爲這將是這種情況 –

+0

您可以創建一個抽象基類,稍後實現處理不同類型文檔所需的方法。 – Oscar

+0

這肯定是最簡單的方法來實現這一點。 –

0

如果你使用一個StreamReader(http://msdn.microsoft。您可以使用ReadToEnd函數將所有內容存儲在一個字符串中,然後使用該函數:

MyString.Replace("Something to replace", ""); 

刪除匹配項。如果文件格式不能作爲字符串讀入,則必須考慮不同的選項。但是,考慮到文件格式,可能會有更快的解決方案,並且可能不會簡單地存儲。

+0

與此問題是.doc文件可能會在您正在搜索的字符串中間有標記。在Word中以「要替換的東西」的形式呈現的文本可能不會作爲「要替換的東西」存儲在.doc文件中。 –

+0

DOCX是一個包含XML的壓縮文件。 PDF和DOC都是二進制格式。我認爲這種方法可能會失敗... –

+0

夠公平的,我想你可以讀取字節數組並嘗試從那裏解析,但這不是一個簡單的解決方案:p – Corey