2013-07-01 65 views
1

我有一個特殊的問題,因爲我必須從word文件中提取信息。例如說我有一個簡歷和需要提取nameemail addressphone no.addressuniversityExperience必須從word文件中提取數據

每個其他人可能有不同format.So自己的簡歷有沒有什麼辦法讓我可以以編程方式提取我需要的信息?

我需要這些信息來填寫註冊表單。

+0

下Voter..Please給我解釋一下你爲什麼要放棄減1 –

回答

1

使用aspose.net將word文檔轉換爲html。
然後,您可以使用正則表達式來搜索單詞和/或pdf文檔。
或者您可以使用HTMLAgilityPack解析創建的HTML文檔,並搜索特定的章節/路徑。

PS:
如果你有一個短於一頁的電子郵件正則表達式,那麼正則表達式是不正確的。
只要您只需支持一個國家,手機應該可以管理。
至於姓名和地址,祝你好運。

編輯:
像這樣

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx") 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html) 

C#:

Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx"); 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html); 

組件是在這裏:
http://www.aspose.com/.net/word-component.aspx

要找出一個有效的電子郵件地址是什麼,讀RFC 822:
http://www.faqs.org/rfcs/rfc822.html

+0

我如何轉換Word文檔到html..I我嘗試就是System.IO.StreamReader –

+0

@sangram帕爾馬閱讀:加:) –

1

即使一開始你可能會通過使用COM互操作和Asp.net的想法所吸引,不這樣做。

http://support.microsoft.com/kb/257757

這就是說,要知道哪個版本的Word,我們談論的是很重要的。較新的格式允許將它們視爲包含xml文件的zip文件,並且有免費的免費庫。

http://docx.codeplex.com/