我有一個特殊的問題,因爲我必須從word文件中提取信息。例如說我有一個簡歷和需要提取name
,email address
,phone no.
,address
,university
,Experience
等必須從word文件中提取數據
每個其他人可能有不同format.So自己的簡歷有沒有什麼辦法讓我可以以編程方式提取我需要的信息?
我需要這些信息來填寫註冊表單。
我有一個特殊的問題,因爲我必須從word文件中提取信息。例如說我有一個簡歷和需要提取name
,email address
,phone no.
,address
,university
,Experience
等必須從word文件中提取數據
每個其他人可能有不同format.So自己的簡歷有沒有什麼辦法讓我可以以編程方式提取我需要的信息?
我需要這些信息來填寫註冊表單。
使用aspose.net將word文檔轉換爲html。
然後,您可以使用正則表達式來搜索單詞和/或pdf文檔。
或者您可以使用HTMLAgilityPack解析創建的HTML文檔,並搜索特定的章節/路徑。
PS:
如果你有一個短於一頁的電子郵件正則表達式,那麼正則表達式是不正確的。
只要您只需支持一個國家,手機應該可以管理。
至於姓名和地址,祝你好運。
編輯:
像這樣
VB.NET:
Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);
組件是在這裏:
http://www.aspose.com/.net/word-component.aspx
要找出一個有效的電子郵件地址是什麼,讀RFC 822:
http://www.faqs.org/rfcs/rfc822.html
我如何轉換Word文檔到html..I我嘗試就是System.IO.StreamReader –
@sangram帕爾馬閱讀:加:) –
即使一開始你可能會通過使用COM互操作和Asp.net的想法所吸引,不這樣做。
http://support.microsoft.com/kb/257757
這就是說,要知道哪個版本的Word,我們談論的是很重要的。較新的格式允許將它們視爲包含xml文件的zip文件,並且有免費的免費庫。
下Voter..Please給我解釋一下你爲什麼要放棄減1 –