2011-09-15 29 views
-1

我有以下的文本文件:解析或數據庫中提取輸入數據

VERDICT: 
MR. FOREMAN: Guilty.   
THE COURT: Accused and, you have been found guilty on the charges as you have heard the Foreman for the jury say. You are remanded. I have requested a probation report and you are remanded until sentencing, until the Court receives the probation report. 
THE COURT: Mr. Foreman and members of the jury, on behalf of the administration of justice 
THE CLERK: Joh Doe the jury have found you guilty. Have you anything to say before Her Ladyship, the Judge, proceeds to sentence you?      
SENTENCE: 
THE COURT: John Doe. 

我想使用的關鍵字,如判決,領班,法院,書記員,句子作爲標籤輸入此信息在數據庫中。請告訴我如何提取這些單詞以創建標籤以形成一個xml文檔以將其放入數據庫中。我一直在尋找使用正則表達式和數據提取,但我還沒有發現任何東西。

+0

您可能會有更好的運氣,顯示你至少已經嘗試了一些東西。 – JohnFx

+0

我確實嘗試過一些約翰...我創建了一個具有相同內容的xml文件,並使用sqlbulk複製代碼將其寫入到數據庫....但是,我手動創建了該標記...我想生成標籤,而不是... – Rose

+0

麻煩的是,你實質上是在要求某人爲你完成整個事情。顯示代碼或目前爲止的任何內容,並詢問有關您遇到問題的部分的具體問題。它現在閱讀的方式是「爲我工作」。沒有任何意圖,只是想幫助你得到有用的答案。 – JohnFx

回答

0

您是否有預期標籤的列表?

  • 如果是,哪部分不清楚?
    • 只是從XML中提取所有相關的字符串(使用任何解析器,你沒有提到的語言,所以不能舉例)。
    • 應用包含允許標記的regEx,如果匹配,則添加標記。
    • PS:如果您有太多標籤和/或太多數據來處理將一個regEx /標籤應用於每個輸入字符串可能不是最高性能。
  • 如果不是,那麼我想你應該假設一些單詞是標籤並添加它們。雖然我不喜歡這個想法(通常我會希望用戶思考並給我標籤,他想標記他的輸入),我能想到的一種方式是製作一個你不想用作標籤的單詞列表(例如「和」,「或」,「我」,「我們」...),使用regEx替換刪除所有這些字詞,取其餘字