2014-01-22 73 views
1

我已經颳了一堆信息,並且需要將它組織成幾個字段。唯一的問題是在信息之前沒有特定的標題來標識它並創建一個模式和匹配器。我在下面列出了2組數據的信息。如圖所示,標識符只是「左」或「中」,表示它們在屏幕上的位置。通過在每個數據集的每個字段中添加,將每組數據搜索和組織爲CSV的最佳方法是什麼? AFER「左」>或「center」>來通過模式組織文本的最佳方式?

<td align="left">ERIK DAVIDOVIC, ET AL </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center"> 
         <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798497</a> 
        </td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td> 
     </tr><tr style="background-color:Gainsboro;"> 


      <td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center"> 
         <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798498</a> 
        </td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td> 
     </tr><tr style="background-color:LightGrey;"> 

回答

0

您可以使用解析器像http://jsoup.org/來解析HTML文件,並使用選擇提取信息,將需要保存的數據將是一切。

希望它有幫助。

0

實際上,這是一個相當結構化的表格。

,你應該能夠解析在<td..>知道,一個新的值開始,然後開始一個新行的<tr>

你只指望你是哪個<td>對行內知道哪一列該值代表。

+0

我會用什麼類或類來做到這一點?模式和匹配器?如果是這樣,我需要使用幾個模式分隔符?可能是 – Ctech45

+0

。您可以使用對中的一個模式 - 即=一行,然後在該循​​環內使用​​組的另一個模式 – Randy

相關問題