我有很多文本文件。在每個文本文件中,有一個感興趣的部分(如下):在stringr中使用str_match
<tr>
<td ><b>發起時間</b></td>
<td colspan="2" style="text-align: left">2015-04-08</td>
<td style="width: 25%;"><b>回報機制</b></td>
<td colspan="2" style="text-align: left">使用者付費</td>
</tr>
跨文件變化的信息僅爲日期。在這種情況下,日期是2015-04-08
。
我想提取日期。我是R用戶,通常我會使用stringr
包中的str_match
。我會指出以下作爲字符串的開頭:
<td ><b>發起時間</b></td>
<td colspan="2" style="text-align: left">
但是,我不知道該怎麼做,因爲該字符串分佈在兩行。我能做什麼? (它也包含了中國字,但這是另外一個問題)
但我不知道怎麼做,因爲
我建議,如果您的日期格式更改嘗試正則表達式。你可以通過這個鏈接瀏覽初學者:https://www.regular-expressions.info/rlanguage.html –
如果你解析HTML,我建議使用'rvest'來提取表標籤之間的文本。那麼你不需要擔心額外的HTML。 –