我有一個來自Stack Overflow的大量數據,它是通過使用數據瀏覽器查詢數據庫而獲得的。在PIG中從CSV中的數千行中刪除HTML標記
我正在將數據加載到HDFS中,並且我想使用pig刪除某列中每一行的所有HTML標記。
在加載數據之前,我嘗試了一個Ctrl F並用「」替換所有「< *>」,但Excel無法爲250000行數據執行此操作並崩潰。
我怎麼能去養豬這樣做,到目前爲止,這是我這是不是有很多:
StackOverflow = load 'StackOverflow.csv' using PigStorage(',');
noHTML = FOREACH StackOverflow REPLACE(%STRING%, '<*>', '""')
我可以在%字符串%使用什麼參數告訴PIG,爲做到這一點每一行?