所以,我有一堆需要清理的.csv文件。他們都需要經歷相同的步驟,所以我已經提取了OpenRefine的操作歷史記錄,以便將其應用於其他人。在OpenRefine中批量編輯
我可以在OpenRefine中逐一打開每個文件並應用提取的JSON歷史記錄。但有很多文件...
另外,我沒有足夠的內存在OpenRefine(打開文件時選擇多個)一次全部打開它們。
有沒有什麼辦法可以編輯它們全部或自動使用從OpenRefine提取的JSON?
所以,我有一堆需要清理的.csv文件。他們都需要經歷相同的步驟,所以我已經提取了OpenRefine的操作歷史記錄,以便將其應用於其他人。在OpenRefine中批量編輯
我可以在OpenRefine中逐一打開每個文件並應用提取的JSON歷史記錄。但有很多文件...
另外,我沒有足夠的內存在OpenRefine(打開文件時選擇多個)一次全部打開它們。
有沒有什麼辦法可以編輯它們全部或自動使用從OpenRefine提取的JSON?
這就是我們的,創建BatchRefine README應該是p retty很明顯。如果沒有,請告訴我。
我剛剛使用BatchRefine將400萬條CSV記錄轉換爲RDF,這使我在MacBook Pro上花費了不到10分鐘的時間。
我執行BatchRefine這個簡單的shell腳本:
#!/bin/bash
for file in ./input/*.tsv
do
filename=$(basename "$file")
if [ ! -f "target/"$filename"-transformed" ]
then
echo Processing $filename...
curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'
else
echo Found "target/"$filename"-transformed", skipping $file
fi
done;
請注意,您需要調整Accept
頭中的腳本,我想你想CSV作爲再次輸出,而不是RDF。
您可以自動使用現有的圖書館之一某些OpenRefine操作: