2017-04-07 51 views
0

所以,我有一堆需要清理的.csv文件。他們都需要經歷相同的步驟,所以我已經提取了OpenRefine的操作歷史記錄,以便將其應用於其他人。在OpenRefine中批量編輯

我可以在OpenRefine中逐一打開每個文件並應用提取的JSON歷史記錄。但有很多文件...

另外,我沒有足夠的內存在OpenRefine(打開文件時選擇多個)一次全部打開它們。

有沒有什麼辦法可以編輯它們全部或自動使用從OpenRefine提取的JSON?

回答

1

這就是我們的,創建BatchRefine README應該是p retty很明顯。如果沒有,請告訴我。

我剛剛使用BatchRefine將400萬條CSV記錄轉換爲RDF,這使我在MacBook Pro上花費了不到10分鐘的時間。

我執行BatchRefine這個簡單的shell腳本:

#!/bin/bash 

for file in ./input/*.tsv 
do 
    filename=$(basename "$file") 

    if [ ! -f "target/"$filename"-transformed" ] 
    then 
    echo Processing $filename... 
    curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json' 

    else 
    echo Found "target/"$filename"-transformed", skipping $file 
    fi 
done; 

請注意,您需要調整Accept頭中的腳本,我想你想CSV作爲再次輸出,而不是RDF。