0
很多時候我們需要提取一個大的隨機樣本dataset
?在openrefine
上做什麼最好的方法是?這對於在R
和Python
中用於執行此操作的從業人員可能很有用。如何在Openrefine中製作隨機樣本?
在此先感謝您的任何建議!
很多時候我們需要提取一個大的隨機樣本dataset
?在openrefine
上做什麼最好的方法是?這對於在R
和Python
中用於執行此操作的從業人員可能很有用。如何在Openrefine中製作隨機樣本?
在此先感謝您的任何建議!
Open Refine並沒有內置函數,但您可以使用Python/Jython創建一個隨機整數的新列。例如,如果你有10萬行:
import random
return random.randint(0, 100000)
然後,您可以在此列進行排序,永久地重新排序行,並選擇例如第一千與自定義文本方面:
row.index < 1000
編輯:我忘記了@OwenStephens的this extension增加了一個randomNumber GREL函數。隨意安裝它。
這有很大的幫助。再次感謝!埃託雷! –
不客氣。回答編輯的方式。注意:如果您有關於OpenRefine的具體問題,您也可以在專門的[Google小組]上(https://groups.google.com/forum/#!forum/openrefine)提問。 –