我一直在閱讀文檔,但我無法確定批量加載的一般準則。在graphdb中批量加載的最佳設置
據我可以看到批量加載數據的最佳方式進graphdb是通過使用LoadRDF tool。
然而,適當設置的一般規則並不熟悉我。 首先,如果您有一臺帶SSD驅動器的「平均」服務器,哪種解析速度可以接受? 1.000個報表/秒,10.000個報表/秒,還是更多或更少?
還有什麼好設置?例如,你可以設置默認200.000條語句的-Dpool.buffer.size,但是如果你有10g的RAM,那麼增加這個條件的經驗法則是什麼,如果你有100或300條RAM的演出呢?
另一種選擇是-Dinfer.pool.size因爲存在具有最小的4。因此1芯= 4個線程的CPU和32個核心是32個線程被設置爲最大的線程。我認爲這不需要任何額外的調整,或者只有在您想要減少CPU負載並且不會超調才能說64個線程的情況下(如果您有32個內核的話)。
也有CONFIGS提供額外的選項,通過與實例烏龜文件/模板其中或許owlim:緩存內存和owlim:元組索引內存可以加載過程中有用的,其它設置更多有用爲裝載後?
最終它也很重要,如果你有單獨的文件,而不是一個大烏龜文件100的和/或不壓縮文件提高加載速度還是它只是降低了初始磁盤使用情況?對於我個人而言,我目前已經設置了290GB RAM和32核心以及1.8T RAID 0 SSD驅動器(其將在加載後具有備份),並嘗試從SSD到30億三元組的初始負載相同的SSD,每秒鐘16.461條語句的全球速度將需要一段時間,但我不確定是否以及如何改進。