2013-03-30 40 views
3

我不完全說它是有限的,但只要我能看到給出的建議就是「如果你需要超越,你可以改變後端存儲......」。爲什麼?爲什麼芝麻不像OWLIM或Allegrgraph那樣有效率超過150-200m三倍。爲實現這一目標而實施了哪些優化?基礎數據結構有何不同?爲什麼芝麻限於150m三倍?

+0

重複http://answers.semanticweb.com/questions/21881/why-is-sesame-limited-to-lets-say-150m-triples –

回答

3

通過@Jeen Broekstra在這裏找到答案: http://answers.semanticweb.com/questions/21881/why-is-sesame-limited-to-lets-say-150m-triples

  1. 構成一個RDF陳述(也就是主語,謂語和對象)在一個相對簡單的哈希被索引的實際值,將整數ID映射到實際數據值。此索引執行大量內存中緩存來加速查找,但隨着存儲大小的增加,緩存中不存在值且需要從磁盤中檢索值的概率(在插入或查找過程中)會增加,並且此外隨着散列大小的增加,磁盤上查找本身變得更加昂貴。
  2. 爲了最大限度地利用B樹節點的檢索速度,對本地存儲中的數據檢索進行了平衡,以最大限度地利用文件系統頁面大小。此優化依賴於重複使用相同數據塊的連續查找,以便可重用OS級頁面緩存。然而,隨着交易規模(以及B樹)的增長,這種啓發式開始更加頻繁地失敗。
  3. 隨着B型樹的規模不斷擴大,大型連鎖分裂的可能性也隨之增加。
+0

的請注意,你應該張貼的關鍵部位的答案在這裏,在這個網站上,或者你的崗位風險被刪除[請參閱常見問題解答,它提到的答案只不過是一個鏈接。](http://stackoverflow.com/faq#deletion)包括鏈接,如果你願意,但只作爲'參考'。答案應該獨立,不需要鏈接。 – Taryn