爲什麼芝麻限於150m三倍？

我不完全說它是有限的，但只要我能看到給出的建議就是「如果你需要超越，你可以改變後端存儲......」。爲什麼？爲什麼芝麻不像OWLIM或Allegrgraph那樣有效率超過150-200m三倍。爲實現這一目標而實施了哪些優化？基礎數據結構有何不同？爲什麼芝麻限於150m三倍？

來源

2013-03-30 Todor Kolev

重複http://answers.semanticweb.com/questions/21881/why-is-sesame-limited-to-lets-say-150m-triples –

通過@Jeen Broekstra在這裏找到答案： http://answers.semanticweb.com/questions/21881/why-is-sesame-limited-to-lets-say-150m-triples

構成一個RDF陳述（也就是主語，謂語和對象）在一個相對簡單的哈希被索引的實際值，將整數ID映射到實際數據值。此索引執行大量內存中緩存來加速查找，但隨着存儲大小的增加，緩存中不存在值且需要從磁盤中檢索值的概率（在插入或查找過程中）會增加，並且此外隨着散列大小的增加，磁盤上查找本身變得更加昂貴。

爲了最大限度地利用B樹節點的檢索速度，對本地存儲中的數據檢索進行了平衡，以最大限度地利用文件系統頁面大小。此優化依賴於重複使用相同數據塊的連續查找，以便可重用OS級頁面緩存。然而，隨着交易規模（以及B樹）的增長，這種啓發式開始更加頻繁地失敗。

隨着B型樹的規模不斷擴大，大型連鎖分裂的可能性也隨之增加。

來源

2013-05-26 16:57:44

的請注意，你應該張貼的關鍵部位的答案在這裏，在這個網站上，或者你的崗位風險被刪除[請參閱常見問題解答，它提到的答案只不過是一個鏈接。]（http://stackoverflow.com/faq#deletion）包括鏈接，如果你願意，但只作爲'參考'。答案應該獨立，不需要鏈接。 – Taryn

爲什麼芝麻限於150m三倍？

回答

相關問題