0
我有一個關於並行化的問題:有關並行化任務的問題
我有兩個數據集。數據集1有m行和k列,數據集2有n行和k列。(m> n)我的程序從文件中讀取這些數據集並將它們存儲在內存中。任務是獲取Dataset1的每個實例(我們稱之爲查詢實例)並與Dataset2的所有實例進行比較。
現在我的問題是:
- (選項1)我應該分割Dataset2到分區的X數量以及每個查詢分配給工作線程的x數量的分區(這意味着,與比較(數據集2中的查詢實例)數據集1 或
- (選項2)我應該從數據集1中獲取x個實例,將x個工作線程同時分配給查詢數據集2。
哪一個會更有效率? //順便說一下,我目前使用PThreads庫。
只是要清楚,你基本上是問是否分割更大或更小的數據集? – phoebus 2009-09-25 08:24:16
沒有不完全。我的問題是,要麼分區數據集2(小數據集)並行處理這些分區,要麼同時查詢大數據集的每個實例的小數據集。只需要分區或不分區。 – systemsfault 2009-09-25 08:34:01