編程ARM11MP VFPU,我看過了的文檔,並很擔心,做了4組分點產品時(如4x4矩陣乘法的一部分)以下ARM指令集是否會生成暫停?
fmuls s0, s0, s4
fmacs s0, s1, s5
fmacs s0, s2, s6
fmacs s0, s3, s7
是否accumuate下面將嚴重停滯在這裏產生攤位?如果是這樣,我將不得不真的改變一些東西,因爲我只有32個單獨的寄存器可以工作,然後就是9個。另外,我可以在1條指令中設置向量寄存器來完成此操作,但是我想知道3個指令週期是否值得,因爲除非我溢出到ARM寄存器,否則我幾乎不得不立即將其存儲回存儲器。在這裏沒有我真正的SO帳戶在這裏發佈...
你擔心s1`和`s5`的乘法不能開始,直到先前加到`s0`完成爲止? – Gabe 2010-12-05 20:10:41
更正,或s2,s6與s0 accumulate或... – 2010-12-05 23:05:26