2008年1月9日水曜日

あへあへ2

ちっと8800GTでのシミュレーションをいじくってたら、blockの同期がかなりまともな速さでできるようになった。どうも一つフラグのメモリ領域に、多数のスレッドからのアクセスが集中する状況になるようなあほコードに原因があった模様。あほあほ。アクセスがバラけるようにちこっと変えたら解決。こういうのはセオリーというか常識なんだろうか?うーむ。

blockの同期は全然いける。nvidiaさん、文句いってごめんなさい。こんなんできるということは、blockの同期用のAPIがひょっとして用意されてるのか?

ところで、シミュレーション時の浮動小数点数演算性能を軽く見積もってみた。結合はなし。指数関数をどう換算するかが難しいのだが、8倍のclock cycleがかかるので大雑把に10倍の10FLOPSとして計算した。そうすると約600GFLOPS。本当?そんな出てるの?

0 件のコメント: