プティタイジュ さん 2000年 05月 12日 00時 59分 46秒

うるりさん、わざわざ解析と解説おつかれさまです(TwT)
というか、早過ぎ(^^;
キャッシュを考慮してあるということから
まず間違いなくmallocに相当するAPIでひとつバーンと確保して
それを手動で分けてるに違いないと見た!(一応確認もしました。)
#16進数表示くらいならasmでも(floatは(TwT))
ま、これをやると普通は「反則だ!」だの「足りてないやん」だの
「プ引っ込め!」など散々なところですが、
>配列の順番
と書いてくださってるところがナイス(>w<)です。
なお、たまたまやって来たプファンでない人は
#しつこい(^^;
このニュアンスの違いと、
普通にCから直すとFFTはAOSでいくつレジスタが必要か、
を考えていただけるとうれしかったり(^^;

>仕様は、
そうかぁ。やはり基数4とはあれのことだったか!(^^;
あと、バタフライ数って何の事を言ってるのか教えてください(^^;

うるり さん 2000年 05月 11日 09時 10分 07秒

>とりあえずアップぅ。
ソースを覗きました。
SOAでの変数節約のミソは、
「各配列のデータ領域の後ろには1024バイト分の
余分な空間をとってあります。」(f3.hlpより)
の部分ですね。(例、reInitData[n+256]=imInitData[0])
#f3.hlpでは配列の順番について定められていない
#という事は気にしないことにしよう^^;

仕様は、
時間間引きの、基数2(始めの2段のみまとめる=基数4)、
バタフライ数1。
ビット反転整列はテーブル使用のプティタイジュ版(?)
ですね。

fftのループ構造がわかりにくいのは、ループ毎に
増加する変数と、減少する変数の両方があるからだ
と思います。
分岐予測にとっても嫌な感じでしょうか^^;

#itanium
http://developer.intel.com/design/ia-64/

うるり さん 2000年 05月 10日 16時 39分 14秒

プティタイジュさんアドレスが分かりませんよ^^;
http://www.e-net.or.jp/user/taiju/
中身は家に帰って見てみますね。
#トップ絵が見れないのは気の性かな?

へるみさん
私も落ち着ける時間が無くて、なんかダメです。
アセンブラからは離れつつあるのでネタの提供は難しいかも知れません^^;
#早くも気分は五月病?

プティタイジュ さん 2000年 05月 09日 23時 34分 46秒

へるみさんにとりいるチャンス!(>w<)なのに
いいネタを思いつきません(TwT)

ここ数日、ちょっと直すだけなのに、なんだか大変でした。
とりあえずアップぅ。
よろしければ感想をお聞かせください。
#期間限定で「お詫びトップ絵」になってます

へるみ@多忙につきへたってます さん 2000年 05月 08日 16時 20分 04秒

うるりさん
>BBSまであるとは知りませんでした^^;
最近閑古鳥なのでネタ提供して下さい(^^;
#やりたいことはいろいろあるんですけど時間が...

うるり さん 2000年 05月 08日 05時 21分 46秒

>ハードでFFT
やっぱり専用に作ると、ソフト的にやるより速いのでは?^^;

>もうひとつレジスタ減らせるからOK!
なぜ、そんなにSOAでレジスタが余るのかが不思議です。
It'sプティタイジュマジック?

>なによりSSEパッチをあっさり当ててしまわれるのがステキです。
高速化のため(趣味のため?)には手段を選ばないのが
ステキだと思います^^;

#へるみさんの「刹那におけるささやかな考察とその実践
」が
#面白いです。BBSまであるとは知りませんでした^^;
http://homepage1.nifty.com/herumi/

>ははぁ、戦の景気づけに鳥肌の立つようなCのコードが
>見たいというわけですね。
ということで、酔漢さんぜひお願いします(笑)

>大きなNのFFTの使い道
ちょっとした感じの面白い使い道はなさそうですね。
合成開口レーダーが例に出てくるあたりが、さすが
酔漢さんという感じがします^^

#k6-2/III+のデータシートが出ています。
http://www.amd.com/K6/k6docs/
一部に、MMXEをサポートしているかのような
誤植があるみたいです^^;(23015.pdfのp53)
#何となくBIOSが対応していなくても差せば
#動きそうな気がします。
#自爆覚悟で試してみたい気がします^^;

プティタイジュ さん 2000年 05月 07日 23時 50分 17秒

はずしてそうで(*w*)なのですが
ゲートアレイ(?)でFFTの回路作ったとして
現時点の最高速CPUより速いものは期待できるものでしょうか?
#前に酒居さんが寛大にも「作らせてあげます」と言ってくださってたような(^^;
どちらにしろハードウェアもVHDLも分からないので僕には無理なのですが・・・

m(_ _)m
酒居さま、プはずっと漢字を間違えていたことに気が付いてませんでした。
すみませんでした(TwT)
知り合いは酒井さんなのでつい・・・
それにWindowsの変換が・・・
#言い訳がえんえんとつづく
プティタイジュのバカバカ!(>w<)
大変なご無礼をお許しください。

某ソフトはSMP+SSEで約60%アップ!ですか!
なによりSSEパッチをあっさり当ててしまわれるのがステキです。
#・・・挫折しました(TwT)

プティタイジュ さん 2000年 05月 05日 00時 28分 38秒

話が進みまくってた(^^;

SOAでもレジスタは足ります。ほらこのように、
「・・・あれ?」
「だめか?」
「・・・と思ったけど、もうひとつレジスタ減らせるからOK!(>w<)」
えーと、完成してたSSE版はちょっと失敗だと今気付いたので修正します。
この際基数2ではダメなようなので、もうソースを出そうかとも
思うのですが、やっぱり本選までやめておいた方がいいでしょうか?

>基数2のSSEと基数4のCで、Nが大きいとCの方が
>速いという結果
これについてはよく分かってないのですが
ビット反転&コピーについては、僕のコードでも
上書きビット反転よりコピーした方が速くなってます。
#大浦さんの解説されてたビット反転をコピー対応にして
#自信あったんだけど・・・(TwT)
これは単にキャッシュのためでしょうけど
FFTまで入れた結果でCの方がSSEより速いのは・・・?
おそらくSSEの方がストールが大きいのだと思いますが・・・。
FFTは乗算と加減算のそれぞれが固まって計算しなければならないので
依存関係でまくりだし、各ループでのロードが
SSEは効率悪いと思います。
不必要に大き過ぎ(>w<)

今回は基数2の時間間引きとベーシックに作ったのですが、
#基数4は分からなかったともいう(^^;
やっぱり時間間引きより周波数間引きの方がいい気がしてきた・・・。
前はInitからResultへのコピー的に
周波数の方がいいと思いましたが、
ビット反転を時間の方でも使えるように解決した今では
各ループ内のルーチンでのストールの面から
やっぱり周波数のSplit-Radixです!(>w<)
#でもSplit-Radix分からない(TwT)

酔漢 さん 2000年 05月 04日 18時 45分 51秒

>言うわけではなくて、苦労してASM化した効果が
>あるかどうかを判断する基準として、C言語で参考に
>なりそうな記録をズドーンと立てて欲しいなぁという
>わけです^^;

ははぁ、戦の景気づけに鳥肌の立つようなCのコードが見たい
というわけですね。プさん、出番ですよ(他人事、他人事)

>Nが大きいときの話
とりあえずなぞですね。ポインタ数 vs キャッシュセット数は
ひとつの解釈だとは思います。

#ところで、大きなNのFFTって使い道あります?
さすがに100万を超えるようなNに関しては、PCで
の使い道は多桁掛け算くらいです。しかし、64K
とか256K程度でしたらそこそこ実用性はあります。
オーディオ帯域のFFTをやれば、1Hz単位で数百KHz
までのスペクトル解析を行えます。この場合特定
周波数を期って捨てることも出来ますので、全高
調波歪みの測定なども簡単です。

その他、合成開口レーダーの信号処理はFFTを
かけてスペクトル空間でやるそうなので、数十K
から数百KのNでのFFTを使うことになります。

研究用途が多いです。

うるり さん 2000年 05月 04日 08時 41分 38秒

>C言語とx87のアセンブラ
アセンブラでないと書けないもの(特殊なアルゴリズム、
特殊な命令)以外はあまりC言語とアセンブラの差は
出ませんね。
アウトオブオーダーとコンパイラ最適化が
相性がよいと言われることからも分かるように、
多少ダメな(?)コンパイラのコードでも最適に実行
されます。すばらしい^^
また、x87がスタック式なので前後依存性が断ち
切られたアウトオブオーダー向きなコードに
なってしまうことも差が出ない原因です。
良くも悪くもx87はスタック式なので書き方が
制限され、差が出ないということになりますね。
#Round2でも同じ事言ったかな?

>これまでわれわれは人間に有利すぎる土俵の上だったのかも
FPUとSIMDの差を見るという目的では、別に問題の
複雑さは関係ないような気がします。
簡単な方が、楽でいいですし^^;
あんまり難しい問題はSIMD化できませんから^^;
#2つの隣り合っている要素が同じように加工できる
#問題って、簡単な物が多いんだろうなぁ。

>少し基準を分ける理由がわかりませんので説明を
えーーっと、別にx87とSIMDで差をつけて比べようと
言うわけではなくて、苦労してASM化した効果が
あるかどうかを判断する基準として、C言語で参考に
なりそうな記録をズドーンと立てて欲しいなぁという
わけです^^;
#Cに負けると燃えるという話しもある?^^;

>Nが大きいときの話
これどうしてなんでしょうね?
基数を上げると、FFTの段数が減る->アクセスが
減るのと関係あるのかなぁ。
SOA時のキャッシュのセット数の問題もあるかも
しれませんね。
最近のCPUはキャッシュが性能発揮の上で重要なので、
よく考えないとダメなのかもしれないですね。
#ところで、大きなNのFFTって使い道あります?
#ベンチマークとか?^^;

>皆さんの検証が待たれます(他人の振り他人の振り)
あ”っ。逃げてる^^;

酔漢 さん 2000年 05月 03日 20時 29分 12秒

うるり国はロボット戦闘機も強いようで。実際のところ、
このくらい複雑な計算を持ち込まないとC言語の最適化器は
実力を発揮できないかもしれません。逆にいえば、これまで
われわれは人間に有利すぎる土俵の上だったのかも。ASMに
関しては、私もFPUコードの対C速度で苦い目にあっています。

>>SOAにしてもレジスタが足りる。

すごいです、それは。私も工夫はしましたがどうしても
カウンタが足りずメモリー上に置いています。SOAは
SIMD専用と考えています。

>「Cで参加の方おられませんか〜」
濃紺の制服のお姉さんに探してもらうと見つかるかな?

えーと、基準の話は私宛でしょうか? だとすると、
もう少し基準を分ける理由がわかりませんので説明を
お願いします。

Nが大きいときの話ですが、サーキット作成時に頭を
悩ませた問題があります。普通バッファは2の冪におき
ますが、そうするとNが大きいとき、SOAがAOSより著
しく不利になります。なぜかというと、ポインタの距
離がキャッシュサイズを超えると、キャッシュのセット
数を超えるポインタを使うとき、毎回パージとバースト
リードを繰り返すことになるのです。ですから、ポインタ
の数が多いSOAは不利なのです。これをいくらかでも
軽減するために、サーキットはバッファ間に恣意的に
ギャップを持たせています。

うるりさんが見つけたNが大きいときの振る舞いがこれに
あたるかどうかはわかりませんが、興味深い問題ですね。
皆さんの検証が待たれます(他人の振り他人の振り)


うるり さん 2000年 05月 03日 09時 04分 23秒

>pi
すごいですね。100万桁10秒。80億桁ですか。
最近この手の話を聞かないのは、
pi計算自体が廃れているのか。
マシンテストとしては無駄にサイズが
大きすぎるというところでしょうか?
#piって人を引きつける不思議な数字ですよね。

>初めまして(ではないか)
へるみさんは、Round1,2と参加してるじゃないですか^^;

>SOAにしてもレジスタが足りる
おっ。お得な情報ですか?
なにか面白い方法を見つけましたね。
# 謎の解説(^^;
#AOS-ArrayOfStructure(例、int*3 xyz[10])
#SOA-StructureOfArray(例、int x[10],y[10],z[10])
#で、x[i],y[i],z[i]がそれぞれ必要なときに
#AOSだとxyz[i]の周りにデータが固まっていますが、
#SOAだとバラバラにデータがあるためポインタが
#複数必要になります。そのため変数が増えて面倒です。

>Round3
「Cで参加の方おられませんか〜」
「俺のCは、お前のアセンブラより速いという方
おられませんか〜」
#以上、松坂君のCM風に^^;

話を元にもどします(笑)
x87での基準を作って欲しいわけでして、
1要素単位で計算できるx87と、幅が広いSIMDだと
x87の方がアルゴリズムを工夫しやすいんですよね。
x87だと出来てSIMDだと出来ない(使えない)方法も
あると思います。
で、制約のあるSIMDがx87より速いとは限らないわけで、
無駄な競争になるを防ぐために、x87の基準が欲しいなぁ
というわけです。
#実際、基数2のSSEと基数4のCで、Nが大きいとCの方が
#速いという結果がでてますし^^;
え?自分で作れ?
この手の物があんまり得意じゃないんですよね^^;
#午後では基数を2に下げてSSEに向くようにして
#上手にいきました。
#Nが小さいと基数の影響が小さいですからね。

プティタイジュ さん 2000年 05月 03日 00時 28分 26秒

むに!へるみさん!(☆w☆)
プだけ初めましてです。
いやぁ、ファン書き込みしとくものですね
#この調子でいくとディアナ様からお返事がきたりするかも(*w*)
「午後」はやっぱりひっくり返すと3時だからですか(?w?)
はうぁ!またフとした思いつきをよく考えずに書いてしまった。
今世紀最大の謎になってるんでしたね。
正しい答えは「プには内緒!ムフ〜ン」でいいです。すみません。

それにしてもpiの計算どうやってるのかを
考えまくる前に教えていただいてよかった・・・
また大ハマリするところだったからなぁ。

うるりさん>
くふぅ(>w<)
イヤー(>w<)
なっ、なんですか、あのCは!
僕のかなり最低な努力が一瞬で無駄になってしまったじゃないですか(笑)
誰もフォローしてくれないといけないので、
自分でフォローします。やめろと言われてもします。
皆様は分かってくださる(?)のでいいですが、
たまたまサーチにひっかかりやって来た一見さんに
「むに?プってたいしたことねーな」と思われるのは我慢なりません(>w<)
#「むに?」とは思わない
基数2のアルゴリズムレベルでは神業のはずです(TwT)
SOAにしてもレジスタが足りるというところが、ポイントだったのですが・・・

酔漢さんやうるりさん達の最適化能力に比べると、
プの最適化能力は明らかに落ちることはRound2で既に思い知ってます。
プは、むしろアルゴリズムレベルで闘っているだけです。
それでもまだプが基本を無視しているとお思いの方は
ちょっと基数4でもアセンブラでやってみてくださいよう。
基数2でもたぶん負けませんよ(>w<)
#これではずしたら、プかっこ悪ぅ(TwT)

で、もはやアルゴリズムをくずして最適化するしかないと思っていたところへ
やはりアルゴリズムが重要と人々に思わせるような、うるりさんの基数4(C)!
これはうるりさんだからですよ。・・・たぶん(ちょっと弱気)
このサーキットでの闘いは、もはや「ニュートン力学の通用しない最適化の領域」
に入ってますから。
実装する方がアルゴリズム考えるより、ずっと大変なんです(>w<)
それと、僕らはよくいるアセンブラ野郎とはちがうんです(>w<)
はぁ、すっきりした。

今のところ、SSE化の効果はイマイチです(TwT)
比較的並列性を「抽出」できるというのは、このサーキットの選手だからです。
アルゴリズムレベルで考えると、誰でも
「並列性ありまくりじゃねーか、プ!」と思いますが
実装段階で見事に裏切られました。
VTuneを使うまでもなく、ストールしまくりです。
しかたがないのでsplit radixでやり直します。
また何週間かかかりそうです。

酔漢 さん 2000年 05月 02日 23時 30分 18秒

へるみさん、お久しぶりです。旧姓(?)vです。

私がざっくりと考えたときは、拡張倍精度ならいける、
という感触がありました。はなっから単精度ではだめ
ですね。いずれにせよ、そこまで高速化しているなら
わざわざはじめる意味もないかもしれません。

スーパーπにどうしてみんながしがみつくのかいま
いちよくわかりません。

うるりさん、
「話の屑かご」は我ながらいい名前だと思ったのですが、
失敗でした。司馬遼太郎さんに同名の連作があります。
多分それが頭にのこっていたんでしょう

へるみ さん 2000年 05月 02日 20時 12分 15秒

初めまして(ではないか)
piはniftyの人が凄い桁を計算してます。
詳しい情報はまたいずれとして、最近の高速マシンで100万桁10秒。
桁数の方では80億ぐらいまで。普通のFFTだとdoubleの精度では不十分に
なりつつあり、SSE, 3D Now!の出る幕ではないかも:)
#大浦さんのFFTを3D Now!で書いてみたことあったのですが、π計算では
#遅くなりました(^^;
スーパーπは過去の遺物です。

うるり さん 2000年 05月 02日 04時 13分 09秒

>pi
説明が「話の屑かご」に入っちゃってますね^^;
私は、たすき掛け時の誤差混入が気になります。
#最近はどんな式でpiを計算しているのでしょうね。

>FFT自身は手付かずですよ。
改良の余地はまだありそうですね。
掲示板で敵味方あわせて撃墜しておきました^^;

酔漢 さん 2000年 05月 01日 20時 17分 20秒

>pi
FFTの精度は重要な課題です。多桁の掛け算をFFTで行う
ときの精度の問題は、以下で極ざっくりと論じています。

http://homepage1.nifty.com/murasakigawa/tech/etc/index.html

>#そろそろそれぞれの方法の限界が見えて来たでしょうか?
まだまだ。私のコード、FFT自身は手付かずですよ。

うるり さん 2000年 05月 01日 18時 52分 35秒

>pi
FFTして精度大丈夫ですかね?
Nが大きいとそれなりに誤差が入って来るように
思いますが.

>Round3 迎撃用コード
キャッシュ制御が邪魔しているのでNが小さいときに
限定すればもうちょっと速くなります.
N=1024あたりだとキャッシュ上で計算できますから.

>FFTには決定的にレジスタが少ないので
SOAなのでとても辛いです^^;

>とりあえずうるり国戦闘機は横目でにらんどきます
そのうち撃墜する気ですね^^;
決定的に逃げれる方法を探さないといけないなぁ.
#そろそろそれぞれの方法の限界が見えて来たでしょうか?

酔漢 さん 2000年 05月 01日 12時 23分 16秒

お、ついにプ国も戦闘機投入に踏み切りましたね。
うちのコードも動くようにしなきゃ。既存のFPUコード
に新開発ビット反転コードを付加してプ製戦闘機迎撃と
いきますか。

#とりあえずうるり国戦闘機は横目でにらんどきます(笑)

プティタイジュ さん 2000年 04月 30日 23時 18分 04秒

それじゃ僕も出しておきます。
ってことで、憩いの広場へゴー!
どうでしょうか?
強化人間プティタイジュは真のニュータイプであるうるりさんに
迫れてますでしょうか?

>Round2までは行きませんが、比較的並列性を抽出できるので、
>SSEがあまり不利になりません。
>よって、Athlonの3DNow!でないと無理ではないでせうか?
Athlonじゃないと無理でしょう。
しかしx86ではFFTには決定的にレジスタが少ないので
同じパイロットであればSSEより3DNow!の方が速度出せるはずです。
じゃあ、プがやれ!とか言われると困りますが(^^;

酔漢 さん 2000年 04月 30日 14時 04分 52秒

> pi
いやー、世界記録を打ち立てるにはどのくらいの計算量や資源が必要か
算定したかったんです。なかなかいい、頭のたいそうでしたよ。あと、
感触としては、決して非現実的ではないと思いました。PCメーカーか
CPUメーカーがその気になれば、数ヶ月で打ち立てられると思います。

ところで、世界記録とは言いませんが、どなたか今回の戦訓を生かして
PI計算プログラムに挑戦しません?>若い人

> Round3 迎撃用コード
43000サイクルかぁ。厳しいなぁ。

うるり さん 2000年 04月 30日 06時 37分 29秒

>プティタイジュさん
人並みに忙しかっただけです。別にボイコットはしてませんよ^^;
#VineLinux1.1がHDDからインストール出来ません^^;

>Round3
迎撃用コードをUPしたので撃墜されてください^^;
K6の3DNow!ではP6のSSEは撃墜できないと思います。
Round2までは行きませんが、比較的並列性を抽出できるので、
SSEがあまり不利になりません。
よって、Athlonの3DNow!でないと無理ではないでせうか?
今後は、基数を上げる方法を考えてみる予定です。

>pai
確かに、計算中の数値がすごい量になりますね。
暗号破りとは問題の性質が異なるのを忘れてました。
しかし、世界記録にこだわりますね^^;

プティタイジュ@ほっとひといき午後のティータイム さん 2000年 04月 28日 23時 43分 16秒

うう(TwT)うるりさんお久しぶりです。
書き込みペースがちょっと世の中の普通のペースに近づいてたので
「もしやプをボイコット?(TwT)」と
ビビリまくってました。

>私も迎撃用にとっていたSSEコードを近日DLLのみでUPします^^
む〜ん。それなら僕も近日Linux版のみで(>w<)・・・
ビット反転もナイスな方法を編み出しました!
#単なる改良という意見は却下します(^^;
FFTの方もイケてます。
#これだけ言ってはずしたら・・・

>データ長は、一千億桁をねらう時4千億から5千億バイトになります(笑)
・・・ですから、ここに暗号化技術を使ってですね(>w<)

酔漢 さん 2000年 04月 28日 12時 32分 25秒

◇分散π計算
計算そのものは分割できます。加減算はプロセッサエレメント(PE)間でキャリーとボローだけ制御するだけですから簡単です。問題は乗算で、これは一回毎にFFTとIFFTが必要です。分散FFTはPEで行うサブFFTの結果をバタフライでつなげていけばいいのですが、バタフライ演算時に保有する全データをネット上で転送することになります。分散数が増えるほどネット上のバタフライ段数は増えます。ちなみに、データ長は、一千億桁をねらう時4千億から5千億バイトになります(笑)結局ダイアルアップや広域ネットは仮定できないのです。

また、π世界記録の場合、データを一台のPC上に全部置く事はできませんから、暗号破りのような中央集権型分散計算ができません。それもネックです

◇Round3
3DNOW!が早いとはいえ、まだSSEに負けてます。きっとすべてを絞り取りきってないんだと思います。再加速のためのFFTアルゴリズム改良をすすめています。それが終わったらCPUごとに個別にあわせ込みをしたいです。

うるり さん 2000年 04月 28日 08時 29分 55秒

Duron・・・Athlonの廉価版.コードネームSpitfireの正式名.SocketA仕様.
グラフィックボードに比べてCPUはなんか弱そうな名前だなぁ.実際値段も安いか?^^;

>AMDファンリンク
えっ?AMDファンのページだったのですか?知りませんでした^^;

>分散して256台でπ計算世界記録に挑戦
今やネット時代です.某暗号解読みたいな方式をとればいいじゃないですか.
えーっと、計算を分割できましたっけ?無理だったかな?
とりあえず104万桁でSuperPIをぶっちぎりますか?^^;

>酔漢さん
さすがにK6での3DNow!使用によるブーストはすごいですね.
私も迎撃用にとっていたSSEコードを近日DLLのみでUPします^^
ビット反転整列・キャッシュ制御込みです.

#ここの管理人さんぼやきが更新されています(笑)

#CyrixIII
http://www.viatech.com/products/cyr3.htm
#Willamette
http://developer.intel.com/design/processor/future/manuals/index.htm
#P3B-F BIOS 1006 beta1ってのも出てますね.ASUSのBIOS更新持続はうれしいですね^^
#ブート時にESCでブートデバイスが選べたり、NCR-SCSIのBIOS補完みたいな機能もありますね>P3B-F

プティタイジュ さん 2000年 04月 28日 06時 33分 09秒

DURON DURON・・・
「持ちこたえる装置」ですか!?
なんていい響き(TwT)

報告シマス!
どすぶいマガジンのAMDファンリンクというページで
僕が「世界一ィィィ凄い人がいる」と思っているページ
(つまりココ(^^;)を発見しました!
新たにお越しくださった皆様、僕はぺんぺん3ユーザーですが
買ったときにはAthlonは出てなかったのですよう(TwT)
お許しをぉぉぉ!
Round3ではP!!!とAthlonの差が凄く出ると思うので
ご期待下さい(TwT)

>・・・が必要(笑)
スイッチングハぷぅ〜(TwT)

酔漢 さん 2000年 04月 25日 19時 03分 43秒

>分散して256台でπ計算世界記録に挑戦
酒井さん、へるみさん、大学の全システムを掌握してください(>w<)

書き忘れましたが、現実的な時間で終了させるためには
スイッチングハブとギガビットイサーネットが必要という
見積もりです(笑)

プ悪魔 さん 2000年 04月 25日 06時 16分 14秒

>分散して256台でπ計算世界記録に挑戦
酒井さん、へるみさん、大学の全システムを掌握してください(>w<)
でもやってしまうと、すさまじい技術レベルからして、
真っ先に疑われるでしょう(^w^)
ハッ!(☆w☆)
もっと身近なところにうるりさんがいらっしゃるではないですか!?
うるりさん、どうですか?
#悪魔のささやき

プティタイジュ さん 2000年 04月 25日 06時 07分 25秒

(?w?)今回は「プさん」じゃない・・・?

肝心な事を書き忘れてました。
BC++でインラインアセンブラを使うには
やはりTASMが別に必要みたいなのでした。
いまいち使えないかも。
#だいたい僕が「タダモノ」になってしまった原因のひとつは
#過去にこの某ランドの4.0に・・・(TwT)
でもベンチマークサーキットC言語部門とかあったらいいカモ。
Intel製ベクトルコンパイラの実力とか、
それを使いこなす能力とかで結構大盛況カモ。
#「生協大盛況」今日のしゃれは大成功?

ビット反転部をCからnasmに直したら遅くなってしまって
ちょっとがっかりしているプでした。
#C版がイカサマなだけなんですけど、やっぱり(TwT)

酔漢 さん 2000年 04月 24日 14時 05分 54秒

プティタイジュさん、

>ここのところ、「やはり、皆様以外の世の中の人々は
>数字だけじゃ理解しにくいのでは!
>我々の爆速FFTを知らしめるアプリを作ってやるぅ
>>w<)」

を、やる気満々ですね。私は昨年の暮れごろは、爆速
FFTルーチンが完成したらPI計算に挑むつもりでした。
計算ライブラリをDLLにしてOpenPIとかね。ネットに
分散して256台でπ計算世界記録に挑戦、とか夢想して
いたのもそのころです。FFTの分割統治アルゴリズムに
固執していたのはその辺が理由です

え?最近ですか?若い人に譲ります(爆)

プティタイジュ さん 2000年 04月 24日 06時 55分 21秒

僕も結構自信あります(^^;
が、いまだCと混合でlinuxでしか動いていません。
masmだけでのデバッグはキツイです(TwT)

あ、BC++が付いてる雑誌、もう出てますね。
結局本屋さんに出かけるほどの気力も回復しておらず、買ってません。
というか、ダウンロードしてしまいました(^^;
しかしなんとかGUIのプログラムは作ったものの
#どういうわけか実行時にDOS窓も開いて、何日もかなり困りました
DirectXは変更加えないと無理?(TwT)
あと、雑誌のC++Builder体験版にはWin32のヘルプ付いてるのかなぁ(?w?)

ここのところ、「やはり、皆様以外の世の中の人々は
数字だけじゃ理解しにくいのでは!
我々の爆速FFTを知らしめるアプリを作ってやるぅ(>w<)」
と、パラメトリックイコライザ付きCDプレイヤーを作ろうと思い、
いろいろ調べたけどASPI分からなくてとりあえず挫折。
それならmp3でやるか!と思って、構造を調べようとしたら
「もう既にスペクトラムアナライザ付きプレイヤーとかあるのね(TwT)」
グライコも付いてる・・・グライコでもパラメトリックEqでも
フーリエ変換 > なんか処理 > 逆フーリエ変換
と同じことをやってるんですよね?
#そのわりにはグライコしか無かった・・・
む〜ん、この計画も作る前に終わったか・・・

酔漢 さん 2000年 04月 22日 21時 16分 07秒

久しぶりにエントリーを改良しました。

懸案のビット反転最適化の最終バグとりが終わり、
ようやくつめることが出来ました。ちょっとだけ
高速化できました。憩いの広場を参照してくださ
い。これでFFT本体の見直しに入れます。

酔漢 さん 2000年 04月 22日 19時 35分 37秒
URL:http://homepage1.nifty.com/murasakigawa/

「DSPの特徴」完結しました :-)

全充@BL さん 2000年 04月 21日 08時 45分 00秒

BLよりについては
単純な話です。
BL=Beautiful Life(ドラマですね:柊二と杏子)
その一幕に入ったナレーションが妙に私の心に
残ったもので、書きとめてみました。


うるり さん 2000年 04月 21日 01時 31分 58秒

>VHDLでも非同期設計できます。
おお!プさん頑張ってください。
手軽に(?)念願がかないそうですよ^^

>管理人さん日記
私もサッパリです。
#なお、私はマルチ細胞生物です^^;

>K6-x+って仕様が何回変わったか分かんないしね
K6-2+という同じ名前でも、以前と今では物が違うかもしれない
という意味です。K6には違いないので差せば動く気もしますが^^;

>3DNow!E対応
下手に対応すると、Athlon用のコードを実行してしまうかもしれません。
コードがAthlonに最適化してあった場合、K6ではパフォーマンスが
低下する可能性があります。
でも、低下しないかもしれません(はっきりしろよ^^;)
#もともと最適化されたコードが無いに一票^^;

プティタイジュに天使のささやきを(ガブリエル様希望) さん 2000年 04月 20日 23時 20分 01秒

くふぅ(>w<)、やはり大失敗!
そうです!皆様の推測どおり、プはVHDLを97%知らなかったのです!
#vm86もいまだ分かっておりません(TwT)
せっ、先輩、すいませんでした〜〜〜(TwT)

BLよりさん>
気付くの遅くてすみません。しかもユニ細胞生物プにはよく分かりません(TwT)

酔漢 さん 2000年 04月 20日 20時 54分 39秒

今日は悪魔のささやきを…

プさん、VHDLでも非同期設計できます。

うるり さん 2000年 04月 20日 08時 05分 30秒

>あんぷ(ぅ)
VHDLは実験で多少かじりました。理論中心でソフトとあまり
変わらない感じでした。
どちらかというと、もっとハードでアナログではんだ付け
な感じが楽しそうなのですが^^;

プさんのいわれるように、金がかかる&店が無いが縁の
無い理由かな?
#空騎士(からっきし)は却下ですね^^;

>情報網
ニュース系サイトをふらふらしてるだけです^^;
面白そうなものを紹介できたらいいなぁ、と思ってます。
#自分のメモでもあるらしい(笑)

>gccとプリフェッチ
とりあえず参照前にプリフェッチを突っ込んでおけばOKです^^;
余分な分は無視されるので、かなり気楽に突っ込めます^^;;

#EP-51MVP3E-Mとその仲間たちBIOS更新(4/11)
http://www.epox.com/html/english/support/motherboard/bios/vp3.htm

#K6-2+、K6-III+発表
http://www.watch.impress.co.jp/pc/docs/article/20000419/amd.htm
コア2.0V、3DNowE搭載、L3-1MBまで、PowerNow!は要BIOS対応
あたりが気になるところでしょうか?
EP-51MVP3E-Mも12月のBIOSからK6-2+に一応対応しているみたいですが(非公認)
4/11の更新でもK6-3+への対応をしていないみたいなので
期待しない方がいいかもしれません。
#K6-x+って仕様が何回変わったか分かんないしね^^;

プティタイジュ@ソフトな肌触り さん 2000年 04月 19日 23時 58分 57秒

>GCCがプリフェッチ対応?
うるりさんの情報網はNSA並な気がします(^^;
どこからいろいろ調べているのでしょうか!?
それはそれとして、プリフェッチ???
コンパイラ生成コードレベルだとあの命令も使えるのかなぁ。
でも、プリフェッチごときで互換性の無いコードにしたら
高級言語の優位性が無くなるだけでは・・・?
gccをベクトルコンパイラにするというのならともかく。
#プリフェッチだけなら組みこむのが簡単だったというところでしょう(^^;

>ハードは今まで機会がなくてからっきしダメです。
同じく空騎士です(TwT) 今回「は」はずしたかも
いや、かなり勉強はしましたよう。
でもハードはお金がかかります!
タダモノには向かない分野です!
#近くにお店がないだけなんですけどね(^^;
そういうわけで、サッパリです。

>だまされたと思ってVHDLの本でも読んでみますか?
皆様、どうせいばらの道に突っ込むなら、まだマシン語の方がマシかも(^^;
うるりさんは読まなくても一瞬で理解してしまうので
読まなくていいです(^^;
だいたいVHDLをやろうとしようものなら
「今ならCPU使えばいいやん。」と言われて終わってしまう・・・
あと僕は(全然知らないくせに)非同期回路絶賛派なので
VHDLにはいまいち気が乗りません・・・
だいたい回路というものは神業的設計じゃないとだめです(>w<)
「アンぷぅなんか特に」ですよね(^w^)
よってVHDLより、酔漢さんがやってることのような
もっと大変な道を勧めてください(^^;

酔漢 さん 2000年 04月 19日 22時 10分 08秒

>>アンプを設計
>そういうのも楽しそうですね。
>ハードは今まで機会がなくてからっきしダメです

だまされたと思ってVHDLの本でも読んでみますか?
VHDLはAdaを元にディジタルIC設計を目標として
開発された言語です。意外に面白いですよ。

とっかかりならCQ出版社の「VHDL言語入門」がお勧め
です。

うるり さん 2000年 04月 19日 03時 37分 56秒

>猛獣さん
むう、2人にうまく逃げられたなぁ。
いや、赤ずきんちゃんのオオカミか?(いきなりガブリ^^;)

>ツリーもいいけど、これはこれで読みやすいんですよねぇ
発言数が少なければ一覧の方が見やすいですよね^^
ツリーだとよく追加発言を見落とします。

>アンプを設計
そういうのも楽しそうですね。
ハードは今まで機会がなくてからっきしダメです。

>この世でだめなら来世でもだめ。
私もそんな気がする。あ、とっても悲観的だ^^;

>SSE
2要素SIMDの方が潰しが効くのは確かですね。
4要素SIMDだとデータの並べ直しが必要なときが大変です。
CeleronにもSSEが載ったので対応が進むかな?
#ちなみにシャッフルは楽しくてしかたがありません^^

#GCCがプリフェッチ対応?
http://gcc.gnu.org/ml/gcc/2000-04/msg00194.html
なんだかおもしろそう。

プティタイジュ さん 2000年 04月 18日 23時 37分 28秒

>内部では(float*2)*2なのに、外見はfloat*4のSSE君。
アドレッシングモードに[eax+ebx*16]が使えればともかく
「いくらなんでも今回は本当に無理な拡張」のSSEは
使い手のことは考えてないですね(TwT)
シャッフルの自由度がもっと高ければ
それで少しはカバーもするのですが。

>転生
生まれ変わったら姫様に飼われたい(TwT)

しかし、
>輪廻。ソウルメイト。
この世でだめなら来世でもだめ。
(TwT)

>DirectX7日本語へるぷぅ(7.2MBぐらい)
こっ、これは僕向けな話題ですか!
#「ぷぅ」のあたりが・・・
#いや、それとも「HELL!ぷぅ!」だったりして。
すでに英語版で理論を勉強してしまったので
ちょっと損した気もしますが(^^;
せっかく教えてくださったことだし見てみようかな。
あれはおすすめですよね。3Dの変な解説つかまされるより、
断片的ですがあれを元に考えまくった方が正しい理解が得られます。
#って、3Dでなんか作ってから言え、プティタイジュ(>w<)

>猛獣が3匹
まっ、まさか、この「かわい〜い」と街で評判の
プティタイジュのことを言ってる訳ありませんね(^w^)
#でも元ネタのプティアンジュちゃんは強かったよう
#でもでも顔にキズをつけられてることから分かるように
#プティタイジュは弱い!?

酔漢 さん 2000年 04月 18日 21時 28分 06秒

ツリーもいいけど、これはこれで読みやすいんですよねぇ

酔漢 さん 2000年 04月 18日 21時 27分 08秒
URL:http://homepage1.nifty.com/murasakigawa/

>でも、猛獣が3匹も放し飼いなので怖いですね^^;
>#ちょっと(いや、かなり?)爆弾発言か?^^;

一匹はロートルなので暴れても怖くありません。
老虎は人食いになるそうですがここをうろついて
いるのはただの酔猫なので安心です(笑)

先週末こそビット反転に活を入れようと思いつつ、
アンプを設計して終わってしまいました。よくない
です。

全充さん、みっちゃんや私が使っているレンタル
掲示板はなかなかよいです。無料で、かつATComp.NET
と同系列です。いや、ただそんだけですけど。

#niftyで掲示板を作って1時間で消したのは内緒。

うるり@ごーいんぐまいうえい さん 2000年 04月 18日 02時 40分 36秒

>起動は1分
ということは256Mにすると30秒程度にならないかなぁ。
え?むり?^^;
#スワップが起こらなくなると随分速くなると思います。

>DirectX7日本語へるぷぅ(7.2MBぐらい)
http://www.microsoft.com/japan/developer/directx/downloads.asp

>掲示板 憩いの広場(番外編)
>落書きOKのなんでもありです。
>憩いの広場の話題に割り込むのはちょっと。。。って方も
>こちらではご遠慮なく。足跡大歓迎です(本当に足跡でも残しておいてください)
ここの掲示板は本来はこういう目的なんですよね。
でも、猛獣が3匹も放し飼いなので怖いですね^^;
#ちょっと(いや、かなり?)爆弾発言か?^^;

全充 さん 2000年 04月 17日 18時 02分 48秒

マミさん>

おおついにインターネットに進出
おめでとうございます。

最近超忙しい(T_T)、5週連続日曜無し、ごぶさたしてます。
まこりんは相変わらずだけどね。

全充@元Kazu さん 2000年 04月 17日 17時 46分 31秒

ちゃまさん>
復活は留から聞きました。
早いじゃん、もうロボコン終わるの?
明日は3D?
メールしてちょ、って無理だからここに書き込んだの?

全充@わが道をゆく さん 2000年 04月 17日 17時 43分 11秒

会社のマシン環境について一言
日曜にこっそり、1年以上使われていないマシンと
部品交換をいたしました。
交換前:PentiumII/350@96MB
交換後:PentiumII/400@128MB

交換前W2Kの起動時間5分
 会社に来て、電源入れて、ロッカーに背広掛けて
 タイムカード押して、トイレに行って(小ですけど)
 お茶を入れて、席についてもまだログインできず。
交換後W2Kの起動1分
 タイムカード押して、一度席に戻ったら
 ログインしてください。
うーーーん、メモリ96MBと128MBの差?
確かに家のAthlon500@550:128MBも起動は1分だよ。

最近、輪廻転生、ソウルメイトについて考えることが
多いです。

ちゃま(病み上がり) さん 2000年 04月 17日 14時 13分 21秒

ぬぉっ!
さっきのカキコがログになってしもた。
Kazさま見といてくださいな。

マミ さん (mamiayu@oregano.ocn.ne.jp) 2000年 04月 17日 13時 52分 41秒

岩田さんマミだよついにパソコン来ました。

ホームページみました。
ではまたね

Return