Nvidia GeForce GTX 970 Revisited

GTX 970が昨年発売されたとき、Tech Press-デジタルファウンドリが含まれています- Nvidiaの新しいハードウェアを称賛することで全会一致でした。実際、私たちはそれを「軌道からハイエンドのグラフィックカード市場全体を削る」と呼びました。 R9 290とR9 290Xを破り、AMDに主要な価格カットを扇動させ、はるかに高価なGTX 980のパフォーマンスのライオンのシェアを提供しています。 Nvidiaは、不正確な仕様をマスコミにリリースし、結果として発表しました「欺cultiveな行為」のための集団訴訟訴訟

ここで何がうまくいかなかったかをすぐに要約しましょう。 Nvidiaのレビューアーズガイドは、GTX 970の絵を、より高価な兄弟であるGTX 980の控えめなカットダウンバージョンとして描きました。同じアーキテクチャに基づいて、同じGM204シリコンを使用していますが、2048年から1664年に減少したCUDAコアは見られます。 、一方、クロック速度は、GTX 980の最大1216MHzから、安価なカードの1178MHzに格付けされます。そうでなければ、それは同じ技術です - または私たちに言われました。Anandtechの記事これについてはより深くなりますが、数ヶ月後に他の変化が明らかになりました。 GTX 970には64ではなく56のROPSがあり、L2キャッシュは2MBではなく1.75MBでした。

ただし、主要な問題は、オンボードメモリに関するものです。 GTX 980には、224GB/sの定格の1つの物理ブロックに4GBのGDDR5があります。 GTX 970の1つのパーティションには3.5GBがあり、196GB/sで動作し、512MBの28GB/s RAMが2番目のパーティションで非常に遅い。 Nvidiaのドライバーは、より高速なRAMを自動的に優先し、絶対に必要な場合にのみ、遅いパーティションに侵入するだけです。そして、それでも、同社は、ドライバーがリソースをインテリジェントに割り当て、低優先度データをRAMの遅い領域に回避するだけだと言います。

メモリを割り当てるために使用される手法に関係なく、明らかなことは、概して、ドライバーがリソースの管理に成功していることです。私たちが知る限り、パーティション化されたメモリから生じるパフォーマンスの問題について1つのレビューが取り上げられたものではありません。パフォーマンス分析の最も綿密な形式でさえ、FCAT(すべてのテストに使用する)を使用したフレームタイム測定値でさえ問題を示しませんでした。製品が予想通りに実行され、追加のマイクロスタッターやその他のアーティファクトがないため、Nvidiaからの誤った仕様に疑問を投げかける理由はありませんでした。私たちは何かを逃しましたか?何でも? GTX 970の独特のハードウェアのセットアップについて知っていますが、それを破ることは可能ですか?

しばらくの間、GTX 970とGTX 980をテストおよび再ベンチしています。このビデオは私たちの経験をまとめています - 980では同一の条件では見られない970にst音を誘発することができます。ただし、そうするには、ゲームプレイエクスペリエンスに積極的に侵入する極端な設定が必要です。YouTubeをご覧ください

テストに参加する前に、多くのトップティア開発者に相談しました。次世代エンジン、および過去にNvidiaと協力した他のエンジン。強力なPCバックグラウンドを持つ著名な開発者の1人がこの問題を却下し、彼のチーム間の一般的なコンセンサスは「火よりも煙が多い」ということだと言った。別の連絡先がもう少し深さになりました:

「VRAMの主要な消費者は通常、テクスチャであり、ドローバッファー(頂点、インデックス、均一なバッファなど)が近くに近づいています」と、宇宙飛行士のグラフィックスプログラマーであるLeszek Godlewskiが語ります。 「少なくとも短期的には、パフォーマンスの劣化について心配することはありません。実際には3.5GBのVRAMはかなり多くのスペースであり、GPUにそれほど多くのデータを配置できるゲームはまだ多くありません。そのようなゲームが到着したとしても、Nvidiaのエンジニアは確実にドライバーを適応させるために邪魔にならないでしょう(彼らは常に有名なゲームを使用しているように) - スマートなスケジューリングでどれだけの遅延が隠されるかを見ることに驚くでしょう。」

の問題RAMのより遅いパーティションで終わることは、GTX 970の好奇心の強いセットアップが長期的に機能するかどうかに不可欠です。より速いRAMからパフォーマンスを向上させることに慣れていますが、すべてのGPUユースケースシナリオには、帯域幅のトップエンドGPUが提供する膨大な量のようなものが必要なわけではありません。

一定のバッファーまたはシェーダー(FrameBuffersのようなRead-Modify-Writeではなく読み取り専用)は、幅広いキャッシュに優しいGPUリソ​​ースで読み取り、共有されるため、より遅いメモリに喜んで生きます。コンピューティングが多いですが、データライトタスクは、問題を引き起こすことなく、より遅いパーティションに喜んで座ることもできます。これらの要素は、Nvidiaのドライバーが発見できる必要があり、自動的に小さなパーティションに座ることができます。裏返しに、Rage of Wolfensteinのように、仮想テクスチャリングを使用してゲームが遅いRAMと高速なRAMの間で資産を分割した場合、何が起こるかを見たくありません。それはきれいではないでしょう。しかし、それが起こったように、Wolfensteinは、テスト中に1440pで最大でうまく機能しました。

GTX 970、980、およびTitanで比較したEvolveのVRAM使用(画面の上部)。視覚的には、ゲームは各システムで同じように見えますが、特に970と980の間のVRAM割り当ての大きなばらつきは確かに好奇心が強いです。上の画像をクリックして、比較を詳しく見てください。

テストに参加して、さまざまなフォーラムに投稿された多くのコメントをチェックアウトし、GTX 970が明らかに対処に問題があるゲームについて議論しました。のようなゲームウォッチ・ドッグスそしてFar Cry 4stutterを示すものとしてよく言及されています - 私たちのテストでは、GTX 970、GTX 980、さらには6GBタイタンを実行しているかどうかにかかわらず、そうしています。今日まで、Watch Dogsはまだ修正されていませんが、Stutter Free Far Cry 4ゲームプレイへの唯一のパスは、.iniファイルを介して最高品質のテクスチャMIPマップを無効にすることです。 Call of Duty Advanced Warfare and Ryseもチェックアウトします - 彼らは多くのVRAMを使用していますが、ほとんどがテクスチャキャッシュとして使用しています。その結果、これらのゲームは3GBカードで行うのと同じように2GBのカードでも見栄えがします。VRAMが少ない場合、より多くのバックグラウンドストリーミングが行われています。

実際に、現在のほとんどのタイトルで3.5GBのRAMを破ること自体がかなり挑戦的です。そうするには、マルチサンプリングアンチエイリアス、より高い解像度からのダウンサンプリング、またはその両方を使用することが含まれます。高度なレンダリングエンジンでは、どちらもGPUを膝に導く確実な方法です。従来のMSAAは最近のタイトルに靴が穴を開けていることがありますが、2倍のMSAAでさえ、フレームレートに20〜30%の打撃を受けることができます。他の人が苦労している間、ゲームはまったくサポートしていません。たとえば、Far Cry 4をご覧ください。対決中に、PCバージョンを最高の状態で表示するためにMSAAを増やしました。私たちが発見したのは、葉のエイリアシングがコンソールバージョン(Nvidia独自のTXAAを使用して持続する状況)よりもはるかに悪いということでした。 - 代替案のサンプリング。

MSAAをサポートする別のタイトルを探しています - 暗殺者の信条の団結- 以下の表は、ポストプロセスのアンチエイリアシングの代替品を支持して、マルチサンプリングが途中である理由をまったく示しています。ここでは、GTX Titanを使用してメモリの消費とパフォーマンスを測定します。GPUメモリが効果的に無限である環境でVRAMの使用率を測定するという考えは、そうではありません。 1080pでさえ、ACUは8x MSAAで4.6GBのメモリ利用をヒットしますが、1440pの同じ設定では、実際にタイタンの驚異的なVRAM割り当てが完全にタップされています。パフォーマンスの数字はそれ自体を物語っています - 1440pで、後処理のアンチエイリアスのみがプレイ可能なフレームレートを提供しますが、それでもパフォーマンスはベンチマークサンプルで20fpsに低く低下する可能性があります。対照的に、Far Cry 4の優れたHRAAテクニックに関する最近のプレゼンテーションは、SMAAや時間的スーパーサンプリングを含む多くのAA技術を組み合わせて、1080pでの合計レンダリング時間のわずか1.65ミリ秒で見事な結果を提供します。

MSAAによってGPUリソ​​ースがどれだけ吸い込まれているかのイラスト。現状でのみ、FXAAのみがACUフレ​​ームレートを30fpsのしきい値を大きく上回っており、GPUリソ​​ースはマルチサンプリング以外のタスクに適していることです。このタイトルの場合、UbisoftがPXAAをポストプロセスの代替品としてのみサポートしたのは残念です。
AC Unity/Ultra High/GTX Titanfxaa2x MSAA4xなど8xなど
1080p:VRAM利用3517MB3691MB4065MB4660MB
1080p min fps28.024.720.012.9
1080p平均fps46.140.233.621.2
1440p:VRAM利用3977MB4343MB4929MB6069MB
1440p min fps20.016.012.97.5
1440p平均fps30.325.621.513.0

実際にGTX 970とハイエンドGTX 980の間に明確な違いを示すゲームブレイキングスタッターを取得するためには、当社の並外れた対策が必要でした。 SLIで2枚のカードを実行しました - できるだけ計算ボトルネックを削除するために - 4x MSAAで1440pの超高設定でAssassin's Creed Unityを実行しました。このページの上部にあるビデオでわかるように、これはGTX 980では顕著ではない非常に顕著なst音を生成します。本当にここで問題を押し進め、効果的にフレームレートをホブリングして、比較的小さな画質を高めます。ポストプロセスFXAAは、ハイエンドのSLI構成でこのゲームでロックされた1440p60のプレゼンテーションに近いものを提供します - そして、それはセンセーショナルに見えます。

また、このテストでは、タイタンよりもはるかに低いメモリの利用率が明らかになり、ゲームのリソース管理システムが、あなたが持っているVRAMの量に応じてメモリにロードされる資産を調整することを示唆しています。タイタンの数字に基づいて、2倍のMSAAはGTX 970とGTX 980 VRAMの両方を最大化する必要がありますが、不思議なことにそうではありませんでした。 4倍のMSAAにプッシュするだけで問題が発生しました。

他の場所で邪魔なst音を見つけることも同様に困難でしたが、私たちも問題のあるゲームの開発者も推奨していない極端な設定ではありますが、私たちはそれを管理しました。 1440pのウルトラ設定でモルドールの影を走らせている間、Ultraテクスチャが係合した内部4K解像度からダウンスケーリングしながら、GTX 970とGTX 980の間に明確な違いを示しました。正直に言うと、これは両方のカードで最適な体験をもたらしましたが、970で顕著なst音を見た領域が980の問題ではありませんでした。しかし、実際には、開発者がウルトラテクスチャを推奨していないということです6GBカード以外のもので-1080pでそれ以上。推奨される高レベルのテクスチャにドロップダウンすると、st音がなくなり、まともな体験が生まれます。

PlayStation 4
ウルトラテクスチャ
高いテクスチャ
中程度のテクスチャ
Shadow of Mordorは、VRAMの問題を強調する重要なタイトルです。コンソールの同等のビジュアル(この場合は高品質のテクスチャ)を取得するには、少なくとも3GBのRAMが必要です。現在、GPUの2GBのメモリは、私たちがテストした他のほとんどのタイトルで1080pゲームで問題ありません。ただし、今年はその状況が変わると予想されます。
ウルトラテクスチャ
高いテクスチャ
中程度のテクスチャ
Shadow of Mordorは、VRAMの問題を強調する重要なタイトルです。コンソールの同等のビジュアル(この場合は高品質のテクスチャ)を取得するには、少なくとも3GBのRAMが必要です。現在、GPUの2GBのメモリは、私たちがテストした他のほとんどのタイトルで1080pゲームで問題ありません。ただし、今年はその状況が変わると予想されます。
ウルトラテクスチャ
高いテクスチャ
中程度のテクスチャ
Shadow of Mordorは、VRAMの問題を強調する重要なタイトルです。コンソールの同等のビジュアル(この場合は高品質のテクスチャ)を取得するには、少なくとも3GBのRAMが必要です。現在、GPUの2GBのメモリは、私たちがテストした他のほとんどのタイトルで1080pゲームで問題ありません。ただし、今年はその状況が変わると予想されます。
ウルトラテクスチャ
高いテクスチャ
中程度のテクスチャ
Shadow of Mordorは、VRAMの問題を強調する重要なタイトルです。コンソールの同等のビジュアル(この場合は高品質のテクスチャ)を取得するには、少なくとも3GBのRAMが必要です。現在、GPUの2GBのメモリは、私たちがテストした他のほとんどのタイトルで1080pゲームで問題ありません。ただし、今年はその状況が変わると予想されます。

結論として、私たちはGTX 970を破るために邪魔にならなかったが、ホッブルなゲームパフォーマンスをプレイできないレベルに帯びたコンピューティングまたは帯域幅の制限を押さずに、単一のカード構成ではそうすることができなかった。 GTX 980にも見られなかった、より合理的なゲームテストではst音がありませんでしたが、この種のアーティファクトはハイエンドカードではそれほど目立たないかもしれません - 単に速いという理由だけで。要するに、私たちは元のレビューを支持し、GTX 970は少なくとも今、ここでは250ポンドのカテゴリで最高の買い物であると信じています。唯一の問題は、3.5GBの障壁を破るゲームに沿ってゲームが来るかどうか - そして、より遅いVRAMパーティションが効果的に使用されることを保証するために、Nvidiaのドライバーがどの程度持ちこたえるかです。確かに、Nvidiaのドライバーチームは、考慮すべき力です。ある連絡先は、彼らのゲームの最適化の取り組みには、手書きの代替品で計算上の高価なシェーダーを交換すること、増え続けるドライバーのダウンロードサイズを犠牲にしてパフォーマンスを向上させることが含まれることを示しています。あるときそれドライバーへの労力のレベルは、少なくともGTX 970で主要なタイトルが注目されることを見るのは驚くべき想像力ではありません。

未来:どのくらいのVRAMが必要ですか?

Nvidiaは、以前に多くのグラフィックカードでVRAMをパーティション化し、GTX 550 Tiに戻りましたが、現在GTX 970にあるほど、熱狂的なコミュニティのセットアップについてそれほど関心はあまり懸念されていません。これの一部は、パーティション化されたRAMがどのように発見されたか、およびNvidiaからの前払いの開示の欠如のためです。しかし、おそらくより重要なのは、コンソールの統一されたメモリがPCゲーム開発に与える完全な影響です。これは、離散システムとビデオRAMパーティションに分割されています。 GPUの購入を完全に防ぐために必要なメモリはどれくらいですか?

グラフィックハードウェアの未来は、積み重ねられたメモリモジュールを使用して、メモリ帯域幅をボトルネックとして削除するという概念に傾いていますが、非常に尊敬される開発者は、ゲームの作成方法に基づいて別の方向に動くものを見ることができます。

「1GBの超高速DDR6と10GBの「スロー」DDR3を備えたGPUを完全に想像できます」と彼は言います。 「ほとんどのレンダリング操作は実際にはキャッシュに依存しています。そのため、最近のほとんどのトップティア開発者は、キャッシュアクセスパターンを最適化しようとしています...正しいアクセスパターン、正しいデータのプリロードとスワッピングでは、L1//にとどまることができます。 L2は常にキャッシュします。」

現在世代のコンソールの統一されたRAMセットアップはPCゲーマーの頭痛を引き起こす可能性がありますが、APUプロセッサの帯域幅の制限は、GPU自体に直接批判的なコードを直接操作し続ける最適化のためのドライブを必要とし、高速RAMの質量はそれほど重要ではありません。そして、それがGTX 970を強化するNvidia Maxwellアーキテクチャが非常にうまく機能する理由の一部です。それは、その前身よりもはるかに大きなL2キャッシュパーティションの周りに構築されています。

しかし、未来に目を向けると、真実は、現在のコンソール生成を通じて私たちを維持するためにGPUに必要なビデオRAMがどれだけ必要かを完全に確信できないということです。テクスチャ、強化された効果、より高い解像度のサポート。明らかになったのは、2GBカードが1080pのゲームの最低でも、8世代のコンソールに相当する品質であり、3GBが推奨されることです。今日のハイエンドGPUは今のところ十分に簡単に対処しているように見えますが、将来のゲームエンジンは、今日のトップティアカードに見られる4GBを超えて要件が増加するのを見ることができます。 GTX 970については、3.5GBの高速RAMが十分でない時が来ることがありますか?真実は、私たちにはわかりませんが、現在の将来のコンソールがプッシュされるほど、グラフィックカードで利用可能なメモリの量が増えます。

「ハードウェアをプッシュし、より高い品質を押し、資産を高くするほど、必要なメモリが必要になり、それを速くしたいほど速くなります」と開発コミュニティの適切なソースは語ります。 「現在開発中の私たちのゲームは、現在左、右、中央のコンソールでメモリの制限に達しています。そのため、メモリの最適化は私のリストに常に載っています。」