NVIDIA GeForce 4 Ti 4600

NVIDIA's NV25 GPU

Am 6. Februar 2002 war es endlich soweit, nachdem die Gerüchteküche ordentlich gebrodelt hatte und zeitweise die wildesten Spekulationen über den NV25 im Netz kursierten, stellet NVIDIA ihren neuen 63 Millionen Transistor GPU vor.

NV25

Leider enthält der GeForce 4 Ti keine MPEG2 Dekoder, welcher bei ATi schon seit Jahren zum guten Ton (oder Bild) gehört. Die namensähnliche GeForce 4 MX/Go (NV17/NV17M) besitzt wiederum einen MPEG2 Dekoder, jedoch keine Pixel Shader, was sie somit aus dem Kreis der DirectX 8 Beschleuniger rauswirft.


Hier die technischen Daten im Überblick:


SiS 330 NVIDIA GeForce3
NVIDIA GeForce 3 Ti 200 / 500
NVIDIA GeForce 4 MX
NVIDIA GeForce 4 Ti
ATi Radeon 8500
Pixel-
Pipelines
4
4 4
2
4 4
Textureneinheiten
(pro Pipeline)
2
2 2
2
2 2
Busbreite intern (Bit)
256
256
256
256
256
256
max. Texturen pro Pixel
4
4 4
4 (?)
4
6
Chiptakt (MHz) 183 - 300
200 175 / 240
250 - 300
275 - 300 275
theo. max. Füllrate
(GPixel/Sec)
0,732 - 1,2
0,8 0,7 / 0,96
0,5 - 0,6 1,1 - 1,2 1,1
theo. max. Füllrate
(GTexel/Sec)
1,464 - 2,4
1,6 1,4 / 1,92
1 / 1,2
2,2 - 2,4
2,2
Speicherinterface (Bit) 128 DDR
128 DDR 128 DDR
128 DDR / 128 SDR
128 DDR
128 DDR
Speichertakt (MHz) 175 - 275
230 200 / 250
166 - 275
250 - 325 275
Speicherbandbreite
(GB/Sec)
5,86 - 8,8
7,36 6,4 / 8
2,66 - 8,8
8 - 10,4
8,8
Texelbandbreite
(Bytes / Texel)
4,00 - 3,6
4,6 4,57 / 4,17
2,66 - 7,3
3,64 - 4,3
4,4
Pixelbandbreite
(Bytes / Pixel)
8,00 - 7,33
9,2 9,14 / 8,33
5,32 - 14,6
7,27 - 8,6
8,8
Speichergrößen (MB) 32 - 128
64 64
64
64, 128 64 / 128
DirectX Version (Pixel Shader)
DX 8 .1 (1.3)
DX 8.1 (1.1) DX 8 .1 (1.1)
DX 7 DX 8.1 (1.3)
DX 8.1 (1.4)
TnL Einheit
ja ja
ja
ja
ja
ja
64 Bit Farbtiefe
nein
nein
nein
nein
nein
nein
VertexShader
Einheiten
nein
1 1 nein
2 1
TruForm
Einheit (RT-Patches)
nein
nein nein
nein
nein
ja
Bandbreiten
Features
keine
Texturekompression,
Lightspeed Architektur
Texturekompression,
Lightspeed Architektur
Texturekompression,
Lightspeed Architektur II, QuadCache,
Fast-Z Clear
Texturekompression,
Lightspeed Architektur II, QuadCache,
Fast-Z Clear
Texturekompression,
HyperZ II
FSAA
Arten
Standard
Standard,
Quincunx
Standard,
Quincunx
Standard, Quincunx, Accuview
Standard, Quincunx, Accuview
adaptives FSAA
HydraVision/
TwinView/DualHead/nView
ja
nein nein
ja
ja
ja

Hinweise:
Daten von zukünftigen Produkten unterliegen bis zum Releasetermin ständigen Änderungen!
Notebook- / Laptop- / Integrierte-Varianten von einigen Chips wurden nicht mit aufgeführt
So wird in der Tabelle gerechnet:
  • GB/s = (275 Mhz *2(DDR) *128 Bit / 8 Bit) / 1000 = 8,8 GB/s -> NVIDIA's Weg
  • so nicht: GB/s = (275 Mhz *2(DDR) *128 Bit / 8 Bit) / 1024 = 8,59 GB/s
  • so auch nicht: GB/s = (275000000 Mhz *2(DDR) *128 Bit / 8 Bit) / (1024*1024*1024) = 8,19 GB/s

Was ist wirklich neu gegenüber der GeForce 3?

Die Neuerungen gegenüber der GeForce 3 (NV20) lassen sich an zwei Händen abzählen:
  • der GeForce 4 beherrscht nun Fast Z-Clear
  • besitzt einen QuadCache
  • Auto Pre-Charge - kürzere Wartezyklen beim Speicherzugriff
  • Pixel Shader erfüllt die Versionen 1.1 - 1.3
  • ein zweiter Vertex Shader
  • Multimonitorsupport durch nView
An dieser Liste der Neuerungen kann man gut sehen, dass es sich um keine neue Architektur handelt, sondern lediglich um eine gezielte Weiterentwicklung innerhalb des DirectX 8.1 Standards.

Was wurde zum Vorgänger verbessert?

Hier die Liste der Verbesserungen:
  • NVIDIA's Accuview bedeutet FSAA mit weniger Perfomanceverlust und besserem Bild
  • das Occulsion Culling arbeitet nun effektiver, durch einen verbesserten Algorithmus
  • Pixel Shader brauchen weniger Taktzyklen
  • Erhöhung der Taktrate
Hier kann man sehen, dass doch an allen Ecken und Enden Tuningarbeit geleistet wurde, die Erhöhung des Taktes bringt natürlich nochmals deutlich mehr Leistung gegenüber der GeForce 3 Ti 500 (240/500).

Features

An dieser Stelle werde ich nur auf die wirklichen Neuerungen eingehen, wer mehr über NVIDIA's nFinite Engine wissen möchte (nennt sich bei GeForce 4 nFinite II), der sollte sich mein GeForce 3 Review ansehen.

QuadCache

Hierbei handelt es sich um 4 kleine Caches, welche Vertex, Pixel, Texture und Primitivendaten speichen. So kann bei einem erneuten Zugriff der langsame (im Vergleich zum Cache) Speicher der Grafikkarte umgangen werden, was Bandbreite und Zeit spart.

Fast Z-Clear

Wie bei der ATi Radeon 8500 wird nun auch bei der GeForce 4 der Z-Buffer effektiver gelöscht, was Bandbreite spart und bis zu 10% Performancesteigerung bringt.

Auto Pre-Charge

Hierbei wird auf einer spekulativen Basis (basierend auf Speicherzugriffen in der näheren Umgebung) die Ladung des Speichers gesteuert. Dadurch wird die Anzahl der Wartezyklen reduziert, bevor ein Lese- oder Schreibzugriff stattfinden kann


Pixel & Vertex Shader

Die Version 1.3 der Pixel Shader bietet einen neuen Befehl "texm3x2depth tDest, tSrc0", hier hätte NVIDIA ruhig die Veriosn 1.4 implementieren können, was sicherlich ein wenig mehr Arbeit und Geld gekostet hätte, aber auch dem Spieler zu Gute gekommen wäre. Der zweite Vertex Shader hilft beim Polygondurchsatz und bei komplexen Vertex Shader Porgrammen.

nView

nView

NVIDIA's nView Technologie wurde als TwinView entwickelt und kam bereits auf der GeForce 2 MX zum Einsatz. Mittlerweile ist es etwas fortgeschrittener und erlaubt viele nützliche Features.

Accuview

GF3
GeForce 3 - 2x und Quincuncx FSAA

GF4
GeForce 4 - 2x und Quincunx FSAA


Als erste Verbesserung gegenüber dem Multisampling FSAA Algorithmus der GeForce 3 wurde hier die Sampleposition (1 und 2) leicht verschoben, um den Fehler zwischen idealer Texelposition und Sampleposition (1 und 2) zu verkleinern, da beim Multissampling nur ein Texel für alle Samples verwendet wird (aus Geschwindigkeitsgründen). Deshalb ist es auch schneller als ATi's Supersampling, was jedoch keine Texel/Pixel Fehler besitzt und zusätzlich die Texturen filtert.
Als weiters Merkmal wurde ein 4XS Antialiasing eingeführt, welches nur unter DirectX läuft, dort jedoch mit 50 % höher Texturedeckung der Samplepixel aufwarten kann. Hier eine Möglichkeit, wie dies funktionierten könnte:
4XS FSAA
die grünen Punkte stellen die Samplepositionen dar, die hellen Punkte sind die Texelsamples

Desweiteren wurde die FSAA Pipeline optimiert. Laut NVIDIA wurden hierzu die Berechnungsschritte vereinfacht und es kommt eine eigene Technik zum Einsatz, um die Performanceeinbrüche zu minimieren. Leider gibt es keine genaueren Aussagen, bis das Patent gesichert ist. Angeblich verwendet NVIDIA beim 2x FSAA und bei Quincunx den RAMDAC um die Bilder zu filtern. Die würde einen Lesezugriff auf den Backbuffer sparen, da dieser ja bekantlich recht gross ist (bei 2xFSAA = 2 mal die finale Bildgrösse), würde es durchaus was bringen und erklären, warum bei der GeForce 4 keine FSAA-Screenshots machbar sind, zumindest im Vollbildmodus nicht.