Es sind nicht 60 FPS weniger. Eine Sekunde hat 1000 millisekunden! Bei SLI bzw. Crossfire passiert ganz einfach folgendes: Pro Sekunde bei aktiviertem Vsync und 75 hz wird ein Frame Latenz hinzugefügt. Das heißt das Bild ist um 1/75el einer Sekunde hinten nach. Das sind 0,016 Sekunden = 16 ms. Klingt nach nicht viel aber wenn man bedenkt, dass das Ziel für VR 20ms bis das Bild beim Auge ankommt (Displayverzögerung schon inkludiert), dann ist das sehr viel. Auch eine single GPU hat schon Latenz um ein Bild zu berechnen. Die 16ms kommen quasi nur noch oben drauf.
Kurze (EDIT: eher längere

) Anmerkung. Es ist rein logisch gesehen nicht ein ganzes Frame, was an "Latenz" oben drauf kommt. Sondern es ist im Optimalfall ziemlich exakt ein Halbes

Warum? Ganz einfach, die Bildausgabe erfolgt sequenziell. Wäre es ein ganzes Frame zusätzliche Verzögerung, dann müssten beiden GPUs zwei Frames exakt zur selben Zeit beginnen zu berechnen wie auch exakt zur selben Zeit beenden. Der Framebuffer bekommt dann zwei Frames. Was eigentlich keinen Sinn macht, weil es in beiden Fällen zum selben Ergebnis führen würde (also das Bild sieht identisch aus, da zum Berechnungsbeginn bei exakt selbem Zeitstempel auch exakt die selben "Daten" bei beiden Bildern vorliegen...
Damit AFR Sinn macht (nämlich die FPS zu steigern), muss ein Versatz her. Dieser Versatz ist im Optimalfall exakt die Hälfte eines Frames. (also die Zeit in ms, wie lange ein Frame zur Berechnung dauert, geteilt durch zwei) -> die zweite GPU fängt (bildlich von ganz vorn gesehen) also mit dem Bild n+1 genau dann an, wenn das erste Bild "zur Hälfte" fertig ist. Frame Metering bzw. Frame Pacing sollten genau dafür (mit)verantwortlich sein. -> eben um schwankende Frametimes zu unterbinden rechnet man mit den Zeiten der/des vorherigen Frames.
GPU zwei benutzt als Basisdaten für jenen Frame n+1 auch nicht die selbe Basis wie GPU eins für Frame n -> sondern schon einen "Schritt" weiter. Somit entsteht eine Bildänderung -> ein Schwenk des Sichtfeldes oder eine Positionsänderung von Objekten auf dem Bild usw. usf.
Wäre dies nicht so, dann würde man zwar die doppelten Bilder pro Sekunde berechnen (mit zwei GPUs), aber beide GPUs würden den selben Frame raushauen. Auch wenn es formal zwei verschiedene Bilder wären, wäre der Inhalt exakt identisch -> somit wären gemessen zwar mehr Bilder pro Sekunde da, aber sichtbar nur die "Hälfte". Ähnlich VSync bei 60Hz und nur unter 60 FPS -> da wird jedes Frame doppelt so lange dargestellt.
Da der Mensch aber nicht die ausgegebenen Bilder erkennt, sondern den Inhalt der Bilder, ändert sich bei doppelter Ausgabegeschwindigkeit aber dafür immernoch nur gleich vielen Bildinhaltsänderungen visuell gesehen gar nix!
Anders das Problem mit den Frametimes. Hier kommt es aufgrund von starken Schwankungen zu dem Problem, dass die kurzen Zeitunterschiede unter gehen an den längeren Perioden. Jedes zweite Bild wird länger dargestellt und somit entsteht der Eindruck, dass der Speed gar nicht zunimmt (Stichwort MR)
PS: für VR würde sich auch AFR als solches gar nicht wirklich anbieten. Ich weis nicht genau, wie die Entwicklung an der Stelle nun wirklich steht (ohne direkt kaufbare Consumer Produkte), aber für VR wäre eine Art MGPU mit zwei GPUs und der Berechnung pro Auge deutlich sinnvoller. Skalierung sollte in dem Fall bei >90% liegen -> weil die Komplexität der Berechnung beider Augen wenig unterschiedlich pro "virtuellem Frame" ist. Ein "virtueller Frame" meint dabei das Bild ansich, was einmal fürs linke und einmal fürs rechte Auge gerendert wird. Da die Basis in beiden Fällen gleich ist wäre eine annähernd perfekte MGPU Skalierung hinzubekommen. Und natürlich auch keine Latenzsteigerung

Deine benannten ~20ms wären also durchaus im Rahmen des möglichen, wenn man sich allein auf die GPU(s) beschränkt. -> dies ist aber leider auch nicht alles, wie derneuemann schon sagte. Die Latenz von Eingabe bis zum Erfassen des Gehirns vom "Bild" über beide Augen ist das entscheidende... Um so schneller die FPS, desto mehr Zeit bleibt für die Restlatenz abseits der GPU...
PPS: theoretisch würde sich so eine Art MGPU sogar für normale 3D Darstellung mit ner Shutterbrille oder ähnliches anbieten. Das Problem dabei ist eher, dass es am GPU Ausgang nur wieder zusammen gesetzt wird und somit der Effekt verpufft. Ein aktiver 3D Monitor, welcher mit zwei Streams gleichzeitig angesteuert werden würde, könnte sowas umgehen... Gibts aber atm soweit ich weis nicht. Bestenfalls ein paar "Krücken" im Bereich UHD mit 2x HDMI oder sowas -> aber dort eher um die Auflösung hinzubekommen als um den 3D Effekt zu erzeugen.