Kommentar: Numerische Bewertungen sind für den A****

Von Jeremiah David am 22. April 2020

Braucht es die Zahlen am Ende eines Tests?

Okay, ich gebe es zu: Der Titel dieses Kommentars ist Click-Bait. So ganz für den Popo sind die numerischen Bewertungen von Spielen nicht. Wäre das der Fall, käme ich mir beim Schreiben meiner Testberichte ziemlich dämlich vor.

Aber je länger ich als Redakteur tätig bin, desto klarer wird mir, dass Wertungen nur bedingt sinnvoll sind und ihr Nutzen im Laufe der letzten Jahre immer geringer wurde.

Patch me!

Während ich diese Zeilen tippe, hat Kollege Andreas erst vor ein paar Minuten einen Artikel zu Mario Maker 2 verfasst, denn Nintendo hat ein sattes Update für den Level-Editor veröffentlicht. Das ist an und für sich eine tolle Sache, aber wieso gibt’s dieses Update jetzt erst? Hätte Nintendo das Spiel nicht bereits zum Launch mit vollem Umfang veröffentlichen können, so wie das zu früheren Zeiten der Fall war? Zum Beginn meiner mehr oder weniger steilen Zockerkarriere gab es keine Updates und Patches. Als Dreikäsehoch musste ich mich immer mit genau dem Spiel auseinandersetzen, das Nintendo damals auf das entsprechende SNES-Modul gepackt hatte. Heute gibt es gefühlt gar keine Spiele mehr, die zum Launch nicht irgendeinen Day-One-Patch benötigen oder nachträglich noch mit kostenlosem oder gar kostenpflichtigem DLC aufgepeppt werden. So lassen sich Termine leichter einhalten, Spieler werden zudem länger bei der Stange gehalten und öfter zur Kasse gebeten. Für Publisher und Entwickler ist das gut, aber wie wirkt sich das auf unsere Tests und Bewertungen aus? Praktisch ist das im Juni 2019 von uns bewertete Mario Maker 2 nicht mehr dasselbe, das wir heute kaufen und spielen können. Besonders Day-One-Patches sind für uns Redakteure nervig. Da sitzt man Stunden vor dem Testexemplar eines Spiels und bemüht sich rechtzeitig zum Launch einen möglichst objektiven, ausführlichen Text zu verfassen, nur um dann am Tag der Veröffentlichung festzustellen, dass ein Patch Teile des Tests bereits wieder obsolet gemacht hat. In extremen Fällen, zum Beispiel bei No Man’s Sky, können zahlreiche technische Verbesserungen im Nachhinein Wertungsergebnisse völlig unbrauchbar machen.

Nimm du das Spiel! Das ist nichts für mich.

In anderer Hinsicht waren Wertungen schon vor dem 21. Jahrhundert nur bedingt nützlich, denn damals wie heute sind Tests größtenteils subjektiv. Klaro. Jeder weiß, dass der persönliche Geschmack einen großen Einfluss auf das jeweilige Spielerlebnis hat, und das hat nicht einmal unbedingt etwas mit Genres zu tun. Wenn Kollege Deniz ein JRPG in höchsten Tönen lobt, dann weiß ich, dass mir der Titel trotz aller objektiven Qualitäten vermutlich nicht gefallen wird, einfach weil ich in der Regel keine JRPGs mag. Kollege Andreas spielt auch JRPGs, zockt aber darüber hinaus Spiele etlicher Genres, die mir durchaus gefallen könnten. Hier achte ich in Tests auf andere Hinweise und ziehe aus womöglich negativ gemeinten Aussagen sogar Positives: Wenn er sich nämlich zum Beispiel darüber beschwert, dass ihm ein Spiel zu leicht ist, dann ist selbiges für mich vermutlich gerade schwierig genug. Ein in seinen Augen angemessener Schwierigkeitsgrad ist für mich dagegen vermutlich zu hart. Was für ihn eine Herausforderung ist, grenzt für mich an Masochismus. Wir setzen bei der Wahl unserer Spielinhalte und der Bewertung ebendieser schlicht unterschiedliche Prioritäten und das ist völlig legitim.

Hier bei NplusX versuchen wir Spiele immer von einem Redakteur testen zu lassen, der auch tatsächlich etwas mit dem jeweiligen Genre anfangen kann, manchmal funktioniert das aber nicht. Manchmal gibt es nicht einmal ein richtiges Genre.

Ihr werdet unter unserem Test zu Media Molecules Dreams keine Wertung finden, weil ich dem Spiel keine numerische Wertung verpassen wollte. Ich kann bis heute nicht nachvollziehen, wie andere Seiten ihre Wertungen in Ermangelung normaler Beurteilungskriterien erstellt haben. Dreams ist kein klassisches Spiel. Es ist eine Sammlung verschiedener Tools zum Erstellen eigener Spiele.

Ob und wie lange ein Spieler damit Spaß hat, hängt weniger von der Software ab, als vielmehr von der Kreativität und dem Willen des jeweiligen Spielers. Die Kampagne ist nur etwa zwei Stunden lang, die Tool-Sets können aber tagelang unterhalten, wenn man nicht schon nach Minuten gefrustet die Lust verliert. Je nach Ansichtsweise ist der Umfang also erschreckend kurz oder gar unendlich groß. Dreams eine numerische Wertung verpassen zu wollen ist so, als würde man ein Programm wie Blender, Poser oder Adobe Photoshop mit irgendeiner Zahl bewerten wollen. Möglich? Natürlich. Sinnvoll? Darüber lässt sich streiten. Die im Netz erhältlichen, meist sehr guten Wertungen von Dreams spiegeln für mich die hochwertige Produktion der Software wider, machen aber keine Aussage über den Unterhaltungswert. Der Spaßfaktor kann hier nicht wirklich bewertet werden.

Mangelnde Vergleichbarkeit

Ich bin der Meinung, dass man mit numerischen Wertungen immer auch einen Vergleich zu anderen Spielen ziehen können sollte. Das ist bei Dreams sicher nicht der Fall, aber hier muss man fairerweise sagen, dass dies auch bei anderen „normalen“ Spielen immer häufiger nicht möglich ist. Der Indie-Markt hat diesbezüglich vieles durcheinandergewirbelt. Ein kurzes Spiel, das für 5€ nur im e-Shop angeboten wird, ist natürlich nicht mit einem 70€-Vollpreistitel mit einer Spielzeit von 120 Stunden vergleichbar und die Wertungen müssen diesen Umstand irgendwie widerspiegeln. Wenn also ein Spiel wie Journey auf Metacritic einen hervorragenden Wert von 92 hält, dann ist dieser Wert logischerweise kaum vergleichbar mit der identischen 92er-Wertung von The Witcher 3: Wild Hunt. Hier machen nicht nur unterschiedliche Genres jeden Vergleich zunichte. Die Spiele sind unterschiedlich lang, kosteten zum jeweiligen Release unterschiedlich viel und sprechen ganz andere Zielgruppen an. Unter Berücksichtigung all dieser Faktoren kann man aber argumentieren, dass die beiden Wertungen zumindest ansatzweise in Ordnung gehen. Als kurzer, entspannender Budgettitel ist das meditative Journey nicht zu verachten. Als AAA-Action-Rollenspiel ist auch The Witcher 3 erste Sahne. Ob das eine Spiel jetzt ein paar Pünktchen mehr oder weniger verdient hätte als das andere, ist eigentlich irrelevant.

Der durchschnittliche Durchschnitt

Apropos Pünktchen… Wir bewerten auf NplusX mit Schritten von 0.5. Eine Wertung von beispielsweise 8.7 werdet ihr hier nie sehen, auf anderen Seiten sind solche Zahlen dagegen Standard. Aber wie lässt sich spielerisch der Unterschied zwischen einer 8.7 und einer 8.8 messen? Ist ein Spiel mit einer Wertung von 3.3 genau 0.2 schlechter als ein Spiel mit einer Wertung von 3.5? Wie zeigt sich das? Macht es überhaupt Sinn, sich solch eine Frage zu stellen? Sind nicht beide Spiele einfach nur grottig? Fanboys regen sich in Foren mächtig auf, wenn ihr aktuelles Lieblingsspiel schlechter bewertet wird, als ein vergleichbares Spiel der bösen Konkurrenz. Zugunsten eines digitalen Schwanzvergleichs werden dann Nachkommastellen plötzlich ungemein wichtig, obwohl sie es kaum oder gar nicht sind. Vielleicht sollten Seiten zur Wahrung der Objektivität ganz auf numerische Wertungen verzichten?

Es gibt kaum griffige Kriterien, an denen sich Redakteure beim Erstellen von Wertungen orientieren können. Wenn ihr hier auf NplusX einen Test aufruft, dann findet ihr ganz unten stets einen Link. Da steht „Klicke hier für eine Erklärung unserer Wertungen“. Unsere Skala von 0 bis 10 wird dort dann in sechs Bereiche unterteilt, fast wie Noten in der Schule. Ab einer Wertung von 7.0 gilt ein Spiel als „gut“. Solche Spiele würde ich persönlich aber inzwischen als Standardspiele abstempeln. Es gibt immer seltener wirklich miese Spiele. Ein Spiel mit einem Wert unter 5.0 ist für mich kaum noch einen Blick wert, rein rechnerisch ist 5.0 jedoch der Durchschnitt aller möglichen Wertungen. Sollte also ein absolutes Durchschnittspiel nicht eher mit einer 5 bewertet werden, statt mit einer 7-irgendwas?

(Kein) Fazit

Welches Fazit ziehe ich nun aus diesen losen Gedanken, die ich in diesen Kommentar gepackt habe? Diese Frage zu beantworten fällt mir leicht: Gar keins. Wir – und damit meine ich nicht nur NplusX – werden so weitertesten wie bisher. Ich werde weiterhin Metacritic benutzen, werde weiterhin Tests auf anderen Seiten lesen und mir bei dem ein oder anderen Spiel denken „Boah… 9.2! Das Spiel muss gut sein. Das hol ich mir!“

Ein Stück weit sind Spielebewertungen sicher für den A****, aber eben nur ein Stück weit. Sie ermöglichen trotz aller Fehler im System eine grobe erste Einschätzung. Ein persönliches Hands-On können sie nicht ersetzen. Davon abgesehen sollten numerische Wertungen natürlich nie isoliert betrachtet werden. In der Regel gibt es nicht grundlos lange Texte dazu und die sind häufig ganz unabhängig vom Informationsgehalt sehr unterhaltsam.

In dem Sinne: Lest weiter unsere Reviews. Schenkt uns eure kostbare Zeit. Wir sind euch ehrlich dankbar dafür! Aber behaltet dabei stets im Hinterkopf: Alles ist relativ.

Schreibe einen Kommentar:

9 Kommentare:


nibez
vor 7 Monaten | 2
Für mich als Leser sind Zahlenwertungen natürlich immer praktisch. Wenn ich einen Test zu einem Spiel suche und dieser dann keine Wertung hat, denke ich meist automatisch "Puh, oh man, dann muss ich ja den Test lesen.." Und dann lese ich erstmal nur das Fazit oder schlimmer: ich suche auf einer anderen Seite nach dem Test.
Genau das sollte mich als Redakteur natürlich ziemlich nerven, denn ich schreibe einen Test ja nicht nur als Beiwerk zur Zahlenwertung. Der Text vermittelt schließlich die Eindrücke zum Spiel, die Wertung ist nur eine grobe Einordnung in das spezielle System unserer Seite. Und jede Seite hat ein anderes System zur Bewertung, was zum Beispiel bedeuten könnte, dass eine 8 von Seite X und eine 9 von Seite Y im Grunde gleich gute Wertungen sind. Das kann Metacritic logischerweise auch nicht beachten.
Ich mag Zahlenwertungen auf jeden Fall, aber sehe auch die Probleme. Ist eben ein schwieriges Thema, das für jede Seite auch noch unterschiedlich schwerwiegend ausfällt.

Zum Thema Patches: Glücklicherweise haben wir als Online-Medium parallel zu den Patches der Spieleentwickler die Möglichkeit, unsere Artikel auch lange nach deren Erscheinen noch zu bearbeiten und sie gegebenenfalls auch wieder auf ein aktuelles Datum zu setzen, damit die Leser wissen, dass es ein Update in der Wertung gab. Es ist nur von Spiel zu Spiel fraglich, ob sich der Aufwand des Umschreibens lohnt. Vor allem geht das ja auch nur, wenn man den Titel überhaupt noch aktiv spielt.

Vyse
vor 7 Monaten | 1
Sehr guter Artikel, dem ich in vielen Punkten zustimmen kann. Plump gesagt: Cross Edge (Metascore: 52) macht mir mehr Spaß als Dragon Quest IX (Metascore: 87), weil Cross Edge sehr herausfordernd ist und Dragon Quest IX meines Empfindens nach viel zu leicht.

Oft komme ich auch als Tester in die Situation, dass ich eigentlich gar keine aussagekräftige Wertung vergeben kann. Nioh 2 ist zum Beispiel ein Titel den ich selbst Spielern, die gerne Action-RPGs spielen, nur sehr bedingt empfehlen würde. Weit über 90% der Diablo-III-Spieler würden Nioh 2 spätestens beim zweiten oder dritten Bosskampf wieder deinstallieren. Wer aber sogar Bock auf eine Herausforderung hat, für den ist Nioh 2 sehr nahe an einer 10 und Diablo III aufgrund seiner Instant Respawns vermutlich sogar völlig uninterssant. Wie soll man das alles in einer einzigen, uniformen Zahlenwertung ausdrücken? Egal welche Zahl ich da wähle, irgendjemand wird völlig anderer Meinung sein.

Ich persönlich würde in vielen Fällen sogar so weit gehen zu sagen, dass für mich nicht nur Zahlenbewertungen, sondern auch die meisten Reviews eher nutzlos sind. Ein starkes Beispiel das mir spontan einfällt ist das GameSpot-Review zu Atelier Meruru, in dem der Tester den aus seiner Sicht zu kurzen Rock der Protagonistin zu einem zentralen Thema gemacht hat und die vielen optionalen Superbosse, die den Titel für mich zu einem der besten JRPGs der letzten Konsolengeneration gemacht haben, nicht einmal erwähnte. Das Review war für mich, unabhängig von seiner Zahlenbewertung, sogar regelrecht irreführend, da der Autor und ich völlig unterschiedliche Erwartungen an ein Videospiel stellen.

Ich gehe daher gerne auf Steam, lasse mir nur die negativen Reviews anzeigen und schaue dann, was die Kritikpunkte sind. Wenn dabei häufig ein zu niedriger Schwierigkeitsgrad erwähnt wird, lasse ich mich auch von einem noch so hohen Metascore nicht beeindrucken. Im Fall von Bloodstained: Ritual of the Night hat mich dieses Vorgehen z.B. vor einem teuren Fehlkauf bewahrt.

Und wenn Spiele-Flatrates wie der Game Pass zunehmend zum Standard werden, werden Reviews und Metascores eine noch geringere Rolle spielen als heute schon.

Denios
vor 7 Monaten | 2
Eine Wertung kann und soll ja auch nicht vorhersagen, wie viel Spaß jemand mit einem Spiel haben wird. Der Test ist (zumindest meiner Bewertungsphilosophie zufolge) ein Versuch, so objektiv wie möglich zu beschreiben, was einen in dem Spiel erwartet und die Zahlenwertung ist ein Versuch, zu bewerten, wie sich das Spiel in gewissen Punkten mit Genrekollegen aus der gleichen Konsolengeneration und aktuellen Spielen im Allgemeinen vergleichen lässt.

Ob ein Spiel leicht oder schwer ist, ist natürlich nicht objektiv messbar und in solchen Fällen hilft es, den Tester etwas besser zu kennen. Wenn ich, dem der Schwierigkeitsgrad eines Spiels in den meisten Fällen egal ist und der sich selbst nicht unbedingt als der beste Zocker ever bezeichnet, ein Spiel als "sehr leicht" bezeichne, dann kann man auch davon ausgehen, dass es Pupseinfach ist. Aber das heißt nicht, dass ein Spiel, das ich als "schwer" bezeichne für jemand anderen eine wirkliche Herausforderung darstellen wird.

Ein Spiel mit einer hohen Wertung ist imo eines, das technisch die Möglichkeiten der Konsole, auf der es erschienen ist, entweder ausreizt oder auf eine andere Art und Weise (zB durch einen einzigartigen Artstyle) beeindruckend im Vergleich mit zeitnah erschienenen Games ist, nicht zu kurz ist, seinen Aufenthalt aber auch nicht zu sehr hinauszögert, sich sauber steuern lässt und Gameplay bietet, das entweder clevere neue Kniffe verwendet und abwechslungsreich ist, oder bereits bestehende Systeme meisterhaft ausführt und an gegebenen Stellen optimiert. Alle anderen Teile der Wertung (Story, Musik, ob das Gameplay gut oder schlecht ist) sind zwangsläufig subjektiv, wobei ich mich auch hier bemühe, zu erklären, warum ICH diese Story jetzt gut oder schlecht finde.

Eine schlechte Wertung kommt bei mir immer dann zustande, wenn das Spiel technisch unsauber ist, den Fokus auf eine Mechanik setzt, die mir nicht ausgereift scheint oder in anderen Punkten der Konkurrenz einfach deutlich hinterherhinkt.

Die Wertung wird nie den gesamten Test "ersetzen" können, sondern im Bestfall einen Anhaltspunkt, wo die Reise ungefähr hingeht. Wenn ich viele 3/10er sehe, werde ich natürlich einem Spiel gegenüber deutlich pessimistischer als bei 10/10ern. Ein genaueres Bild in Form von Videos, Demos etc. würde ich mir aber in beiden Fällen machen, wenn mich das Spiel irgendwie anspricht.
prog4m3r
vor 7 Monaten | 0
Grundsätzlich stimme ich Deniz ja zu, obwohl er ein hoffnungsloser Dragon Quest Fanboy ist und all diese Test vollkommen überbewertet sind! ;)

Wobei ich Jerrys Anmerkung bezüglich kleinteiliger Wertungen durchaus widersprechen wollen würde, für einen persönlich macht dies schon Sinn. Ich bspw. bewerte für mich selbst auch mit x.irgendetwas, poste hier dann allerdings eine auf, bzw. abgerundete Wertung, da es für andere wenig Sinn macht, eine Zahlwertung auch immer nur ein Richtwert ist und wie Deniz schon sagt, nicht zwingend mit dem Spielspaß korreliert.

Ein Spiel welches mich allein vom Genre her persönlich anspricht, wird mir trotz 5er Wertung mehr Spaß machen, als ein 9er Titel aus einem Genre, gegen welches ich eine Abneigung hege.

Trotzdem kann man versuchen dazu eine möglichst objektive Wertung zu geben, dies funktioniert natürlich besser, wenn man mehr Vergleichsmöglichkeiten durch ähnliche Spiele hat, dahingehend wäre ich auch bei Dreams sehr verloren und bei Ace Combat 7 - welches ich kürzlich gespielt habe - blieb mir auch nur mein Bauchgefühl und allgemeine Erfahrung, da ich seit Top Gun (NES) nichts ähnliches mehr angerührt hatte.


Buttergebäck
vor 7 Monaten | 1
Was mir zum Thema der Interpretation von Zahlenbewertungen noch einfällt:

Bei psychologischen Fragebogen-Untersuchungen ist es gang und gäbe dass den Probanden Fragen gestellt werden die sie dann auf einer Skala, z.B. von 1 bis 10, beantworten sollen. Man könnte den Leuten z.B. einen Film zeigen und sie dann fragen wie gut sie ihn fanden. Dabei ordnen die Versuchsleiter den einzelnen Stufen dieser Skala häufig ganz bewusst keine Bedeutungen zu, wie z.B. "sehr gut", "gut", "mittel", etc. Die Menschen ordnen den Stufen der Skala also ganz automatisch Bedeutungen zu, auch wenn niemand weiß wie das eigentlich abläuft. Und obwohl dabei nicht jeder der selben Stufe die selbe Bedeutung zuweist, kann man auf diese Weise z.B. vergleichen wie gut verschiedene Filme von den Probanden gefunden werden, indem man vergleicht wie gut sie im Durchschnitt von ihnen bewertet werden. Wenn die Menschen also eine Zuordnung zwischen Zahlen und Bedeutungen, in diesem Fall also der Qualität eines Werkes, herstellen, dann funktioniert diese Zuordnung auch in umgekehrter Richtung. Aus einer Zahl werden sie auch eine Vorstellung davon entwickeln, welche Qualität bei einem Werk ungefähr zu erwarten ist. Und deshalb funktionieren Zahlenbewertungen bis zu einem gewissen Grad auch im Spielejournalismus, weil der Leser eines Tests daraus ungefähr ableiten kann, was der Tester damit meint. Dass man selbst natürlich völlig andere Vorlieben bei Spielelementen haben kann und deshalb die Qualität des Spiels für einen selbst eine völlig andere sein kann als für den Tester, bleibt davon natürlich unberührt. Aber dass die Zahlenwertung als eine Art universelle Sprache zumindest vermitteln kann wie gut das Spiel für jemand anderen ist, ist an sich schon gut und kann ihre Verwendung imho rechtfertigen.

Welche Zahl wir verwenden um eine bestimmte Spiel-Qualität zu vermitteln, wird glaube ich stark davon bestimmt was wir als "Maximum" und "Minimum" der Qualität ansehen und wo wir das betreffende Spiel relativ zu diesen Extremen einordnen. Die meisten Spiele die von Magazinen getestet werden sind zumindest relativ gut in dem Sinne, dass sie beim Spielen mehr positive Gefühle auslösen als negative, und somit näher am bestmöglichen vorstellbaren Spiel als am schlechtestmöglichen sind. Deshalb finde ich es nicht verwunderlich und auch legitim dass die Durchschnittswertung ungefähr im 7er-Bereich liegt.

Asinned
vor 7 Monaten | 6
Warum sind alle Kommentare hier so lang? Könnt ihr nicht einfach eine Zahl posten?

Matthew1990
vor 7 Monaten | 1
8/10
CaptainSatan
vor 7 Monaten | 1


TraxDave
vor 7 Monaten | 0
Cooler Artikel.
Wenn ich grad keine Zeit oder Lust hab' einen ganzen Test zu lesen, scrolle ich gerne durch die Bewertungen. Ich behalte dabei aber auch immer den Tester (insofern ich ihn/sie kenne) und die Page oder das Magazin im Hinterkopf. Von bloßen Wertungen ohne Text lasse ich mir meine Meinung allerdings nicht bilden.
Man muss für sich selbst rausfinden, welche Wertungen von welchen Medien zu welchen Spielen einem was mitteilen. Is also ganz leicht. :D