Mutation Testing mit Pitest

Autor

Philipp Czora

Kategorien

Java
Quality

Publiziert

28.08.2017

Codequalität und -korrektheit lassen sich unter anderem mit Hilfe von Unit-Tests sicherstellen. Aber nicht jeder Unit-Test ist sinnvoll und häufig schaffen es Bugs von Unit-Tests unerkannt zu bleiben. Wie lässt sich die Testqualität erhöhen, um Programmierfehler zuverlässiger und früher zu erkennen?

Wie einige andere Softwareproduzenten auch, verschreiben wir uns der testgetriebenen Entwicklung. Bei diesem Ansatz werden zuerst Unit-Tests und anschließend die eigentliche Logik implementiert. Erfreuliches Resultat dessen ist eine hohe Testabdeckung des Codes. Diese Metrik lässt allerdings nur eingeschränkt Rückschlüsse auf die Korrektheit und Qualität des zu testenden Programmcodes zu. In der Testabdeckung werden alle Codezeilen erfasst, die im Rahmen von Tests durchlaufen werden, nicht zwangsweise fehlerfreie Zeilen. Im Ergebnis bedeutet das, dass sich mit Hilfe der Testabdeckungsmetrik nur Zeilen finden lassen, die auf keinen Fall auf Korrektheit getestet werden.

Um das Extrembeispiel aufzuführen: Es ist in den meisten Fällen ohne weiteres möglich, Tests zu konstruieren, die jeden Programmpfad und jede Zeile Code abdecken, ohne eine einzige Bedingung zu prüfen. Trotz 100-prozentiger Coverage ist der Informationsgehalt über die Korrektheit des Codes gleich null.

Es stellt sich also die Frage, wie eine sinnvolle Testabdeckung durch Tests von hoher Qualität erreicht werden kann. Genauer: Wie können wir die Qualität von Unit-Tests messen? Um diese Frage zu beantworten, muss man sich mit den Gründen auseinandersetzen, warum man überhaupt Tests schreibt. Einer der Gründe – vermutlich der wichtigste – ist das Vermeiden von Programmierfehlern. Ein idealer Unit-Test stellt sicher, dass die zu testende Codeeinheit genau das tut, was sie soll. Nun lässt sich leider die Abwesenheit von Fehlern im Allgemeinen weder beweisen, noch durch Tests sicherstellen, allerdings können sie Entwickler dabei unterstützen, die wahrscheinlichsten Fehler zu vermeiden. Hierbei obliegt es dem Testautor dafür zu sorgen, dass die Tests den Code auf eben diese wahrscheinlichsten Fehler zu untersuchen. Versäumt er es, wichtige Fehlerquellen in Betracht zu ziehen, kann es trotz einer hohen Testabdeckung zu Fehlverhalten der Anwendung kommen. Was also tun?

Mutation testing

Ein Werkzeug, welches uns helfen kann die Qualität unserer Tests zu verbessern, ist das so genannte Mutation Testing. Beim Mutation Testing wird pro Testsuite-Durchlauf jeder Test nicht nur ein einziges Mal, sondern mehrfach ausgeführt. Vor jedem Testdurchlauf wird der zu testende Code entsprechend gegebener Regeln verändert oder mutiert. Schlägt der Test nach einer Änderung fehl, hat er seine Robustheit in diesem Falle unter Beweis gestellt. Bleibt er allerdings grün, kann dies ein Hinweis darauf sein, dass der Code den durch die Veränderung ins Leben gerufenen Fehlerfall nicht abdeckt.
Am Ende lässt sich also für jeden Unit-Test sehen, welche Veränderungen nicht von ihm erkannt wurden.
Diese Veränderungen werden als Mutationen (Mutations) bezeichnet. All jene Mutationen, die den Test fehlschlagen lassen, werden als abgetötet (killed) bezeichnet, da sie den Test nicht überlebt haben. Unter dem Begriff “Überlebende” (Survivors) versteht man Mutationen, die nicht durch einen Test erkannt werden – trotz ihrer Anwesenheit werden die Tests grün. Hierbei sei zu erwähnen, dass einen Test überlebende Mutationen nicht zwangsweise ein Problem darstellen; sie können aber sehr wohl auf eines hinweisen.

Jede Testsuite mehrfach zu durchlaufen und zwischen den Läufen auch noch den zu testenden Code zu mutieren, bedeutet einen erheblichen Aufwand, der manuell nicht sinnvoll zu leisten ist. Ohne Tools zur Automatisierung wären Mutationstests deshalb nicht praktikabel. Ein Werkzeug für JVM-basierte Programmiersprachen, welches die Mutationstests automatisiert, ist Pitest. In diesem Artikel werden wir die Nutzung und den Nutzen dieses Tools erläutern und beleuchten.

Beispiel

Anhand eines anschaulichen Beispiels werden wir die Sinnhaftigkeit von Mutationstests sowie die Einrichtung von Pitest mit Maven erläutern.

Nehmen wir an, es sei folgende Klasse zum Durchführen einfacher Rechnungen auf Integern in einem Maven-Projekt gegeben:

Da testgetrieben entwickelt wurde, gibt es folgende Unit-Tests zu dieser Klasse:

Die Tests bieten eine 100-prozentige Methodenabdeckung und werden beim Durchführen auch alle grün. Aber wie sieht es mit ihrer Robustheit gegenüber Mutationen aus? Um das herauszufinden, fügen wir dem Projekt das Pitest-Maven-Plugin hinzu. Dafür schreiben wir folgendes in die pom.xml:

Nachdem wir das Plugin dem Projekt hinzugefügt haben, lässt es sich wie folgt aufrufen:

clean install org.pitest:pitest-maven:mutationCoverage

Nun dauert es einen Augenblick, bis das Projekt gebaut und die Mutationstests vorgenommen wurden. Das Pitest-Plugin erstellt im target-Verzeichnis des Projekts einen Ordner mit dem Namen pit-reports – in diesem befinden sich die Ergebnisse der Mutationstests. Öffnen wir nun die im Unterverzeichnis liegende HTML-Datei und folgen den Links bis zur zu testenden Klasse, bekommen wir alle überlebenden und getöteten Mutationen angezeigt:

Wie auf dem Bild zu sehen ist, gab es sechs Mutationen, von denen zwei die Testsuite überlebt haben. In beiden Fällen handelt es sich um Mutationen auf mathematischen Operationen; einmal wurde ein Minus durch ein Plus ersetzt, ein anderes Mal ein Sternchen als Multiplikationsoperator durch einen Schrägstrich als Divisionsoperator.

Die zu testende Klasse ist augenscheinlich leicht zu erkennen fehlerfrei – trotzdem gibt uns das Ergebnis des Mutationstests sinnvolle Hinweise: Die Klasse könnte Fehler enthalten, aber unsere Testsuite wäre trotzdem Grün. Im gegebenen Fall: Die Tests lassen es zu, dass addiert statt subtrahiert und dividiert statt multipliziert wird, ohne dass sie fehlschlagen.

Natürlich sind die Testdaten zu Anschauungszwecken genau so gewählt, dass es zu überlebenden Mutationen kommt. Ändern wir die Unit-Tests wie folgt, kommt Pitest zu einem anderen Ergebnis:

Die Tests werden nach wie vor Grün, allerdings werden jetzt zusätzlich auch alle Mutationen abgetötet:

Mutatoren

Die beiden überlebenden Mutationen aus dem Beispiel entstanden durch ersetzen eines mathematischen Operators durch sein Inverses, das heißt aus Addition wurde Subtraktion und aus Multiplikation wurde Division. Die Regeln nach denen diese Ersetzungen stattfinden, werden in sogenannten Mutatoren (Mutators) hinterlegt. Pitest selbst liefert einige Mutatoren aus, unter anderem zum Beispiel den oben verwendeten MATH-Mutator. Dieser Mutator ersetzt nicht nur Subtraktions- und Multiplikationsoperatoren, sondern insgesamt folgende:

Andere Mutatoren ersetzen jedes Inkrement durch ein Dekrement, oder lassen If-Bedingungen immer true (oder false) sein. Eine vollständige Dokumentation der von Pitest mitgelieferten Mutatoren, findet sich in der entsprechenden Dokumentation.

Die durch Pitest automatisch out of the box durchgeführte Kombination von Mutatoren ermöglicht die Identifikation von Problemen und Uneindeutigkeiten innerhalb der Testsuite bei geringem zeitlichen Mehraufwand für den Entwickler. Wie die meisten guten Dinge haben auch Mutationstests ihren Preis.

Nachteile von Mutationstests

Zwar müssen Mutationstests mit Pitest nicht vom Entwickler geschrieben, aber an irgendeinem Zeitpunkt ausgeführt werden. Die Laufzeit der Mutationstests ist in den allermeisten Fällen um einiges größer, als das reine Ausführen der Unit-Tests. So werden für jedes Stück Code, welches durch einen Unit-Test getestet wird, eine oder mehrere Mutationen generiert, für die jeweils der Unit-Test ausgeführt wird. Selbst bei Projekten mit wenigen tausend Zeilen Code mit hoher Testabdeckung kann das Ausführen der Mutationstests so einige Minuten dauern. Und das trotz der Optimierungen, die Pitest vornimmt. So werden beispielsweise für eine Mutation nicht zwangsweise alle Tests durchlaufen, sondern nur die, die auch eine Chance haben, diese Mutation zu entdecken. Sobald ein Test eine Mutation abfängt, werden für diese dann auch keine weiteren Tests mehr ausgeführt.

Auch lässt sich Pitest in Kombination mit dem Maven-SCM-Plugin so konfigurieren, dass nur neu hinzugefügter Code mutationsgetestet wird. Im Rahmen einer CI-Pipeline hat man so beispielsweise die Möglichkeit, Mutationstests immer im Nightly Build und dann nur auf neu hinzugekommenen Code durchzuführen. Am Ende dieser Pipeline kann dann ein SonarQube stehen, in das die Pitest-Ergebnisse importiert werden. Wie das funktioniert, erklären wir in einer Fortsetzung dieses Blogeintrags.

Ähnlich wie von einer hohen Testabdeckung kann man sich als Softwareentwickler auch von einer hohen Mutationserkennungsrate zu einem Overengineering der Unit-tests hinreißen lassen. Und obwohl es sicherlich gut ist, wenn keine Mutation die Tests überlebt, muss im Einzelfall entschieden werden, welche Überlebensrate Sinn ergibt, beziehungsweise welche Mutationen man ohne schlechtes Gewissen überleben lassen möchte. Momentan bietet Pitest keine Möglichkeit, bestimmte Überlebende zu ignorieren. Entschließt man sich also bewusst dazu eine Mutation nicht abzutöten, tauchen diese trotzdem immer im Pitest-Report auf.

Fazit

Mutationstests können mit geringem Aufwand helfen, schwache Unit-Tests zu erkennen, zu verbessern und somit zu einer höheren Softwarequalität beizutragen. Sie sind jedoch kein Allheilmittel – die Einführung von Mutationstests wird die Qualität eines Produktes nicht plötzlich schlagartig steigen lassen. Allerdings bieten Mutationstests einen gangbaren Weg, das Vertrauen des Entwicklers in die eigenen Unit Tests zu erhöhen – ähnlich wie Unit-Tests das Vertrauen in den Code erhöhen können. Ob und in welchem Umfang Mutationstests eingesetzt werden, muss von Fall zu Fall entschieden werden. Einen goldenen Weg gibt es dafür nicht.

Über den Autor

Philipp Czora

Software Development

Philipp umgibt sich am liebsten mit Menschen, von denen er etwas lernen kann und versucht in der Softwareentwicklung die perfekte Mischung aus Pragmatismus und Perfektionismus zu finden.

github.com/pczora

Kommentare

Keine Kommentare

Kommentarfunktion deaktiviert

Herangehensweise und Erkenntnisse einer Architektur-Analyse im Rahmen eines Code Reviews

Autor

Benny Schwarting

Publiziert

15.07.2019

Nachdem in dem letzten Artikel wichtige Kennzahlen aus der statischen Analyse eines Code Reviews betrachtet wurden, werden nun Aspekte der manuellen Analyse beleuchtet. Wie läuft eine Architektur-Analyse bei einem Code Review ab und welche Erkenntnisse können daraus gezogen werden?

Eine Groovy-DSL zum Erzeugen von Testdaten über JPA

Autor

Daniel Behrwind

Publiziert

03.07.2017

Beim automatisierten, integrativen Testen von Software, die mit einem komplexen JPA-Datenmodell arbeitet, steht man unweigerlich früher oder später vor der Frage, wie sich semantisch sinnvolle Testdaten ohne großen Aufwand erzeugen lassen. Dieser Artikel zeigt, wie man mit Groovy eine Domain Specific Language (DSL) definieren kann, die es erlaubt, Testdaten leicht lesbar, modular und getrennt vom eigentlichen Test-Code zu definieren.

Jenkins Pipeline Plugin: Code-Vervollständigung in IntelliJ

Autor

Johannes Schnatterer

Publiziert

06.06.2017

Das Pipeline Plugin (früher Workflow Plugin) für Jenkins revolutioniert die Arbeit mit Jenkins, indem es das Erstellen von Build Jobs als Code ermöglicht. Dadurch werden Build Pipelines unter anderem wiederverwendbar, versionierbar, testbar und einfacher lesbar als etwas “Zusammengeklicktes“.

Statische Codeanalyse mit SonarQube

Autor

Josha von Gizycki

Publiziert

13.02.2017

Manchmal fragen sich Entwickler: „Was mache ich hier eigentlich?“ Das hat dann nichts mit einer plötzlichen Sinneskrise oder dem Zusammenbruch der persönlichen Weltanschauung zu tun. Vielmehr wacht der innere Softwarearchitekt auf und verlangt nach einer Darstellung des Großen Ganzen.

Mutation Testing mit Pitest – Teil 2: SonarQube

Autor

Philipp Czora

Publiziert

29.11.2017

Dieser Post baut auf dem vorangegangenen Teil auf. Solltet ihr diesen noch nicht gelesen haben, empfehlen wir, euch einige Minuten Zeit zu nehmen und dies jetzt zu tun.

KI auf Basis eines neuronalen Netzes

Autor

Niklas Petersen

Publiziert

21.07.2020

In diesem Blog-Beitrag wird der Aufbau eines neuronalen Netzes für eine Künstliche Intelligenz gezeigt. Zudem wird beispielhaft erklärt, wie man diese KI mithilfe von Trainingsdaten, Backpropagation und Evolution trainieren kann, aber auch, welche Gefahren dabei auftreten können.

Fazit

Kommentare

Ähnliche Beiträge

Herangehensweise und Erkenntnisse einer Architektur-Analyse im Rahmen eines Code Reviews

Eine Groovy-DSL zum Erzeugen von Testdaten über JPA

Jenkins Pipeline Plugin: Code-Vervollständigung in IntelliJ

Statische Codeanalyse mit SonarQube

Mutation Testing mit Pitest – Teil 2: SonarQube

KI auf Basis eines neuronalen Netzes