Phineo’s „Wirkt-Siegel“ muss rigorose Wirkungsmessung stärker berücksichtigen

Wie wirksam sind soziale Projekte und Maßnahmen von gemeinnützigen Organisationen und Regierungen? Die traurige Antwort ist: wir wissen es oft nicht. Zwar gibt es in Deutschland von Phineo seit einigen Jahren das „Wirkt-Siegel“, doch dieses bezieht sich in der Analyse nur unzureichend auf rigorose Wirkungsmessung. Einige wenige Änderungen in der Methodik und Kommunikation können aber schon helfen hier mehr Transparenz zu schaffen.
By Kevin Hempel | November 2021
Wirksamkeit zunehmend im Fokus, aber Deutschland hinkt hinterher
Inwiefern helfen Maßnahmen von Regierungen und Nichtregierungsorganisationen wirklich den Menschen für die sie gedacht sind, z.B. im Bereich Bildung, Kinder- und Jugendhilfe, oder Arbeitsmarktintegration? Die Wirksamkeit von sozialen Projekten ist in den letzten zwei Jahrzehnten zunehmend in den Fokus gerückt, sowohl international als auch in Deutschland. Dennoch hinkt Deutschland in dieser Hinsicht anderen Ländern oft immer noch hinterher. Der deutschen Entwicklungspolitik wird bescheinigt, dass rigorose Wirkungsanalysen „eher selten und unsystematisch durchgeführt“ werden (DEval, 2019). Und auch in Deutschland selbst wird zwar zunehmend inflationär von „Wirkungen“ gesprochen, aber häufig ohne den Versuch einen tatsächlichen Wirkungsnachweis zu erbringen (Ottmann und König, 2018). (Ein gutes Erklärvideo zur rigorosen Wirungsevaluierung gibt es hier.)
Dennoch tut sich etwas, und die Stimmen nach besserer Wirkungsorientierung werden lauter. So ist es schön zu sehen, dass mehr und mehr Institutionen in Deutschland die rigorose Messung von Wirkungen ernst nehmen. Zum Beispiel: Organisationen wie Balu und Du oder Rock Your Life! haben anhand rigoroser Evaluierungen ihre positiven Wirkungen nachweisen können; Eleven hat in den letzten Jahren zahlreiche Organisationen gefördert ihre Wirksamkeit zu erhöhen; und effektiv-spenden.org gibt Spendenempfehlungen auf Basis rigoroser Wirkungsanalysen.
Phineo, ein Gemeinnütziges Analyse- & Beratungshaus für wirkungsvolles Engagement, ist wahrscheinlich der größte und bekannteste „player“ in Deutschland zum Thema Wirkungsorientierung. Unter anderem verleiht Phineo ein „Wirkt-Siegel“ und bietet Weiterbildungen im Bereich Wirkungsorientierung an. Dies ist erstmal erfreulich, da so das Thema Wirkungsorientierung mehr Menschen und sozialen Organisationen nähergebracht wird. Doch mit Größe kommt auch Verantwortung, und hier ist das Problem: Wer sich mit Wirkungsmessung auskennt stellt schnell fest, dass Phineo‘s Wirkt-Siegel missverständlich ist, da es sich nicht auf empirische Wirkungsstudien stützt. Dieses Problem ist bekannt und wird in sozialen Medien (und sicher auch anderswo) immer mal wieder zur Sprache gebracht.
Um es nicht beim „Meckern“ zu belassen möchte ich hier kurz erläutern wo meiner Auffassung nach das Problem liegt und gleichzeitig einen Versuch unternehmen zu zeigen, wie man mit ein paar einfachen Änderungen das Siegel verbessern kann. Es geht mir hier vor allem darum einen konstruktiven Diskurs anzuregen, in dem wir, denen die Wirksamkeit sozialer Maßnahmen am Herzen liegt, gemeinsam versuchen das Thema voranzubringen.
Phineo‘s Wirkt-Siegel – und das Problem
Wer mit Phineo’s Analysemethoden im Rahmen des Siegels nicht vertraut ist, kann diese hier nachlesen. Es handelt sich dabei um ein mehrstufiges Verfahren in dem Phineo anhand von online-Fragebögen, Infomaterial und Vor-Ort-Besuchen sowohl die allgemeine Leistungsfähigkeit einer Organisationen also auch das Wirkungspotential eines bestimmten Projekts unter die Lupe nimmt.
Obwohl ich mit den internen Details der Methode und der praktischen Umsetzung nicht vertraut bin, erscheint mir diese insgesamt schlüssig und solide. Insbesondere bewerte ich den ganzheitlichen Ansatz, nachdem man sich sowohl das Projekt als auch die Organisation anschaut, als positiv. Mir ist außerdem klar, dass so ein Siegel natürlich nicht alles erfassen kann und immer eine gewisse Vereinfachung beinhaltet. Das ist normal und ein gewisser Pragmatismus ist unumgänglich. Vor diesem Hintergrund ist es ist völlig klar, dass man es nicht jedem recht machen kann und klug abwägen muss welche Kriterien man mit einbezieht, damit die Analyse auch mit vertretbarem Aufwand stattfinden kann.
Wo ist meiner Einschätzung nach das (Haupt-)Problem?
1. Vermischung von „Wirkt“ und „Wirkungspotential“. Das Siegel „Wirkt! geprüft und empfohlen“, welches für den Außenstehenden vor allem sichtbar ist, suggeriert einen klaren Wirkungsnachweis. In der zusammenfassenden Analyse (mit Sternen) und der Phineo Methodik wird hingegen von „Wirkungspotential“ gesprochen, was zwar wohl eher der Wahrheit entspricht, aber eben ein aufgeweichtes Konzept darstellt, und dem Namen des Siegels eigentlich nicht mehr Rechnung trägt.
2. Rigorose Wirkungsmessung des Projekts nicht verankert. Ob ein Vorhaben tatsächlich wirkt, ist gar nicht so leicht zu messen und erfordert rigorose Methoden der empirischen Sozialforschung – typischerweise eine experimentelle oder quasi-experimentelle Evaluation (hier ein gutes Erklärvideo). Inwiefern ein Projekt solch eine Methodik anwendet scheint in der Analyse jedoch gar keine Rolle zu spielen, zumindest wird davon in der (öffentlich zugänglichen) Methodik nicht gesprochen. Auf jeden Fall ist es im Analyseergebnis nicht ersichtlich ob tatsächlich ein „Wirkungsbeweis“ erbracht wurde, der dem Namen des Wirkt-Siegels gerecht werden würde.
3. Mangelnde Einbeziehung von globaler Wissensbasis. Ob ein Projekt Wirkungspotential hat, hängt nicht nur von dem analysierten Projekt selbst ab, sondern auch davon inwiefern der gewählte Ansatz auf nationaler bzw. globaler Ebene bereits erprobt und erwiesenermaßen wirksam ist. Zum Beispiel: Was wissen bereits wir über Wirksamkeit von Mentoringprogrammen für Jugendliche? Zwar analysiert Phineo nach eigenen Angaben wie „fundiert“ ein Projektkonzept ist, greift dabei aber scheinbar nicht auf die bestehende globale Studienlage zurück.
Insbesondere die ersten beiden Punkte bedeuten, dass z.B. ein kleines interessantes Projekt in der Pilotphase welches bisher erst in begrenztem Maße Veränderungen seitens der Zielgruppe misst im Zweifelsfall von einem etablierten Vorhaben, welches bereits aufwendige Studien durchgeführt hat um seine Wirkungen anhand wissenschaftlicher Standards nachzuweisen, kaum zu unterscheiden ist. Das darf nicht sein. Wer das „Wirkt-Siegel“ anschaut, sollte auf den ersten Blick erkennen, wie es um den Wirkungsnachweis bestellt ist.
Vorschläge zur Verbesserung des Siegels
Wie könnte man es besser machen? Es geht keineswegs darum, alles über den Haufen zu schmeißen, denn wie oben bereits erwähnt, scheint Phineo‘s Analysemethode grundsätzlich solide zu sein. Ziel sollte es daher sein, mit so wenig Anpassungen wie möglich die genannten Schwächen zu beheben. Denn Phineo hat sicherlich ein Interesse daran, dass das Fundament beibehalten wird und der Wiedererkennungswert hoch ist. Außerdem müssen jegliche Vorschläge natürlich auch praktikabel sein, und dürfen den Analyseaufwand insgesamt nicht (erheblich) erhöhen.
Meine Vorschläge beziehen sich ausschließlich auf den Teil der Projektanalyse; die Analyse zur Leistungsfähigkeit der jeweiligen Organisation lasse ich außen vor:
1. Abgestuftes Gesamt-Rating: Das Sternerating für die einzelnen Analysekriterien könnte man auch auf ein Gesamtrating übertragen. Dies würde eine nuancierte Unterscheidung zwischen den Projekten, insbesondere hinsichtlich „Wirksamkeit“ und „Wirkungspotential“ ermöglichen. Über das beste „wording“ des jeweiligen Ratings müsste man sich Gedanken machen, das Beispiel hier soll nur als Illustration dienen.

2. Neues Kriterium zur Wirkungsmessung: Da es von zentraler Bedeutung ist, inwiefern glaubwürdige Daten über die Wirksamkeit des jeweiligen Projekts vorliegen, würde ich dieser Frage unbedingt ein separates Kriterium widmen, welches sowohl die Verfügbarkeit von Wirkungsdaten als auch die Qualität der zu Grunde liegenden Methodik aufzeigt. Die Unterscheidung zum bereits existierenden Kriterium der Qualitätsentwicklung könnte darin liegen, dass letzteres vor allem die Existenz von Strukturen widerspiegelt (z.B. Wirkungsmodell, System für Datenerhebung, Personal, etc.), nicht aber die Daten/Ergebnisse selbst. Die unterschiedliche Qualität der Wirkungsmessung könnte man z.B. folgendermaßen wiedergeben:

3. „Ansatz“- Kriterium erweitern: Im Rahmen des bereits existierenden Kriteriums „Ansatz und Konzept“ sollten folgende zwei Aspekte zusätzlich berücksichtigt werden. Erstens sollte die Existenz oder das Fehlen empirischer Studien auf nationaler oder internationaler Ebene geprüft werden und in das Rating einfließen. Zweitens sollte die Analyse prüfen, inwiefern das gewählte Projektkonzept evidenzbasiert ist, also sich ganz gezielt auf Ergebnisse aus existierenden Evaluationen von ähnlichen Projekten bezieh
4. Eigenes Kriterium zur Problemanalyse: Dieser Punkt ist eher „kosmetischer“ Natur, da die „reflektierte Auseinandersetzung mit dem gesellschaftlichen Problem“ (also datenbasierte Ursachenanalyse) bereits in der Analysemethodik vorhanden ist. Mein Vorschlag hier wäre lediglich dafür ein eigenes Kriterium zu schaffen anstatt es unter dem Kriterium „Ziele und Zielgruppen“ einzuordnen, um diesem Punkt insgesamt mehr Gewicht zu verleihen.
Außerdem wichtig: Es muss einen differenzierten Bezug zwischen den Einzelratings und dem Gesamtrating geben. So sollten z.B. 5 Sterne beim Kriterium der Wirkungsmessung (d.h. gute Ergebnisse auf Basis rigoroser Wirkungsmessung) eine Voraussetzung dafür sein, auch 5 Sterne im Gesamtrating (nachgewiesene Wirksamkeit) bekommen zu können.
Abbildung 1: Vorschlag zur Anpassung der Phineo Analysemethodik

Quelle: Phineo (links), eigene Darstellung (rechts)
Die oben beschriebenen Vorschläge würden es erlauben das Wirkungspotenzial auf Projektebene differenzierter darzustellen, mit 5 statt wie bisher 3 Kriterien. Insgesamt gäbe es nun 10 Kriterien, jeweils 5 auf Projektebene und Organisationsebene. Klar ist, es wäre nicht leicht 5 Sterne im Gesamtrating zu bekommen. Dies bliebe Organisationen vorbehalten die Erfolge anhand rigoroser Studien nachweisen können. Aber genau das ist ja das Ziel, eine ehrliche und transparente Aussage, ob ein Projekt wirkt, das Potential hat zu wirken, oder sich noch entwickeln muss. Ein Gesamtergebnis mit 4 Sternen („hohes Wirkungspotential“) wäre kein schlechtes Ergebnis – im Gegenteil.
Ein großer Vorteil dieser Transparenz entstünde auch in der Kommunikation mit Geldgebern. Denn: Man kann ihnen besser zeigen was nötig ist, um wirklich einen Wirkungsnachweis zu erbringen. Ein 5-Sterne Rating kommt nie von allein, es erfordert Begleitforschung, die ermöglicht und finanziert werden muss. Auch normale Qualitätssicherung und Datenerhebung kostet Geld und muss den Organisationen und Projekten im Rahmen ihrer operativen Budgets zur Verfügung gestellt werden, denn sonst wäre auch ein 3- oder 4-Sterne Rating, welches gemäß meinem Vorschlag zumindest einen Vorher-/Nachher Vergleich auf Outcome-Ebene voraussetzt, nicht erreichbar.
Aber bedeuten diese Vorschläge mehr Aufwand für Phineo? Kaum. Ein neues Kriterium zur Wirkungsmessung würde in der Praxis keinen Mehraufwand bei der Analyse bedeuten, denn welche Methodik in der Datenerhebung angewandt wird ist schnell ersichtlich. Als Außenstehendem scheint es mir ohnehin schwieriger und zeitaufwendiger die Leistungsfähigkeit der Organisation zu beurteilen als das Wirkungspotential des Projekts.
Abschließende Gedanken
Es sollte unser gemeinsames Ziel sein, Wirkungsorientierung und evidenzbasierte Arbeit im sozialen Sektor auch in Zukunft weiter zu stärken. Ein „Wirkt-Siegel“ wie von Phineo praktiziert kann für alle Beteiligten hilfreich sein: gemeinnützige Organisationen, Geldgeber, Spender, usw. Einige kleine Anpassungen können schon helfen das Siegel transparenter, und damit auch glaubwürdiger und nützlicher zu machen.
Die hier gemachten Vorschläge sollen als Anregung dienen. Sie sind nicht gedacht als umfassende Analyse. Es gibt noch viele zusätzliche Ideen über die man nachdenken könnte. Ich würde mich freuen von anderen zu hören was sie von den Vorschlägen halten bzw. welche Verbesserungsvorschläge sie selbst für sinnvoll halten.
About the author:
Kevin Hempel is the Founder and Managing Director of Prospera Consulting, a boutique consulting firm working towards stronger policies and programs to facilitate the labor market integration of disadvantaged groups. You can follow him on LinkedIn and Twitter.