5 Bewertung

Die technischen Weiterentwicklungen der »Neuen Medien« machen diese für den privaten Interessenten ebenso attraktiv[1] wie sie auch viele Gesellschaftsbereiche verändern.[2] Die Wirtschaft muß sich ebenfalls längst mit den Moglichkeiten der Neuen Medien befassen, unter anderem verursacht durch einen rapide wachsenden Weiterbildungsbedarf, dem damit einhergehenden Zwang zur Kostenminimierung sowie der Notwendigkeit, innerhalb kürzester Zeit Weiterbildungsmaßnahmen bereitstellen zu müssen.[3]

Zunehmend wird nach Moglichkeiten zur Einbeziehung von Multimedia und Telekommunikation in Aus- und Weiterbildung zur »informellen Bildung«[4] gesucht.[5] Allerdings sind Wirkung bzw. Erfolg solcher Maßnahmen umstritten, da die Verfahren zur Bewertung des Lernerfolgs ebenfalls in der Diskussion stehen. Im folgenden werden diese Moglichkeiten der Bewertung von Lernsoftware dargestellt. Eine besondere Stellung nimmt hier die Evaluation ein, da sie als formative Evaluation ein wichtiges Instrument während der Entwicklungsphase sein kann.[6]

5.1 Herkommliche Bewertungsverfahren

5.1.1 Kriterienkataloge

Eines der beliebtesten Verfahren zur Bewertung von Lernsoftware bilden Kriterienkataloge. So hat beispielsweise die Stiftung Warentest in ihrer JuliAusgabe 1996 einen Testbericht über Lernsoftware veroffentlicht, dessen Grundlage ein Kriterienkatalog bestehend aus ca. 500 Indikatoren war.[7] Die Vorteile solcher Kataloge, die meist in Form von Prüf- oder Checklisten vorkommen, liegen auf der Hand:[8]

  • Sie sind billig und zeitsparend, da bereits eine strukturierte Liste der relevanten Evaluationskriterien angeboten wird. In der Regel genügt eine fachkundige Person nebst Programmkopie und passender Hardware, um die Evaluation durchzuführen.
  • Die Verfahren sind einfach zu organisieren, da die Lernsoftware nicht in ihrem Lerngebiet (z.B. dem Kinderzimmer oder der Schulklasse) belassen werden muß. Statt dessen kann die Evaluierung zentral erfolgen.
  • Das Verfahren erscheint durch die schrittweise, immer gleiche Abarbeitung der Kriterienkataloge objektiv und methodisch sauber.

Die einzelnen Punkte eines Kriterienkatalogs werden meist in Frageform dargestellt. Es werden wie in jeder Software-Evaluation »qualitative« und »quantitative« Daten erhoben. Fragen nach Hersteller, Systemkonfiguration oder Betriebssystem dienen beispielsweise der Abfrage qualitativer Daten. Quantitative Daten werden dagegen meist mittels Rating-Skalen ermittelt. Die Aufgabe des Evaluators besteht vor allem darin, die quantitativen Kriterien innerhalb einer Bewertungsskala einzuordnen.[9]

Kriterienkataloge konnen für den Einstieg durchaus von Vorteil sein, hier vor allem zur Bestimmung qualitativer Daten. Mittels simpler Abfragen lassen sich so die Systemeigenschaften (z.B. Existenz bestimmter Interaktionsformen) leicht klären.[10] Für die pädagogische und didaktische Bewertung jedoch sind sie unzulänglich.

Obwohl z.B. Dorothea Thomé mit ihrer »Großen Prüfliste für Lernsoftware« (GPL), einer Synopse von 23 veroffentlichten Katalogen, immerhin 324 Einzelkriterien aufgestellt hat,[11] kann sich auch ein solcher Katalog nicht dem Verdacht der Unvollständigkeit entziehen.[12] Es ist mehr als nur unsicher, ob jemals Bewertungskriterien dermaßen formalisiert werden konnen, daß sie dem Anspruch der Vollständigkeit und der zeitlich unbegrenzten Reliabilität genügen.

The fact that all components of an instructional situation interact with one another is a central problem for evaluating educational software. The existing interrelations between the components of learning systems, the fact, that the usefulness and effectivity of a particular system type may be dependent on the context of use and the particular educational goals make it impossible to follow a direct checking approach in software ecaluation on the basis of a simple software evaluation criteria list.[13]

Ein weiterer Kritikpunkt liegt in den fehlenden oder strittigen Gewichtungsbzw. Wertungsverfahren. Ein jedes Kriterium einer Prüfliste ist auf bestimmte lerntheoretische Annahmen zurückführbar, ihre Gewichtungen zueinander bleiben indes strittig.[14] Doch gerade die Gliederung und Gewichtung der einzelnen Kriterien ist entscheidend für eine vergleichende Bewertung und Auswahlentscheidung. Meist werden die Wichtungen den subjektiven Ansichten des individuellen Anwenders, Evaluators, Pädagogen etc. überlassen.[15]

Damit eroffnet sich eine weitere Problematik, nämlich die Frage nach der zugrundeliegenden Lerntheorie. Mit der Ausklammerung einer theoretisch fundierten Gewichtung wird die Frage des lerntheoretischen Hintergrundes ausgeklammert, der eigentliche Sinn einer Evaluation somit konterkariert.[16]

5.1.2 Rezensionen

Gemeint sind in erster Linie Artikel in Zeitschriften, die eine Software beschreiben und einschätzen, aber auch Ratgeber wie z.B. die Reihe »Computerspiele auf dem Prüfstand« der Bundeszentrale für politische Bildung. Rezensionen bieten kein »objektives« Urteil an, sondern bewerten aufgrund rein subjektiver Wahrnehmungen. Ein genaues und reproduzierbares Ergebnis ist von daher nicht zu erwarten.

Software-Rezensionen sind einfach und billig zu erstellen, wie die Prüflisten setzen sie nicht den Aufbau von realen Lernsituationen voraus und sind daher unabhängig vom Einsatzgebiet. Für eine groben Überblick mogen sie durchaus ihren Sinn haben, wegen ihre Subjektivität und der uneinheitlichen Vorgehensweise ist jedoch eine Vergleichbarkeit nicht gegeben.[17]

5.1.3 Erprobung des Lernerfolgs

Gerade diese Verfahren sind häufig zu Vergleichsgruppenuntersuchungen traditionellen Lehrerunterrichts versus Lernen mit »Neuen Medien« eingesetzt worden. Der methodische Ablauf sieht einen Test zur Ermittlung des Vorwissens bezüglich der Lernziele vor, gefolgt von der eigentlichen Wissensvermittlung und anschließend einen zum Vortest parallelen Nachtest zur Feststellung des Lernstandes. Aus der Differenz zwischen Vor- und Nachtest ergibt sich dann ein Lerngewinn, der mit entsprechenden statistischen Verfahren näher analysiert werden kann.[18]

Baumgartner sieht hier ein methodisches Problem und rät daher von solchen Vergleichstudien ab, »...da selbst bei hoher Vergleichbarkeit der Gruppen in allen wichtigen Variablen wie Alter, Geschlecht, Vorkenntnisse usw. die beiden vergleichenden Lernsituationen durch viele situative Zufälligkeiten verfälscht werden konnen.«[19] Für einen Vergleich unterschiedlicher Lehr- bzw. Lernformen ist eine wesentlich großere Stichprobe von Durchführungen beider Unterrichtsverfahren vonnoten. Hinzu kommt, daß in die Konstruktion der Meßinstrumente theoretische Vorannahmen mit einfließen, die das Untersuchungsergebnis wesentlich beeinflussen. Wird der Lernerfolg beispielsweise anhand der Beantwortung von Faktenfragen gemessen, dann stellt sich die Frage, ob Lernen nicht bereits auf die verbale Reproduktion von Inhalten reduziert worden ist. Baumgartner spricht in diesem Fall vom »operationalisiertem Zirkelschluß«.[20]

5.2 Ein heuristisches Modell zur Softwarebewertung

Baumgartner & Payr haben immer wieder hervorgehoben, wie ungenügend ihrer Meinung nach eine Beurteilung von Lernsoftware mittels einfacher Erprobung eines Lernerfolges ist. Sie plädieren dagegen für ein »heuristisches Modell«[21], das einer konstruktivistischen Sichtweise folgt.

Heuristisches Modell zur Softwarebewertung

Abb. 5.1: Ein heuristisches Modell zur Softwarebewertung. Quelle: Baumgartner, Peter (1995): Didaktische Anforderungen an (multimediale) Lernsoftware. In: Issing, Ludwig J. & Klimsa, Paul (Hg.), Information und Lernen mit Multimedia, S. 241-252. Psychologie Verlags Union, Weinheim. S. 248.

5.2.1 Rahmenbedingungen festlegen

Rahmenbedingungen machen meist durch unangenehme Einschränkungen auf sich aufmerksam. Dies konnen zum Beispiel das zur Verfügung stehende Budget, die vorhandene Hardware oder auch das verwendete Betriebssystem sein. Weiter konnen auch abzudeckender Inhalt, Organisationsform (Curriculum, offenes Lernen zu Hause), Eingangsvoraussetzungen usw. dazu gezählt werden.

5.2.2 Lernziel, Lernstufe und Lehrstrategie festlegen

Anhand des Würfelmodells in Abbildung 5.1 werden die gewünschten Lernbzw. Entwicklungsstufen mit der gewünschten Interaktionsform und dem sozialen Setting (der didaktischen Situation) festgelegt, indem das abstrakte Modell anhand der konkreten inhaltlichen Fragestellung konkretisiert wird.

5.2.3 Software-Recherche

Anhand der vorangegangenen Fragestellungen konnen schon Einschränkungen bezüglich der zu verwendenden Software getroffen werden. Allerdings ist es recht schwierig, brauchbare Anwendungen zu erkennen. Letztendlich muß diese Vorauswahl aufgrund verfügbarer Informationen getroffen werden. Mogliche Quellen wären Software-Kataloge, Rezensionen, personli-cher Erfahrungsaustausch, Hersteller-Informationen und Demo-Programme zu begutachten.

5.2.4 Generierende Fragen an die Software stellen

Baumgartner schlägt als nächsten Schritt vor, an den in die engere Wahl gekommenen Anwendungen eine vergleichende Analyse in Form von generierenden Fragestellungen vorzunehmen. »Generierend« bedeutet in diesem Fall, »...das Problemfeld offnen, auf die Problematik aufmerksam werden und mit anderen Problemlosungen vergleichen.«[22] Es lassen sich fünf grundsätzliche Typen von Fragestellungen unterscheiden:[23]

  • Fragen zum Übergang von einer Komplexitätsstufe zur anderen: Wie wird z.B. erreicht, daß bei der Vermittlung von Fakten diese später leicht in einem Kontext eingebunden werden konnen?
  • Fragen zur selben Komplexitätsstufe: Wie wird innerhalb einer Stufe (=Würfelzelle) auf moglichst kontinuierliche steigende Komplexität geachtet? Gemeint ist hier Komplexitätsreduktion, d.h didaktisch bereinigte Aufgaben, die schrittweise komplexer und realitätsnäher werden.
  • Fragen zu (impliziten) Metastrategien: Wie werden heuristische Faustregeln (»tricks of trade«) vermittelt? Wie werden Strategien zur Steuerung des Problemlosungsprozesses vermittelt? Wann wird ein iterativer Prozeß eingeleitet? Wann wird eine Strategie aufgegeben und zu einer anderen gewechselt? Wie werden Lernstrategien vermittelt?
  • Fragen zu Lehrstrategie: Welche Methoden werden zum Aufbau (zur Konstruktion) mentaler Modelle verwendet (z.B. erklären)? Welche Methoden werden zur Stützung der (ersten) Eigenaktivitäten verwendet(z.B. tutoring)? Welche Methoden werden zur schrittweisen Übernahme von Verantwortung im kooperativen Handlungsprozeß verwendet (z.B. coaching: langsames Entziehen der Unterstützung und Hilfestellung)?
  • Fragen zur Verknüpfung aller drei Dimensionen (soziale Lernsituation): Wie wird intrinsische Motivation erreicht? Wie wird extrinsische Motivation gefordert? Wie wird eine adäquate Lernkultur erzeugt? Wie wird die Einbeziehung des sozialen Umfelds d.h. der Übergang von virtueller zu realer Welt erreicht?

Diese Fragen verwenden das Moment der Kriterienkataloge bzw. Prüflisten. »Statt aber als operationalisiertes Bewertungsinstrument zu dienen, offnen sie in meinem Vorschlag erst das Feld für eine vergleichende Analyse«.[24]

Der Zweck dieser generierenden Fragen ist es, Fragen zu den dahinterliegenden didaktischen Strategien zu stellen. Da alle Fragestellungen innerhalb einer bestimmten Würfelzelle anzuwenden sind, ergibt sich ein im Gegensatz zu den üblichen Prüflisten überschaubares Set von etwa fünf bis sieben Fragen.[25]

5.3 Evaluation

Eine Evaluation dient der Bewertung, in diesem Fall der Bewertung von Lern- bzw. Bildungssoftware. Wichtig ist die Unterscheidung in summative und formative Evaluation. Unter ersterer ist eine abschließende Bewertung wie sie zum Beispiel Verbraucherorganisationen[26] durchführen zu verstehen, während eine formative Evaluation den Entwicklungsprozeß mit dem Ziel begleitet, Informationen zur Verbesserung des Programms zu liefern.[27] Evaluation von Lernsoftware scheint ein schwieriges Feld zu sein. Dies mag an den ungenügenden Definitionsansätzen ebenso liegen wie am recht hohen Aufwand, den eine solche Maßnahme erfordert. So sind Evaluationen bei Entwicklern wie Anwendern (bzw. Anwendervertretungen) — zum Teil bedingt durch fehlendes theoretisches Hintergrundwissen[28] — nicht sehr beliebt.[29]

Für die Evaluation gibt es viele Definitionsansätze, eine allseits anerkannte Evaluationsdefinition gibt es zur Zeit allerdings nicht.[30] Baumgartner führt dies auf das relativ junge Alter des Forschungsbereichs sowie die sich ständig vermehrenden Evaluationsmodelle zurück.[31] Er hat die seiner Meinung nach wichtigsten Definitionsansätze kurz skizziert:[32]

  • Die relativistische Position: »Evaluation — more than any science — is what people say it is; and people currently are saying it is many different things.«[33] Demnach kann je nach Gesichtspunkt etwas vollig anderes verstanden werden.
  • Evaluation als quantitatives Analyseverfahren: Hier handelt es sich meist um eine statistische Interpretation von systematisch gesammelten Daten.
  • Evaluation als eine Anwendung von Methoden: Diese Form ist in der Literatur häufig in Gestalt von Beschreibungen, Diskussionen und Umsetzungen (sozialwissenschaftlicher) Methoden vorzufinden.
  • Evaluation als Verbesserung praktischer Maßnahmen: Der wesentliche Sinn einer Evaluation wird hier in der Entwicklung von Verbesserungsvorschlägen gesehen.
  • Evaluation als angewandte Sozialforschung: Vor allem im pädagogischen Bereich wird Evaluation als ein Anwendungsgebiet der Sozialforschung betrachtet.
  • Evaluation als Bewertung: Evaluation stellt vor allem einen Prozeß der Bewertung dar.

Aufgrund der Vielfalt der Definitionsansätze schlägt Baumgartner daher eine wesentlich weiter gefaßte These zur Begriffsbestimmung der Evaluation vor:

Unter Evaluation sind alle Aktivitäten und/oder Ergebnisse zu verstehen, die die Bedeutung, Verwendbarkeit, (Geld-) Wert, Wichtigkeit Zweckmäßigkeit... einer Sache beurteilen bzw. bewerten. Nur dieses weitgefaßte Verständnis von Evaluation kann sowohl die Charakteristika besonderer Evaluationsfelder berücksichtigen als auch einen adäquaten Betrag zur Theoriebildung leisten.[34]

5.3.1 Ablauflogik von Evaluationen

Auch zu diesem Themenkomplex herrscht in der Wissenschaft immer noch keine Einigkeit. Die folgende Zusammenstellung orientiert sich an Michael Scriven,[35] da »...dessen wissenschaftsphilosophische und -theoretische Arbeiten zur Evaluationslogik großen Einfluß und Verbreitung gefunden haben«:[36]

  • Fomulierung von Wertkriterien: In der ersten Phase einer Evaluation werden jene Kriterien ausgewählt und definiert, die der Evaluand erfüllen muß, um positiv bewertet zu werden.
  • Formulierung von Leistungsstandards: Für jedes einzelne Kriterium wird eine Norm definiert, die der Evaluand erfüllen muß, damit das Kriterium als erfüllt angesehen werden kann (Operationalisierung).
  • Messung und Vergleich: Nun wird jedes Kriterium beim Evaluanden untersucht, gemessen und mit den jeweils vorgegebenen Leistungsstandards verglichen.
  • Werturteil (Synthese): In dieser letzten und wohl schwierigsten Phase von Evaluationen müssen die verschiedenen Ergebnisse zu einem einheitlichen Werturteil integriert werden.

5.3.1.1 Wertansprüche

Als zentrales Modell zur Definition der Wertansprüche soll eine dreistufige Bedürfnisanalyse dienen, mit deren Hilfe die wesentlichen Momente der ersten beiden Phasen der Ablauflogik erreicht werden:[37]

  • Ebene 1 (necessitata): Sie dient der Bestimmung unabdingbarer Notwendigkeiten und Erfordernissen. Wird ein Kriterium nicht erfüllt, so hat dies den unweigerlichen Ausschluß des Evaluanden zur Folge. Ein solches k.o.-Merkmal ist zum Beispiel die Hardware-Voraussetzung eines Computerprogramms: Ohne entsprechende technische Ausstattung ist Software nicht einmal installierbar.
  • Ebene 2 (desiderata): Funktionen und Eigenschaften, die über das absolute Minimum hinausgehen, deren Fehlen also nicht zum Ausschluß führen würden, werden der zweiten Ebene zugerechnet. Man spricht in diesem Fall von Vorzügen. Um beim Beispiel der technischen Voraussetzungen zu bleiben: Ein Lernprogramm, daß auf mehr als einer Systemarchitektur aufsetzt (z.B. Apple Macintosh und Sun OS), kann als eines mit Vorzügen bezeichnet werden.
  • Ebene 3 (ideals): Ihr werden abschließend Ideale zugerechnet. Wie der Name schon impliziert, handelt es sich um kaum erreichbare bzw. realisierbare Zielvorstellungen. Sie dienen als Wegweiser für Verbesserungsansätze.
  •  

5.3.1.2 Wertzuweisungen

Die vorangegangene Bedürfnisanalyse dient vor allem den ersten zwei Phasen der Ablauflogik einer Evaluation. Daneben fällt ihr ein entscheidendes Moment zur Operationalisierung und Integration der Ergebnisse zu.

An eigentlichen Beurteilungsverfahren (Zuweisung von Werten) lassen sich grundsätzlich vier Methoden unterscheiden, die untereinander frei kombinierbar sind:

  • Grading (Einstufung): Die Evaluanden werden anhand eines vordefinierten Beurteilungsmaßstabes eingestuft.
  • Ranking (Reihung): Für eine Reihung werden die Evaluanden zueinander in Relation gesetzt und beurteilt. Es entsteht eine Ordinalskala mit einer Aussage wie gut-besser-am Besten, die jedoch keine Aussage zu den Abständen untereinander macht.
  • Scoring (Punktevergabe): Im Unterschied zum Ranking werden hier Punkte vergeben, deren Abstände untereinander gleich und bedeutungsvoll sind. Nur mit dieser Methode sind summative Operationen wie Addition oder Division zulässig.
  • Apportioning (Aufteilung, Zuteilung): Entsprechend der Wertigkeit eines Evaluanden werden vorhandene Ressourcen aufgeteilt (als Beispiel mag die Aufteilung des Bundeshaushalts genommen werden).

5.3.1.3 Gewichtung von Wertansprüchen

Zur Analyse eines Evaluanden bedarf es der Festlegung einer relativen Wertigkeit aller Beurteilungsdimensionen. Es mag inzwischen deutlich geworden sein, welche Schwierigkeiten dieses Unterfangen birgt.

Wenn inhaltliche Zusammenhänge zwischen Funktionsmerkmalen des Evaluanden und den Interessensorientierungen verschiedener Adressaten der Evaluation vorerst ausgeklammert werden, so stellt sich das Definieren von Prioritäten (Gewichtung) zunächst einmal als ein rein methodisches Problem dar. Zur Losung bieten sich prinzipiell zwei Verfahren an: additive (numerische) und qualitative Gewichtungsprozeduren.[38]

 

Numerische Gewichtung und Summierung

Die Numerische Gewichtung und Summierung (NGS) ist in verschiedensten Formen anzutreffen. Sie kann sowohl beschreibend, vorschreibend (normativ, präskreptiv) als auch bewertend eingesetzt werden. Die allgemeine Form ist die »Multi-Attribute Utility Analysis«,[39] in der die einzelnen Dimensionen zunächst gewichtet werden, das heißt ihre relative Wertigkeit wird eingeschätzt. Sodann werden die Leistungen der Prüflinge in den jeweiligen Dimensionen eingeschätzt (rating). Die ermittelten Werte aus Leistungsbewertung und deren Wichtung werden abschließend miteinander multipliziert und die Produkte eines Evaluanden dann summiert. Der Wert eines Evaluanden wird durch eine Zahl angegeben; je großer die Zahl, desto besser das Abschneiden. Sieger ist der Evaluand mit der großten Punktzahl.

Da dieses Verfahren relativ einfach umzusetzen und leicht verständlich ist sowie in jedem Fall zu einem klaren Ergebnis führt, erfreut es sich großer Beliebtheit. Dem stehen allerdings einige gravierende methodische wie intrinsische Mängel gegenüber. Ein mittels der erweiterten NGS-Methode mit Minima losbares Problem stellt der Umstand dar, daß gewisse Dimensionen erst ab einem bestimmten Minimalwert Sinn machen.[40] Darunterliegende Werte dürften eigentlich nicht in die summative Bewertung einfließen. Ein weiteres Problem stellen Bewertungskomponenten dar, die miteinander interagieren und daher nicht unabhängig voneinander bewertet werden dürfen. Zwar ist es grundsätzlich moglich, mittels Definition neuer Kriterien eine Losung anzubieten, allerdings erfordert dies eine enorme Kompetenz und stellt dennoch meist nur eine spezialisierte Einzellosung dar, die nicht verallgemeinert werden kann.[41] Ein grundsätzlicher methodischer Fehler liegt mit der Annahme einer Linearität der Punkteabstände vor. Die NGS-Methode liefert zur Bewertung eine Ordinalskala, die es eigentlich verbietet, Multiplikationen und Summationen durchzuführen. Diese Operationen sind nur mit Intervall- und Ratio-Skalen zulässig.

Als schwerwiegendstes — da kaum losbares — Problem hebt Baumgartner in seinen Ausführungen hervor, daß die Anzahl der Kriterien, die bei einer Evaluation definiert werden, nicht vorhersehbar sind.[42] So gibt es Prüflisten mit zehn bis zwanzig Kriterien und solche mit mehreren hundert. Dadurch kommt es vor, daß entweder einige wichtige Kriterien durch viele triviale Punkte in der Bewertung unterdrückt werden, oder aber einige wenige Faktoren bestimmen das Endergebnis.

 

Qualtitative Gewichtung und Summierung

Die Mängel der Numerischen Gewichtung und Summierung (NGS) machen die Erfordernis einer anderen Methode deutlich. Die QGS bietet ein qualitatives Bewertungsverfahren mittels paarweisen Vergleichs: »[Qualitative Weight and Sum (QGS),] a method of evaluation that uses only a grading scale for weighting the importance of dimensions of merit and for rating the performance of each evaluand on each dimension.«43[43]

Zunächst werden den einzelnen Dimensionen eines der fünf Gewichte Essential ( E ), Very Valuable ( * ), Valuable ( # ), Marginally Valuable ( + ) und Zero ( 0 ) zugesprochen. Sie werden als Symbole dargestellt, um so eine Verwendung als Ratio- oder Intervall-Skala auszuschließen. Es sei darauf hingewiesen, daß nicht alle fünf Gewichte vergeben werden müssen. Schließlich kann es durchaus vorkommen, daß keine der Dimensionen beispielsweise als #(Valuable) gewichtet wurde.[44]

Die Zero-Dimensionen (0) sind als absolut ohne Gewicht und daher für die Bewertung unbedeutend. Sie konnen also gestrichen werden. Anschließend muß überprüft werden, daß alle Evaluanden den als Minimalerfordernissen gewerteten Dimensionen (Essentials, E) genügen. Die Kandidaten mit negativem Befund werden ausgeschlossen.

Es folgt die Bewertung der einzelnen Kriterien. Der Wert muß im Bereich von Zero (0) bis zur maximalen Wichtung des Kriteriums liegen, das heißt eine als Essential betrachtete Dimension kann ein Wert von 0 bis E zugewiesen werden, einer Very Valuable Dimension nur 0 bis usw. Zu beachten ist hier, daß es sich nicht immer um einen monoton ansteigenden Zweckmäßigkeitsbereich handelt. Es kann durchaus vorkommen, daß das Überschreiten eines bestimmten Niveaus wiederum zur Schwäche wird.

Aufgrund der bisherigen Vorgehensweise ist eine Rangordnung (ranking) der einzelnen Dimensionen entstanden, die mit einer integrierten Schlußbewertung versehen werden kann. So wäre es denkbar, daß nach einer Bewertung der Evaluanden ein zu erfüllendes Minimalkriterium aufgestellt wird.

Fortzufahren ist nun mit der Summierung jener Dimensionen, die mit gleicher Wertigkeit behaftet sind. Als Ergebnis liegen dann pro Evaluanden drei Werte vor: die Summe der *, die Summe der # und die Summe der +. zur Vereinfachung konnen jene Eigenschaften, die alle Evaluanden gleichermaßen aufweisen, ausgeschlossen werden. Dies erleichtert einen eventuellen paarweisen Vergleich. Jeder Evaluand hat nun eine Wichtung in Form n , n# und n+ erfahren, wobei nur für die Anzahl der Gewichte steht.

Es kann geprüft werden, ob sich schon eine eindeutige Rangordnung manifestiert hat.

Evaluand A 3, 4#, 2+
Evaluand B 2, 5#, 2+
Evaluand C 2, 7#, 0+

Hier ist Evaluand A eindeutig besserer als Evaluand B . Es ist jedoch nicht moglich, eine solche Aussage bezüglich A und C zu treffen. Daher müssen beide Kandidaten in einem paarweisen Vergleich genauer untersucht werden. Konnen auf Anhieb keine eindeutigen Ergebnisse geliefert werden, kann im Lichte des paarweisen Vergleiches die Methode als iterative Prozedur solange wiederholt werden, bis ein befriedigendes Resultat vorliegt.

Nachteilig am QGS-Verahren ist seine Komplexität sowie das Fehlen eines definitiven Entscheidungsalgorithmus'.

5.3.2 Taxonomie von Evaluationsansätzen

Baumgartner führt neben echten Evaluationen desweiteren sogenannte »unechte Evaluationen« auf, die auch als Quasi- sowie Pseudo-Evaluationen bezeichnet bzw. stigmatisiert werden.[45] Als Pseudo-Evaluationen gelten jene, die entweder politisch gesteuert oder zur Zementierung einer vorgefaßten Meinung dienen. Quasi-Evaluationen sind zwar methodisch korrekt, bieten aber keine Reflektion ihrer Fragestellung und Wertansprüche an. Echte Evaluationen hingegen stellen dagegen ihre Definition, Begründung und Beurteilung von Wertansprüchen (Zieldefinitionen) in den Mittelpunkt ihrer Analyse.

5.3.2.1 Interessensorientierung von echten Evaluationsansätzen

Jede Form der Evaluation ist interessensgeleitet. Dies manifestiert sich besonders in der Wichtung einzelner Beurteilungsdimensionen. Von daher bietet es sich an, aufgrund unterschiedlicher Interessensorientierungen eine Gruppierung wie in Abbildung 5.2 vorzunehmen.

Interessensorientierung bei echter Evaluation

Abb. 5.2: Interessensorientierungen bei echten Evaluationen. Quelle: Baumgartner, Peter (im Druck): Evaluation vernetzten Lernens. Erscheint in: Simon, Hartmut (Hg.): Virtueller Campus. StudienVerlag, Innsbruck.

Management-orientierte Ansätze

Diese Form der Evaluation dient häufig als Modell zur Entscheidungsfindung. Hervorzuheben ist besonders das CIPP-Modell (Context, Input, Process and Product Evaluation) von Stufflebeam, ein Modell, das vor allem wegen seines Bezugs auf Entscheidungsträger (Management) in der Betriebswirtschaft sehr beliebt ist. Die Evaluation erfolgt hier in vier Schritten.

 

Konsumenten-orientierte Ansätze

Die hierunter fallenden Modelle sind der Öffentlichkeit nicht gänzlich unbekannt, da sie häufig z.B. von Konsumentenvereinigungen zur Bewertung bestimmter Produkte angewendet werden. Grundlage dieser Modelle ist die Betrachtung der Evaluanden als Produkte . Damit ist eine gewisse Marktorientierung gegeben. Unter »educational product« kann vom Lehrbuch über Lernsoftware bis hin zu Workshops, Diensten und Methoden wie Checklisten, Reviews oder Reports verstanden werden.

Evaluations-Modelle eines konsumentenorientierten Ansatzes werden häufig auch als Produkt-Evaluationen bezeichnet. Es sind meist summative (=abschießende) Evaluationen und sind somit den Check- und Prüflistenverfahren methodologisch.

 

Experten-orientierte Ansätze

Dies sind wohl die allgemein bekanntesten und auch ältesten Evaluationsansätze. Beispiele für Expertenorientierungen sind: Kommissionen zur Antragsprüfung, Karriere (Habilkommission), Beglaubigungskorperschaften bzw. Vergabe von Qualitätssiegel, Peer-Reviews bei wissenschaftlichen Zeitschriften, Preisverleihungen etc. Im Gegensatz zu den anderen Modellen der Evaluation wird in den Experten-orientierten Ansätzen kein Problem in der Subjektivität der Werturteile gesehen, sondern ganz im Gegenteil ganz bewußt auf professionelle subjektive Werturteile aufgebaut.

 

Öffentlichkeitsorientierte Ansätze

Dies sind Modelle, die in der Öffentlichkeit die unterschiedlichen Sichtweisen in einer Gesamtevaluation kontrovers zu Wort kommen lassen. Sie sehen keine Ursachenanalyse vor und taugen daher lediglich zur summativen Evaluation. Bekannt sind z.B. die Gegnerschafts-orientierten Ansätze (adversary approrach oder advocate-adversary approach, die in zwei verschiedenen Teams jeweils die Vor- bzw. Nachteile des Evaluanden untersuchen. Eine besondere Erweiterung, die weit über ein einfaches pro und contra hinausgeht, stellt der judicial-approach dar, der in Anlehnung an die Justiz in einem »Prozeß vor Gericht« zu einem Werturteil kommt.

 

Teilnehmer-orientierte Ansätze

Hierunter werden jene Ansätze verstanden, die nicht nach einem präskriptiven Muster vorgehen. Es wird nicht von starr vorgefaßten Zielen ausgegangen, sondern auf Bedürfnisse und Interessen aller Beteiligten eingegangen. Es werden häufig Methoden aus der Anthropologie verwendet, so daß sie Ähnlichkeiten zu ethnographischen Studien besitzen.

Mit Einbeziehung subjektiver Präferenzen und Interessen der Beteiligten widersprechen diese Methoden dem traditionellen Wissenschaftsparadigma. Es wird von einem Weltbild multipler Realitäten und individueller Perspektiven ausgegangen statt von einer objektiven Realität. Daher liegt die Betonung auf deduktiven Vorgehensweisen, die auf Verstehen statt auf statistische Zusammenhänge ausgerichtete sind.

5.4 Ein praktisches Beispiel

Als abschließendes Beispiel soll kurz auf den 2. European Academic Software Award 1996 (EASA) eingegangen werden.[46] Mit ihm sollen »akademische« Programme ausgezeichnet werden , also Anwendungen, die vornehmlich für Forschung und Lehre im Hochschulbereich entwickelt worden sind. Der Evaluationsprozeß orientierte sich stark an Scriven (siehe Kapitel 5.3.1), eine Besonderheit besteht in der Nutzung des Internets respektive World Wide Webs während der gesamten Evaluation.

Der Ablauf der Evaluation erfolgte in drei Phasen. Juroren mußten sich im ersten Schritt einen Überblick über die gemeldeten Anwendungen verschaffen und grob nach Gesichtspunkten vorher festgelegten Kriterien wie Innovation, Design, landesspezifische Anpassung, Zielgruppen usw. klassifizieren.

Im zweiten Abschnitt sind die Programme von »Experten«, deren Fachgebiet eine Anwendung zugeordnet ist, getestet und evaluiert worden. Die Vorgehensweise war vorher festgelegt worden und für alle Anwendungen einheitlich. Die Evaluatoren mußten in dieser Phase Fragen zur Software beantworten (Kriterienkatalog bzw. Checkliste) und abschließend eine schriftliche Beurteilung verfassen. Handelte es sich um Lehrsoftware, mußten zusätzlich Studenten als weitere Evaluatoren herangezogen werden. Auf Basis dieser Beurteilungen wurden schließlich 35 Programme ausgewählt, die an der abschließende Bewertung teilnehmen durften.

Die Finalisten schließlich wurden einem komplizierten Verfahren, das sich an der Qualitativen Gewichtung und Summierung orientierte (siehe Kapitel 5.3.1.3), ausgesetzt um die jeweiligen Sieger der unterschiedlichen Programmkategorien zu bestimmen.

Aus diesen Finalisten sind dann die jeweiligen Sieger ihrer Kategorie ermittelt worden.

 

Taxonomy upgrade extras: 

Kommentare

Sie sollten vielleicht erwähnen, dass Sie diesen Text zum Teil wörtlich und der Struktur sehr ähnlich von Peter Baumgartner abgeschrieben haben. Z. B. aus: Issing und Klimsa (Hrsg.): Informationen und Lernen mit Multimedia und Internet. S. 427 ff.

Die Aussage "Verfasst von Tim Schlotfeldt am Sa, 2005-01-01 00:01" ist vielleicht etwas anmaßend.

Der Text ist gespickt mit Fußnoten, z.B.:

5.2.4 Generierende Fragen an die Software stellen

Baumgartner schlägt als nächsten Schritt vor, an den in die engere Wahl gekommenen Anwendungen eine vergleichende Analyse in Form von generierenden Fragestellungen vorzunehmen. »Generierend« bedeutet in diesem Fall, »...das Problemfeld offnen, auf die Problematik aufmerksam werden und mit anderen Problemlosungen vergleichen.«[22] Es lassen sich fünf grundsätzliche Typen von Fragestellungen unterscheiden:[23]

Im Text sind diese Fußnoten anklickbar, Sie gelangen mit einem Klick zu den Literaturangaben, genauso wie über den Link "Bewertung - Fußnoten" am Ende der Seite. Die Diplomarbeit steht übrigens auch als PDF-Datei auf der Startseite zur Verfügung. Da wird das dann vielleicht etwas deutlicher.