Zuverlässigkeit - riecken.de

KI generierte (Fach-)Arbeiten erkennen

21. April 2026 Maik Riecken 3 Kommentare

Prolog

Philippe Wampfler vertrat vor einiger Zeit die Auffassung, dass KI-Detektoren funktionieren. Es gibt Fachpersonen wie Doris Wessels, die dem vehement widersprechen. Ein zentraler Ansatz von Philippe ist folgender:

Die funktionierenden Detektoren setzen aber genau so wie die text- oder bildgenerierenden Tools Machine-Learning ein, um KI-gemachte von menschengemachten Produkten zu unterscheiden.

Die minimale Voraussetzung, dass man Modelle speziell mit KI Artefakten trainiert, um diese spezialisierte Anwendung abzudecken, ist eine kostendeckende Nachfrage durch den Markt. Ich glaube, der zugehörige Markt ist – zumindest für die Prüfung von Texten – schlicht zu klein, um ein Modell aufwändig für diesen Anwendungsfall zu trainieren. Als „Techie“ glaube ich eher an eine selbstreflexive Mustersuche der Modelle in den eigenen Vektorräumen mit Systemsprompts wie:

„Welche Anteil des vorliegenden Textes findet du mit hoher Wahrscheinlichkeit in genau der dargebotenen Reihenfolge im Vektorraum deines eigenen Modells?“

Und damit laufen wir in systematischen Probleme der transformerbasierten LLMs, z.B. der prinzipbedingt mangelnden Stabilität: Lässt man den gleichen Text 10x „testen“, erhält man zehn unterschiedliche Prozentwerte für die Wahrscheinlichkeit, dass ein Text KI-generiert ist.

Der Anlass

Ich habe in diesem Jahr 15 Facharbeiten korrigiert. Das ist hier in Niedersachsen die „letzte Runde“, weil man behördlich vor dem „KI-Problem“ bereits insofern kapituliert hat, dass die Facharbeit künftiger Schülergenerationen durch andere Formate ersetzt wird. Lisa Rosa weist dabei nach einmal auf den Zusammenhang zwischen Schreiben und Denken mit Verweis auf Vygotskij hin. Ich halte diese Entscheidung in Bezug auf die Erstellung von Facharbeiten daher für verfrüht.

Ich habe den Schüler:innen gegenüber offen kommuniziert, dass ich KI-Detektoren einsetzen werde und musste mir von Doris Wessels (sie stammt aus einer Nachbargemeinde) allein für die Idee viel Kritik anhören.

Mein Ansatz war folgender:

Ich nutze für die gesamte Lerngruppe das gleiche Tool (ZeroGPT) und bilde einen Mittelwert der ermittelten Wahrscheinlichkeiten.
bei hohen Anweichungen nach oben schaue genauer auf bestimmte Textmarker (s.u.) und behalte mir ggf. inhaltliche Nachprüfungen vor.
Eine unmittelbare Auswirkung auf die Bewertung entsteht durch das Ergebnis eines KI-Detektors allein(!) erstmal nicht.

Erkenntnisse

Die Nutzung eines KI-Detektors ist kompletter Unsinn. Dabei ist es irrelevant, ob er funktioniert oder nicht funktioniert, weil der Text der Facharbeit höchstwahrscheinlich durch inkompetenten Gebrauch von LLMs inhaltlich und strukturell deutlich schlechter wird als durch eigenständige Erarbeitung. Das gilt ausdrücklich nicht für die sprachliche Form.

In diesen Thread auf bildung.social sind einige Textmarker zusammengetragen, die zumindest bei mir gut mit einer hohen Wahrscheinlichkeit im KI-Detektor korrelieren. Sie stammen von mir und der Community (u.a. Tobias Wunder, I. L. Villian)

Keine direkten Zitate bzw. Auseinandersetzung damit
Inhaltliche Neuansätze, durch Aneinanderreihung von Quellenzusammenfassungen
Redundanzen, wenn Quellen zu analogen Schlüssen kommen
Lehrbuchartiger Sprachduktus, meist „überreduziert“ und dadurch oberflächlich
Inhaltlich viel zu breite Anlage
Kaum vorhandene Lesendenführung, fehlende Vernetzung
Seltsame, unvollständige Aufzählungen ohne Mehrwert
„Stotterer“ (gleiche Satzteile mehrfach im Satz), z.B. „Es gibt verschiedene Ampelfarben, z.B. rot, gelb, rot, blau.“
Seltsame, durch Googeln oder Literaturrecherche für SuS kaum auffindbare Belege
Bei international bedeutsamen Themen eine starke US-Zentrierung der Quellen
Von Seiten wie books.google.com usw. wird nur der Deeplink Link „zitiert“, obwohl der Text dahinter komplette bibliografische Daten besitzt.
[…]

Jeder dieser Textmarker ist durch Spezifika der LLMs mit Transformeransatz gut erklärbar, die „Stotterer“ etwa durch Modellrauschen oder der Sprachduktus durch zu breites themenübergreifendes Training des Modells.

Die häufig zu breite inhaltliche Anlage lässt sich dadurch erklären, dass in Wissensdomänen, in den sich ein Schreiber nicht auskennt, nicht sinnvoll zwischen Relevanz und Irrelevanz unterschieden werden kann und auch die Auswahl eines sinnvollen Fokus erschwert ist. Das passt sehr gut zur Kognitionstheorie mit Langzeit- und Arbeitsgedächtnis.

Daher glaube ich mittlerweile, dass LLMs völlig ungeeignet für Novizinnen in einem Thema sind, wenn sie sich einen Überblick darüber verschaffen wollen oder ohne Vorrecherche Gliederungen mit solchen Werkzeugen erstellen lassen – entgegen häufig beschriebener unterrichtlicher Einsatzszenarien auf Socialmedia.

Ausblick

Die häufig angebotene „Lösung“ bei schlechten Ergebnissen durch LLMs besteht darin, den „Fehler“ in mangelnden Prompting-Skills zu sehen. Mich überzeugt das immer weniger, gerade wenn es darum geht, einen geschlossenen Gedankengang unter Verwendung von Sekundärliteratur zu entwickeln. Ein herausragender Text setzt für mich eigene Lebensrealität, eigenen Erfahrungen in der Welt in Bezug zu Erfahrungen aus Literatur, Forschungsergebnissen Dritter usw..

Wir können in Bezug auf LLMs alles daherargumentieren, aber genau an dem fehlenden individuellen Weltbezug muss es systembedingt bei unseren heutigen algorithmischen Ansätzen immer scheitern.

Es gibt Anwendungen, für die LLMs geradezu prädestiniert sind, nämlich bei allem, was im Prinzip entseelt ist und keinen individuellen beruflichen Arbeitsschwerpunkt bildet: Aus PDFs Excelsheets machen, viele Formen von Gutachten, Vermerke Anträge – d.h. Kommunikationssituationen, die im Prinzip kaum durch dialogische, sondern eher parasoziale Diskurse geprägt sind – gerade auch in juristischen Bereichen. Und gerade dort dürfte es hinreichend große Märkte geben, um spezialisierte Nischenmodelle gezielt zu trainieren.

Allgemein, Aus der Schule, Gesellschaft Detektor, Erkennung, Facharbeit, Fehler, LLM, Sprache, Stabilität, Zuverlässigkeit

Literarische Charakteristik

23. Februar 2011 Maik Riecken Ein Kommentar

Gar nicht einmal so selten passiert das hier:

Originalstelle:

„Diese Abgeneigtheit, sich mir zu schmiegen, ja diese stolze Art mir auszuweichen, erregt in mir die widrigsten Gefühle. – Es ist ein sublimer Gedanke , die Blume, die auf dem Prunk ihrer glänzenden Farben so stolz tut, gebrochen und dahinwelken zu sehen“ (aus: „Die Elixiere des Teufels“ von E.T.A. Hoffmann)

Aus einer Charakteristik (fiktiv):

„Aurelie ist ein stolzes Mädchen, die sich nicht schnell anderen Personen gefügig zeigt (S.64,Z.2–4)“

Dumm ist nur, dass die oben zitierte Originalstelle von der Stiefmutter der zu charakterisierenden Figur in wörtlicher Rede in einer Situation gesprochen wird, die sich mit Fug und Recht als gemeine Intrige beschreiben lässt.

In der letzten Woche kam mir erstmalig der Gedanke, wie man den SuS diese Problematik bewusst machen könnte. Ich bin mit einen Persönlichkeitstest eingestiegen, den man in diesem Materialkleinod finden kann. Die SuS sollten sich auf einer Skala von ‑3 bis 3 hinsichtlich bestimmter Charaktermerkmale selbst einschätzen (Selbstsicht), z.B. „rational“, „extrovertiert“ usw. Auf der Rückseite des Zettels befand sich ein identischer Fragebogen, der jedoch für den Betroffenen Schüler von einem Mitschüler ausgefüllt wurde (Fremdsicht). Das geht natürlich nicht mit jeder Klasse, da man einen Partner braucht, der einen gut kennt. Oh Wunder – es gab neben Übereinstimmungen natürlich auch Abweichungen – und es konnte auch kaum jemand erwarten, seinen Zettel endlich zurückzubekommen… Wichtig dabei ist natürlich, den SuS klarzumachen, dass man als Lehrer diese Zettel weder einsammeln noch anschauen wird.

Dann ist der Fokus schon ganz gut auf die Problematik der obigen Aussage in der Charakteristik fokussiert. Eigen- und Fremdwahrnehmung können danebenliegen. Aber auf was kann man sich denn in einem Text verlassen?

1. Der Erzähler

… kann ein Schelm sein, indem er die Wahrnehmung des Lesers lenken möchte – häufig in der auktorialen Gestalt. Dem neutralen Erzähler darf man da z.B. mehr trauen.

2. Aussagen anderer Figuren

… sind bei emotionaler Befangenheit kritisch zu hinterfragen, gelegentlich aber durchaus hilfreich, z.B. wenn mehrere unterschiedliche Charaktere die gleiche Ansicht teilen.

3. Aussagen der zu charakterisierenden Figur

… auch nicht ganz unproblematisch. Selbst ein Computergehirn wie HAL kann in der Selbstdarstellung danebenliegen.

4. Das Verhalten einer Figur

…empfinde ich als eine der noch verlässlichsten Quellen. Informationen darüber sind zudem aus eigenen Aussagen der Figur, Aussagen von anderen Figuren oder dem Erzähler ableitbar.

Nach dieser Stunde kam in der Überarbeitung einer mit Etherpad in Gruppen erstellten Hausaufgabe dieser Text heraus – 1:1 übernommen, 9. Klasse:

In dem Buch â€œDie Elixiere des Teufelsâ€ von E. T. A. Hoffmann wird man auf eine der Hauptfiguren aufmerksam, namens Aurelie. Sie ist die Tochter des Barons und die Geliebte des Medardus, dessen Mönchesleben in dem Buch beschrieben wird und die Hauptfigur ist und ihren Bruder umbrachte.

Aurelie wird von Rheinhold als ein „ blödes unerfahrenes Mädchenâ€ (Z.46, S. 26), doch gleichzeitig auch als hübsche Frau angesehen ( S.27 Z.45). Rheinhold erzählt Medardus, dass „Aurelie immer mehr das Ebenbild ihrer Mutter wurdeâ€.

Verglichen dazu ist (S.45 Z.13) von dem gleichen die Beschreibung der Mutter: Sie sei eine „Braut, ein herliches von der Natur reich ausgestattetes Wesenâ€.

Nur mit „unbeschreiblicher Zartheitâ€(Z. 46, S. 22) kann sie sich einem öffnen, ansonsten bleibt sie in sich verschlossen und frisst alles in sich hinein.

„Aurelie, das liebe, ahnungsvolle Kind, zerfloss in Tränen â€(S.48 Z.26), als sie Euphemies wahren Absichten von der Heirat des Vaters ahnt, jedoch, aus Schüchternheit bedrückt, sagt sie nichts, stattdessen weint sie nur demonstrativ .

Aurelie ist Euphemie´s Gegenbild, das bedeutet auch das ihr Verhalten mit dem von ihrer Stiefmutter Euphemie nicht übereinstimmt. Denn â€ihre Anspruchslosigkeit, ihr stilles Frommtun, hinter dem sich ein unleidlicher Stolz versteckt, ärgertâ€ (S.63 Z.40) dieser. Euphemie ist gegenüber Aurelie eine egoistisch wirkende Person, die keine Rücksicht auf Verluste nimmt.

Euphemie stellt Aurelie gegenüber Medardus als â€œgutes Kindâ€ (S.57 Z.36) dar. Bei der Durchsetzung ihres Planes hätte sie â€œes nur mit Hermogen zu tunâ€ (S.57 Z.34) und nicht mit Aurelie.

Sie meint, entgegen ihrer Vorstellungen dass Aurelie ein anderes, immer zufriedendes Gesicht zeigt, statt das echte, mit großem Selbstwertgefühl, und bekennender Liebe.

Diese spricht nur im Beichtstuhl zu ihrer â€œverbotenen Liebeâ€ (S.35 Z.2) Medardus ihre Gefühle offen aus (S.35 Z.8), doch auch hier war sie â€œim Wahnsinn hoffnungsloser Verzweiflungâ€ (S.35 Z.5) und steht nicht dazu. Durch ihr Verschwinden wird ihre Unentschlossenheit nochmals deutlich.

Zusammenfassend kann man sagen, dass sie einerseits unschuldig, andererseits leidenschaftlich in Medardus verliebt ist, durch Unentschlossenheit und Leidenschaft geprägt.

Deutschunterricht Charakteristik, Deutsch, Erzählersicht, Fremdsicht, literarisch, Original, Selbstsicht, Zuverlässigkeit