KI generierte (Fach-)Arbeiten erkennen

21. April 2026 Maik Riecken 3 Kommentare

Prolog

Philippe Wampfler vertrat vor einiger Zeit die Auffassung, dass KI-Detektoren funktionieren. Es gibt Fachpersonen wie Doris Wessels, die dem vehement widersprechen. Ein zentraler Ansatz von Philippe ist folgender:

Die funktionierenden Detektoren setzen aber genau so wie die text- oder bildgenerierenden Tools Machine-Learning ein, um KI-gemachte von menschengemachten Produkten zu unterscheiden.

Die minimale Voraussetzung, dass man Modelle speziell mit KI Artefakten trainiert, um diese spezialisierte Anwendung abzudecken, ist eine kostendeckende Nachfrage durch den Markt. Ich glaube, der zugehörige Markt ist – zumindest für die Prüfung von Texten – schlicht zu klein, um ein Modell aufwändig für diesen Anwendungsfall zu trainieren. Als „Techie“ glaube ich eher an eine selbstreflexive Mustersuche der Modelle in den eigenen Vektorräumen mit Systemsprompts wie:

„Welche Anteil des vorliegenden Textes findet du mit hoher Wahrscheinlichkeit in genau der dargebotenen Reihenfolge im Vektorraum deines eigenen Modells?“

Und damit laufen wir in systematischen Probleme der transformerbasierten LLMs, z.B. der prinzipbedingt mangelnden Stabilität: Lässt man den gleichen Text 10x „testen“, erhält man zehn unterschiedliche Prozentwerte für die Wahrscheinlichkeit, dass ein Text KI-generiert ist.

Der Anlass

Ich habe in diesem Jahr 15 Facharbeiten korrigiert. Das ist hier in Niedersachsen die „letzte Runde“, weil man behördlich vor dem „KI-Problem“ bereits insofern kapituliert hat, dass die Facharbeit künftiger Schülergenerationen durch andere Formate ersetzt wird. Lisa Rosa weist dabei nach einmal auf den Zusammenhang zwischen Schreiben und Denken mit Verweis auf Vygotskij hin. Ich halte diese Entscheidung in Bezug auf die Erstellung von Facharbeiten daher für verfrüht.

Ich habe den Schüler:innen gegenüber offen kommuniziert, dass ich KI-Detektoren einsetzen werde und musste mir von Doris Wessels (sie stammt aus einer Nachbargemeinde) allein für die Idee viel Kritik anhören.

Mein Ansatz war folgender:

Ich nutze für die gesamte Lerngruppe das gleiche Tool (ZeroGPT) und bilde einen Mittelwert der ermittelten Wahrscheinlichkeiten.
bei hohen Anweichungen nach oben schaue genauer auf bestimmte Textmarker (s.u.) und behalte mir ggf. inhaltliche Nachprüfungen vor.
Eine unmittelbare Auswirkung auf die Bewertung entsteht durch das Ergebnis eines KI-Detektors allein(!) erstmal nicht.

Erkenntnisse

Die Nutzung eines KI-Detektors ist kompletter Unsinn. Dabei ist es irrelevant, ob er funktioniert oder nicht funktioniert, weil der Text der Facharbeit höchstwahrscheinlich durch inkompetenten Gebrauch von LLMs inhaltlich und strukturell deutlich schlechter wird als durch eigenständige Erarbeitung. Das gilt ausdrücklich nicht für die sprachliche Form.

In diesen Thread auf bildung.social sind einige Textmarker zusammengetragen, die zumindest bei mir gut mit einer hohen Wahrscheinlichkeit im KI-Detektor korrelieren. Sie stammen von mir und der Community (u.a. Tobias Wunder, I. L. Villian)

Keine direkten Zitate bzw. Auseinandersetzung damit
Inhaltliche Neuansätze, durch Aneinanderreihung von Quellenzusammenfassungen
Redundanzen, wenn Quellen zu analogen Schlüssen kommen
Lehrbuchartiger Sprachduktus, meist „überreduziert“ und dadurch oberflächlich
Inhaltlich viel zu breite Anlage
Kaum vorhandene Lesendenführung, fehlende Vernetzung
Seltsame, unvollständige Aufzählungen ohne Mehrwert
„Stotterer“ (gleiche Satzteile mehrfach im Satz), z.B. „Es gibt verschiedene Ampelfarben, z.B. rot, gelb, rot, blau.“
Seltsame, durch Googeln oder Literaturrecherche für SuS kaum auffindbare Belege
Bei international bedeutsamen Themen eine starke US-Zentrierung der Quellen
Von Seiten wie books.google.com usw. wird nur der Deeplink Link „zitiert“, obwohl der Text dahinter komplette bibliografische Daten besitzt.
[…]

Jeder dieser Textmarker ist durch Spezifika der LLMs mit Transformeransatz gut erklärbar, die „Stotterer“ etwa durch Modellrauschen oder der Sprachduktus durch zu breites themenübergreifendes Training des Modells.

Die häufig zu breite inhaltliche Anlage lässt sich dadurch erklären, dass in Wissensdomänen, in den sich ein Schreiber nicht auskennt, nicht sinnvoll zwischen Relevanz und Irrelevanz unterschieden werden kann und auch die Auswahl eines sinnvollen Fokus erschwert ist. Das passt sehr gut zur Kognitionstheorie mit Langzeit- und Arbeitsgedächtnis.

Daher glaube ich mittlerweile, dass LLMs völlig ungeeignet für Novizinnen in einem Thema sind, wenn sie sich einen Überblick darüber verschaffen wollen oder ohne Vorrecherche Gliederungen mit solchen Werkzeugen erstellen lassen – entgegen häufig beschriebener unterrichtlicher Einsatzszenarien auf Socialmedia.

Ausblick

Die häufig angebotene „Lösung“ bei schlechten Ergebnissen durch LLMs besteht darin, den „Fehler“ in mangelnden Prompting-Skills zu sehen. Mich überzeugt das immer weniger, gerade wenn es darum geht, einen geschlossenen Gedankengang unter Verwendung von Sekundärliteratur zu entwickeln. Ein herausragender Text setzt für mich eigene Lebensrealität, eigenen Erfahrungen in der Welt in Bezug zu Erfahrungen aus Literatur, Forschungsergebnissen Dritter usw..

Wir können in Bezug auf LLMs alles daherargumentieren, aber genau an dem fehlenden individuellen Weltbezug muss es systembedingt bei unseren heutigen algorithmischen Ansätzen immer scheitern.

Es gibt Anwendungen, für die LLMs geradezu prädestiniert sind, nämlich bei allem, was im Prinzip entseelt ist und keinen individuellen beruflichen Arbeitsschwerpunkt bildet: Aus PDFs Excelsheets machen, viele Formen von Gutachten, Vermerke Anträge – d.h. Kommunikationssituationen, die im Prinzip kaum durch dialogische, sondern eher parasoziale Diskurse geprägt sind – gerade auch in juristischen Bereichen. Und gerade dort dürfte es hinreichend große Märkte geben, um spezialisierte Nischenmodelle gezielt zu trainieren.

Allgemein, Aus der Schule, Gesellschaft Detektor, Erkennung, Facharbeit, Fehler, LLM, Sprache, Stabilität, Zuverlässigkeit

3 Kommentare

Pingback: Originality.ai | Digithek-Blog
Philippe Wampfler

23. April 2026 um 15:42 Uhr

Ich verstehe nicht genau, wie du begründest, dass der Einsatz eines Detektors unsinnig sein soll. Ich würde dir beipflichten, wenn du sagen würdest, dass er in deinem Anwendungsfall unnötig ist – aber meinst du das?
(Meine Aussage bezieht sich auf kostenpflichtige Modelle, nicht auf GPTzero).

Antworten
- Maik Riecken
  
  30. April 2026 um 11:58 Uhr
  
  Ich habe kostenpflichtige Varianten genutzt. Die minimale Voraussetzung für den Einsatz eines Werkzeugs ist für mich, dass die gelieferten Ergebnisse stabil sind. Das sind sie prinzipbedingt bei den transformerbasierten Modellen nicht. Technisch kann man die Werkzeuge stabiler bekommen, indem man sie gezielt mit geeignetem Material trainiert. Ich glaube nicht, dass das wirtschaftlich abbildbar ist und ich glaube nicht, dass das funktioniert, weil das Modell ja dann mit dem „lernt“, aus dem selbst besteht. Davon wird prinzipbedingt kein Modell „besser“. Als technischer Ausweg blieben noch Ansätze wie RAG, aber letztlich muss das aus technischer Perspektive Schlangenöl bleiben, zumal ja „KI-Texte“ immer Momentaufnahmen aus Monate zurückliegenden Trainingsoptimierungen sind.
  
  Antworten

KI generierte (Fach-)Arbeiten erkennen

Prolog

Der Anlass

Erkenntnisse

Ausblick

3 Kommentare

Schreibe einen Kommentar Antwort abbrechen