KI generierte (Fach-)Arbeiten erkennen

Prolog

Phil­ip­pe Wampf­ler ver­trat vor eini­ger Zeit die Auf­fas­sung, dass KI-Detek­to­ren funk­tio­nie­ren. Es gibt Fach­per­so­nen wie Doris Wes­sels, die dem vehe­ment wider­spre­chen. Ein zen­tra­ler Ansatz von Phil­ip­pe ist folgender:

Die funk­tio­nie­ren­den Detek­to­ren set­zen aber genau so wie die text- oder bild­ge­ne­rie­ren­den Tools Machi­ne-Lear­ning ein, um KI-gemach­te von men­schen­ge­mach­ten Pro­duk­ten zu unterscheiden.

Die mini­ma­le Vor­aus­set­zung, dass man Model­le spe­zi­ell mit KI Arte­fak­ten trai­niert, um die­se spe­zia­li­sier­te Anwen­dung abzu­de­cken, ist eine kos­ten­de­cken­de Nach­fra­ge durch den Markt. Ich glau­be, der zuge­hö­ri­ge Markt ist – zumin­dest für die Prü­fung von Tex­ten – schlicht zu klein, um ein Modell auf­wän­dig für die­sen Anwen­dungs­fall zu trai­nie­ren. Als „Techie“ glau­be ich eher an eine selbst­re­fle­xi­ve Mus­ter­su­che der Model­le in den eige­nen Vek­tor­räu­men mit Sys­temsprompts wie:

Wel­che Anteil des vor­lie­gen­den Tex­tes fin­det du mit hoher Wahr­schein­lich­keit in genau der dar­ge­bo­te­nen Rei­hen­fol­ge im Vek­tor­raum dei­nes eige­nen Modells?“

Und damit lau­fen wir in sys­te­ma­ti­schen Pro­ble­me der trans­form­er­ba­sier­ten LLMs, z.B. der prin­zip­be­dingt man­geln­den Sta­bi­li­tät: Lässt man den glei­chen Text 10x „tes­ten“, erhält man zehn unter­schied­li­che Pro­zent­wer­te für die Wahr­schein­lich­keit, dass ein Text KI-gene­riert ist.

Der Anlass

Ich habe in die­sem Jahr 15 Fach­ar­bei­ten kor­ri­giert. Das ist hier in Nie­der­sach­sen die „letz­te Run­de“, weil man behörd­lich vor dem „KI-Pro­blem“ bereits inso­fern kapi­tu­liert hat, dass die Fach­ar­beit künf­ti­ger Schü­ler­ge­nera­tio­nen durch ande­re For­ma­te ersetzt wird. Lisa Rosa weist dabei nach ein­mal auf den Zusam­men­hang zwi­schen Schrei­ben und Den­ken mit Ver­weis auf Vygots­kij hin. Ich hal­te die­se Ent­schei­dung in Bezug auf die Erstel­lung von Fach­ar­bei­ten daher für verfrüht.

Ich habe den Schüler:innen gegen­über offen kom­mu­ni­ziert, dass ich KI-Detek­to­ren ein­set­zen wer­de und muss­te mir von Doris Wes­sels (sie stammt aus einer Nach­bar­ge­mein­de) allein für die Idee viel Kri­tik anhören.

Mein Ansatz war folgender:

  • Ich nut­ze für die gesam­te Lern­grup­pe das glei­che Tool (ZeroGPT) und bil­de einen Mit­tel­wert der ermit­tel­ten Wahrscheinlichkeiten.
  • bei hohen Anwei­chun­gen nach oben schaue genau­er auf bestimm­te Text­mar­ker (s.u.) und behal­te mir ggf. inhalt­li­che Nach­prü­fun­gen vor.
  • Eine unmit­tel­ba­re Aus­wir­kung auf die Bewer­tung ent­steht durch das Ergeb­nis eines KI-Detek­tors allein(!) erst­mal nicht.
Erkenntnisse

Die Nut­zung eines KI-Detek­tors ist kom­plet­ter Unsinn. Dabei ist es irrele­vant, ob er funk­tio­niert oder nicht funk­tio­niert, weil der Text der Fach­ar­beit höchst­wahr­schein­lich durch inkom­pe­ten­ten Gebrauch von LLMs inhalt­lich und struk­tu­rell deut­lich schlech­ter wird als durch eigen­stän­di­ge Erar­bei­tung. Das gilt aus­drück­lich nicht für die sprach­li­che Form.

In die­sen Thread auf bildung.social sind eini­ge Text­mar­ker zusam­men­ge­tra­gen, die zumin­dest bei mir gut mit einer hohen Wahr­schein­lich­keit im KI-Detek­tor kor­re­lie­ren. Sie stam­men von mir und der Com­mu­ni­ty (u.a. Tobi­as Wun­der, I. L. Vil­li­an)

  1. Kei­ne direk­ten Zita­te bzw. Aus­ein­an­der­set­zung damit
  2. Inhalt­li­che Neu­an­sät­ze, durch Anein­an­der­rei­hung von Quellenzusammenfassungen
  3. Red­un­dan­zen, wenn Quel­len zu ana­lo­gen Schlüs­sen kommen
  4. Lehr­buch­ar­ti­ger Sprach­duk­tus, meist „über­re­du­ziert“ und dadurch oberflächlich
  5. Inhalt­lich viel zu brei­te Anlage
  6. Kaum vor­han­de­ne Lesen­den­füh­rung, feh­len­de Vernetzung
  7. Selt­sa­me, unvoll­stän­di­ge Auf­zäh­lun­gen ohne Mehrwert
  8. Stot­te­rer“ (glei­che Satz­tei­le mehr­fach im Satz), z.B. „Es gibt ver­schie­de­ne Ampel­far­ben, z.B. rot, gelb, rot, blau.“
  9. Selt­sa­me, durch Goo­geln oder Lite­ra­tur­re­cher­che für SuS kaum auf­find­ba­re Belege
  10. Bei inter­na­tio­nal bedeut­sa­men The­men eine star­ke US-Zen­trie­rung der Quellen
  11. Von Sei­ten wie books.google.com usw. wird nur der Deeplink Link „zitiert“, obwohl der Text dahin­ter kom­plet­te biblio­gra­fi­sche Daten besitzt.
  12. […]

Jeder die­ser Text­mar­ker ist durch Spe­zi­fi­ka der LLMs mit Trans­for­mer­an­satz gut erklär­bar, die „Stot­te­rer“ etwa durch Modell­rau­schen oder der Sprach­duk­tus durch zu brei­tes the­men­über­grei­fen­des Trai­ning des Modells.

Die häu­fig zu brei­te inhalt­li­che Anla­ge lässt sich dadurch erklä­ren, dass in Wis­sens­do­mä­nen, in den sich ein Schrei­ber nicht aus­kennt, nicht sinn­voll zwi­schen Rele­vanz und Irrele­vanz unter­schie­den wer­den kann und auch die Aus­wahl eines sinn­vol­len Fokus erschwert ist. Das passt sehr gut zur Kogni­ti­ons­theo­rie mit Lang­zeit- und Arbeits­ge­dächt­nis.

Daher glau­be ich mitt­ler­wei­le, dass LLMs völ­lig unge­eig­net für Novi­zin­nen in einem The­ma sind, wenn sie sich einen Über­blick dar­über ver­schaf­fen wol­len oder ohne Vor­re­cher­che Glie­de­run­gen mit sol­chen Werk­zeu­gen erstel­len las­sen – ent­ge­gen häu­fig beschrie­be­ner unter­richt­li­cher Ein­satz­sze­na­ri­en auf Socialmedia. 

Ausblick

Die häu­fig ange­bo­te­ne „Lösung“ bei schlech­ten Ergeb­nis­sen durch LLMs besteht dar­in, den „Feh­ler“ in man­geln­den Promp­ting-Skills zu sehen. Mich über­zeugt das immer weni­ger, gera­de wenn es dar­um geht, einen geschlos­se­nen Gedan­ken­gang unter Ver­wen­dung von Sekun­där­li­te­ra­tur zu ent­wi­ckeln. Ein her­aus­ra­gen­der Text setzt für mich eige­ne Lebens­rea­li­tät, eige­nen Erfah­run­gen in der Welt in Bezug zu Erfah­run­gen aus Lite­ra­tur, For­schungs­er­geb­nis­sen Drit­ter usw..

Wir kön­nen in Bezug auf LLMs alles daher­ar­gu­men­tie­ren, aber genau an dem feh­len­den indi­vi­du­el­len Welt­be­zug muss es sys­tem­be­dingt bei unse­ren heu­ti­gen algo­rith­mi­schen Ansät­zen immer scheitern.

Es gibt Anwen­dun­gen, für die LLMs gera­de­zu prä­de­sti­niert sind, näm­lich bei allem, was im Prin­zip ent­seelt ist und kei­nen indi­vi­du­el­len beruf­li­chen Arbeits­schwer­punkt bil­det: Aus PDFs Excels­heets machen, vie­le For­men von Gut­ach­ten, Ver­mer­ke Anträ­ge – d.h. Kom­mu­ni­ka­ti­ons­si­tua­tio­nen, die im Prin­zip kaum durch dia­lo­gi­sche, son­dern eher para­so­zia­le Dis­kur­se geprägt sind – gera­de auch in juris­ti­schen Berei­chen. Und gera­de dort dürf­te es hin­rei­chend gro­ße Märk­te geben, um spe­zia­li­sier­te Nischen­mo­del­le gezielt zu trainieren.

 

 

 

Literarische Charakteristik

Gar nicht ein­mal so sel­ten pas­siert das hier:

Ori­gi­nal­stel­le:

Die­se Abge­neigt­heit, sich mir zu schmie­gen, ja die­se stol­ze Art mir aus­zu­wei­chen, erregt in mir die wid­rigs­ten Gefüh­le. – Es ist ein sub­li­mer Gedan­ke , die Blu­me, die auf dem Prunk ihrer glän­zen­den Far­ben so stolz tut, gebro­chen und dahin­wel­ken zu sehen“ (aus: „Die Eli­xie­re des Teu­fels“ von E.T.A. Hoffmann)

Aus einer Cha­rak­te­ris­tik (fik­tiv):

Aure­lie ist ein stol­zes Mäd­chen, die sich nicht schnell ande­ren Per­so­nen gefü­gig zeigt (S.64,Z.2–4)“

Dumm ist nur, dass die oben zitier­te Ori­gi­nal­stel­le von der Stief­mut­ter der zu cha­rak­te­ri­sie­ren­den Figur in wört­li­cher Rede in einer Situa­ti­on gespro­chen wird, die sich mit Fug und Recht als gemei­ne Intri­ge beschrei­ben lässt.

In der letz­ten Woche kam mir erst­ma­lig der Gedan­ke, wie man den SuS die­se Pro­ble­ma­tik bewusst machen könn­te. Ich bin mit einen Per­sön­lich­keits­test ein­ge­stie­gen, den man in die­sem Mate­ri­al­klein­od fin­den kann. Die SuS soll­ten sich auf einer Ska­la von ‑3 bis 3 hin­sicht­lich bestimm­ter Cha­rak­ter­merk­ma­le selbst ein­schät­zen (Selbst­sicht), z.B. „ratio­nal“, „extro­ver­tiert“ usw. Auf der Rück­sei­te des Zet­tels befand sich ein iden­ti­scher Fra­ge­bo­gen, der jedoch für den Betrof­fe­nen Schü­ler von einem Mit­schü­ler aus­ge­füllt wur­de (Fremd­sicht). Das geht natür­lich nicht mit jeder Klas­se, da man einen Part­ner braucht, der einen gut kennt. Oh Wun­der – es gab neben Über­ein­stim­mun­gen natür­lich auch Abwei­chun­gen – und es konn­te auch kaum jemand erwar­ten, sei­nen Zet­tel end­lich zurück­zu­be­kom­men… Wich­tig dabei ist natür­lich, den SuS klar­zu­ma­chen, dass man als Leh­rer die­se Zet­tel weder ein­sam­meln noch anschau­en wird.

Dann ist der Fokus schon ganz gut auf die Pro­ble­ma­tik der obi­gen Aus­sa­ge in der Cha­rak­te­ris­tik fokus­siert. Eigen- und Fremd­wahr­neh­mung kön­nen dane­ben­lie­gen. Aber auf was kann man sich denn in einem Text verlassen?

1. Der Erzähler

… kann ein Schelm sein, indem er die Wahr­neh­mung des Lesers len­ken möch­te – häu­fig in der aukt­oria­len Gestalt. Dem neu­tra­len Erzäh­ler darf man da z.B. mehr trauen.

2. Aus­sa­gen ande­rer Figuren

… sind bei emo­tio­na­ler Befan­gen­heit kri­tisch zu hin­ter­fra­gen, gele­gent­lich aber durch­aus hilf­reich, z.B. wenn meh­re­re unter­schied­li­che Cha­rak­te­re die glei­che Ansicht teilen.

3. Aus­sa­gen der zu cha­rak­te­ri­sie­ren­den Figur

… auch nicht ganz unpro­ble­ma­tisch. Selbst ein Com­pu­ter­ge­hirn wie HAL kann in der Selbst­dar­stel­lung danebenliegen.

4. Das Ver­hal­ten einer Figur

…emp­fin­de ich als eine der noch ver­läss­lichs­ten Quel­len. Infor­ma­tio­nen dar­über sind zudem aus eige­nen Aus­sa­gen der Figur, Aus­sa­gen von ande­ren Figu­ren oder dem Erzäh­ler ableitbar.

Nach die­ser Stun­de kam in der Über­ar­bei­tung einer mit Ether­pad in Grup­pen erstell­ten Haus­auf­ga­be die­ser Text her­aus – 1:1 über­nom­men, 9. Klasse:

In dem Buch “Die Eli­xie­re des Teu­fels” von E. T. A. Hoff­mann wird man auf eine der Haupt­fi­gu­ren auf­merk­sam, namens Aure­lie. Sie ist die Toch­ter des Barons und die Gelieb­te des Medardus, des­sen Mön­ches­le­ben in dem Buch beschrie­ben wird und die Haupt­fi­gur ist und ihren Bru­der umbrachte.
Aure­lie wird von Rhein­hold als ein „ blö­des uner­fah­re­nes Mäd­chen” (Z.46, S. 26),  doch gleich­zei­tig auch als hüb­sche Frau ange­se­hen ( S.27 Z.45). Rhein­hold erzählt Medardus, dass „Aure­lie  immer mehr das Eben­bild ihrer Mut­ter wurde”.
Ver­gli­chen dazu ist (S.45 Z.13) von dem glei­chen die Beschrei­bung der Mut­ter: Sie sei eine „Braut, ein her­li­ches von der Natur reich aus­ge­stat­te­tes Wesen”.
Nur mit „unbe­schreib­li­cher Zartheit”(Z. 46, S. 22) kann sie sich einem öff­nen, ansons­ten bleibt sie in sich ver­schlos­sen und frisst alles in sich hinein.
„Aure­lie, das lie­be, ahnungs­vol­le Kind, zer­floss in Trä­nen ”(S.48 Z.26), als sie Euphe­mies wah­ren Absich­ten von der Hei­rat des Vaters ahnt, jedoch, aus Schüch­tern­heit bedrückt, sagt sie nichts, statt­des­sen weint sie nur demonstrativ .
Aure­lie ist Euphemie´s Gegen­bild, das bedeu­tet auch das ihr Ver­hal­ten mit dem von ihrer Stief­mut­ter Euphe­mie nicht über­ein­stimmt. Denn ”ihre Anspruchs­lo­sig­keit, ihr stil­les Fromm­tun, hin­ter dem sich ein unleid­li­cher Stolz ver­steckt, ärger­t” (S.63 Z.40) die­ser. Euphe­mie ist gegen­über Aure­lie eine ego­is­tisch wir­ken­de Per­son, die kei­ne Rück­sicht auf Ver­lus­te nimmt.
Euphe­mie stellt Aure­lie gegen­über Medardus als “gutes Kin­d” (S.57 Z.36) dar. Bei der Durch­set­zung ihres Pla­nes hät­te sie “es nur mit Her­mo­gen zu tun” (S.57 Z.34) und nicht mit Aurelie.
Sie meint, ent­ge­gen ihrer Vor­stel­lun­gen dass Aure­lie ein ande­res, immer zufrie­den­des Gesicht zeigt, statt das ech­te, mit gro­ßem Selbst­wert­ge­fühl, und beken­nen­der Liebe.
Die­se spricht nur im Beicht­stuhl zu ihrer “verbotenen Lie­be” (S.35 Z.2) Medardus ihre Gefüh­le offen aus (S.35 Z.8), doch auch hier war sie “im Wahn­sinn hoff­nungs­lo­ser Ver­zweif­lun­g” (S.35 Z.5) und steht nicht dazu. Durch ihr Ver­schwin­den wird ihre Unent­schlos­sen­heit noch­mals deutlich.
Zusam­men­fas­send kann man sagen, dass sie einer­seits unschul­dig, ande­rer­seits lei­den­schaft­lich in Medardus ver­liebt ist, durch Unent­schlos­sen­heit und Lei­den­schaft geprägt.