KI generierte (Fach-)Arbeiten erkennen

Prolog

Phil­ip­pe Wampf­ler ver­trat vor eini­ger Zeit die Auf­fas­sung, dass KI-Detek­to­ren funk­tio­nie­ren. Es gibt Fach­per­so­nen wie Doris Wes­sels, die dem vehe­ment wider­spre­chen. Ein zen­tra­ler Ansatz von Phil­ip­pe ist folgender:

Die funk­tio­nie­ren­den Detek­to­ren set­zen aber genau so wie die text- oder bild­ge­ne­rie­ren­den Tools Machi­ne-Lear­ning ein, um KI-gemach­te von men­schen­ge­mach­ten Pro­duk­ten zu unterscheiden.

Die mini­ma­le Vor­aus­set­zung, dass man Model­le spe­zi­ell mit KI Arte­fak­ten trai­niert, um die­se spe­zia­li­sier­te Anwen­dung abzu­de­cken, ist eine kos­ten­de­cken­de Nach­fra­ge durch den Markt. Ich glau­be, der zuge­hö­ri­ge Markt ist – zumin­dest für die Prü­fung von Tex­ten – schlicht zu klein, um ein Modell auf­wän­dig für die­sen Anwen­dungs­fall zu trai­nie­ren. Als „Techie“ glau­be ich eher an eine selbst­re­fle­xi­ve Mus­ter­su­che der Model­le in den eige­nen Vek­tor­räu­men mit Sys­temsprompts wie:

Wel­che Anteil des vor­lie­gen­den Tex­tes fin­det du mit hoher Wahr­schein­lich­keit in genau der dar­ge­bo­te­nen Rei­hen­fol­ge im Vek­tor­raum dei­nes eige­nen Modells?“

Und damit lau­fen wir in sys­te­ma­ti­schen Pro­ble­me der trans­form­er­ba­sier­ten LLMs, z.B. der prin­zip­be­dingt man­geln­den Sta­bi­li­tät: Lässt man den glei­chen Text 10x „tes­ten“, erhält man zehn unter­schied­li­che Pro­zent­wer­te für die Wahr­schein­lich­keit, dass ein Text KI-gene­riert ist.

Der Anlass

Ich habe in die­sem Jahr 15 Fach­ar­bei­ten kor­ri­giert. Das ist hier in Nie­der­sach­sen die „letz­te Run­de“, weil man behörd­lich vor dem „KI-Pro­blem“ bereits inso­fern kapi­tu­liert hat, dass die Fach­ar­beit künf­ti­ger Schü­ler­ge­nera­tio­nen durch ande­re For­ma­te ersetzt wird. Lisa Rosa weist dabei nach ein­mal auf den Zusam­men­hang zwi­schen Schrei­ben und Den­ken mit Ver­weis auf Vygots­kij hin. Ich hal­te die­se Ent­schei­dung in Bezug auf die Erstel­lung von Fach­ar­bei­ten daher für verfrüht.

Ich habe den Schüler:innen gegen­über offen kom­mu­ni­ziert, dass ich KI-Detek­to­ren ein­set­zen wer­de und muss­te mir von Doris Wes­sels (sie stammt aus einer Nach­bar­ge­mein­de) allein für die Idee viel Kri­tik anhören.

Mein Ansatz war folgender:

  • Ich nut­ze für die gesam­te Lern­grup­pe das glei­che Tool (ZeroGPT) und bil­de einen Mit­tel­wert der ermit­tel­ten Wahrscheinlichkeiten.
  • bei hohen Anwei­chun­gen nach oben schaue genau­er auf bestimm­te Text­mar­ker (s.u.) und behal­te mir ggf. inhalt­li­che Nach­prü­fun­gen vor.
  • Eine unmit­tel­ba­re Aus­wir­kung auf die Bewer­tung ent­steht durch das Ergeb­nis eines KI-Detek­tors allein(!) erst­mal nicht.
Erkenntnisse

Die Nut­zung eines KI-Detek­tors ist kom­plet­ter Unsinn. Dabei ist es irrele­vant, ob er funk­tio­niert oder nicht funk­tio­niert, weil der Text der Fach­ar­beit höchst­wahr­schein­lich durch inkom­pe­ten­ten Gebrauch von LLMs inhalt­lich und struk­tu­rell deut­lich schlech­ter wird als durch eigen­stän­di­ge Erar­bei­tung. Das gilt aus­drück­lich nicht für die sprach­li­che Form.

In die­sen Thread auf bildung.social sind eini­ge Text­mar­ker zusam­men­ge­tra­gen, die zumin­dest bei mir gut mit einer hohen Wahr­schein­lich­keit im KI-Detek­tor kor­re­lie­ren. Sie stam­men von mir und der Com­mu­ni­ty (u.a. Tobi­as Wun­der, I. L. Vil­li­an)

  1. Kei­ne direk­ten Zita­te bzw. Aus­ein­an­der­set­zung damit
  2. Inhalt­li­che Neu­an­sät­ze, durch Anein­an­der­rei­hung von Quellenzusammenfassungen
  3. Red­un­dan­zen, wenn Quel­len zu ana­lo­gen Schlüs­sen kommen
  4. Lehr­buch­ar­ti­ger Sprach­duk­tus, meist „über­re­du­ziert“ und dadurch oberflächlich
  5. Inhalt­lich viel zu brei­te Anlage
  6. Kaum vor­han­de­ne Lesen­den­füh­rung, feh­len­de Vernetzung
  7. Selt­sa­me, unvoll­stän­di­ge Auf­zäh­lun­gen ohne Mehrwert
  8. Stot­te­rer“ (glei­che Satz­tei­le mehr­fach im Satz), z.B. „Es gibt ver­schie­de­ne Ampel­far­ben, z.B. rot, gelb, rot, blau.“
  9. Selt­sa­me, durch Goo­geln oder Lite­ra­tur­re­cher­che für SuS kaum auf­find­ba­re Belege
  10. Bei inter­na­tio­nal bedeut­sa­men The­men eine star­ke US-Zen­trie­rung der Quellen
  11. Von Sei­ten wie books.google.com usw. wird nur der Deeplink Link „zitiert“, obwohl der Text dahin­ter kom­plet­te biblio­gra­fi­sche Daten besitzt.
  12. […]

Jeder die­ser Text­mar­ker ist durch Spe­zi­fi­ka der LLMs mit Trans­for­mer­an­satz gut erklär­bar, die „Stot­te­rer“ etwa durch Modell­rau­schen oder der Sprach­duk­tus durch zu brei­tes the­men­über­grei­fen­des Trai­ning des Modells.

Die häu­fig zu brei­te inhalt­li­che Anla­ge lässt sich dadurch erklä­ren, dass in Wis­sens­do­mä­nen, in den sich ein Schrei­ber nicht aus­kennt, nicht sinn­voll zwi­schen Rele­vanz und Irrele­vanz unter­schie­den wer­den kann und auch die Aus­wahl eines sinn­vol­len Fokus erschwert ist. Das passt sehr gut zur Kogni­ti­ons­theo­rie mit Lang­zeit- und Arbeits­ge­dächt­nis.

Daher glau­be ich mitt­ler­wei­le, dass LLMs völ­lig unge­eig­net für Novi­zin­nen in einem The­ma sind, wenn sie sich einen Über­blick dar­über ver­schaf­fen wol­len oder ohne Vor­re­cher­che Glie­de­run­gen mit sol­chen Werk­zeu­gen erstel­len las­sen – ent­ge­gen häu­fig beschrie­be­ner unter­richt­li­cher Ein­satz­sze­na­ri­en auf Socialmedia. 

Ausblick

Die häu­fig ange­bo­te­ne „Lösung“ bei schlech­ten Ergeb­nis­sen durch LLMs besteht dar­in, den „Feh­ler“ in man­geln­den Promp­ting-Skills zu sehen. Mich über­zeugt das immer weni­ger, gera­de wenn es dar­um geht, einen geschlos­se­nen Gedan­ken­gang unter Ver­wen­dung von Sekun­där­li­te­ra­tur zu ent­wi­ckeln. Ein her­aus­ra­gen­der Text setzt für mich eige­ne Lebens­rea­li­tät, eige­nen Erfah­run­gen in der Welt in Bezug zu Erfah­run­gen aus Lite­ra­tur, For­schungs­er­geb­nis­sen Drit­ter usw..

Wir kön­nen in Bezug auf LLMs alles daher­ar­gu­men­tie­ren, aber genau an dem feh­len­den indi­vi­du­el­len Welt­be­zug muss es sys­tem­be­dingt bei unse­ren heu­ti­gen algo­rith­mi­schen Ansät­zen immer scheitern.

Es gibt Anwen­dun­gen, für die LLMs gera­de­zu prä­de­sti­niert sind, näm­lich bei allem, was im Prin­zip ent­seelt ist und kei­nen indi­vi­du­el­len beruf­li­chen Arbeits­schwer­punkt bil­det: Aus PDFs Excels­heets machen, vie­le For­men von Gut­ach­ten, Ver­mer­ke Anträ­ge – d.h. Kom­mu­ni­ka­ti­ons­si­tua­tio­nen, die im Prin­zip kaum durch dia­lo­gi­sche, son­dern eher para­so­zia­le Dis­kur­se geprägt sind – gera­de auch in juris­ti­schen Berei­chen. Und gera­de dort dürf­te es hin­rei­chend gro­ße Märk­te geben, um spe­zia­li­sier­te Nischen­mo­del­le gezielt zu trainieren.

 

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert