KI generierte (Fach-)Arbeiten erkennen

Prolog

Phil­ip­pe Wampf­ler ver­trat vor eini­ger Zeit die Auf­fas­sung, dass KI-Detek­to­ren funk­tio­nie­ren. Es gibt Fach­per­so­nen wie Doris Wes­sels, die dem vehe­ment wider­spre­chen. Ein zen­tra­ler Ansatz von Phil­ip­pe ist folgender:

Die funk­tio­nie­ren­den Detek­to­ren set­zen aber genau so wie die text- oder bild­ge­ne­rie­ren­den Tools Machi­ne-Lear­ning ein, um KI-gemach­te von men­schen­ge­mach­ten Pro­duk­ten zu unterscheiden.

Die mini­ma­le Vor­aus­set­zung, dass man Model­le spe­zi­ell mit KI Arte­fak­ten trai­niert, um die­se spe­zia­li­sier­te Anwen­dung abzu­de­cken, ist eine kos­ten­de­cken­de Nach­fra­ge durch den Markt. Ich glau­be, der zuge­hö­ri­ge Markt ist – zumin­dest für die Prü­fung von Tex­ten – schlicht zu klein, um ein Modell auf­wän­dig für die­sen Anwen­dungs­fall zu trai­nie­ren. Als „Techie“ glau­be ich eher an eine selbst­re­fle­xi­ve Mus­ter­su­che der Model­le in den eige­nen Vek­tor­räu­men mit Sys­temsprompts wie:

Wel­che Anteil des vor­lie­gen­den Tex­tes fin­det du mit hoher Wahr­schein­lich­keit in genau der dar­ge­bo­te­nen Rei­hen­fol­ge im Vek­tor­raum dei­nes eige­nen Modells?“

Und damit lau­fen wir in sys­te­ma­ti­schen Pro­ble­me der trans­form­er­ba­sier­ten LLMs, z.B. der prin­zip­be­dingt man­geln­den Sta­bi­li­tät: Lässt man den glei­chen Text 10x „tes­ten“, erhält man zehn unter­schied­li­che Pro­zent­wer­te für die Wahr­schein­lich­keit, dass ein Text KI-gene­riert ist.

Der Anlass

Ich habe in die­sem Jahr 15 Fach­ar­bei­ten kor­ri­giert. Das ist hier in Nie­der­sach­sen die „letz­te Run­de“, weil man behörd­lich vor dem „KI-Pro­blem“ bereits inso­fern kapi­tu­liert hat, dass die Fach­ar­beit künf­ti­ger Schü­ler­ge­nera­tio­nen durch ande­re For­ma­te ersetzt wird. Lisa Rosa weist dabei nach ein­mal auf den Zusam­men­hang zwi­schen Schrei­ben und Den­ken mit Ver­weis auf Vygots­kij hin. Ich hal­te die­se Ent­schei­dung in Bezug auf die Erstel­lung von Fach­ar­bei­ten daher für verfrüht.

Ich habe den Schüler:innen gegen­über offen kom­mu­ni­ziert, dass ich KI-Detek­to­ren ein­set­zen wer­de und muss­te mir von Doris Wes­sels (sie stammt aus einer Nach­bar­ge­mein­de) allein für die Idee viel Kri­tik anhören.

Mein Ansatz war folgender:

  • Ich nut­ze für die gesam­te Lern­grup­pe das glei­che Tool (ZeroGPT) und bil­de einen Mit­tel­wert der ermit­tel­ten Wahrscheinlichkeiten.
  • bei hohen Anwei­chun­gen nach oben schaue genau­er auf bestimm­te Text­mar­ker (s.u.) und behal­te mir ggf. inhalt­li­che Nach­prü­fun­gen vor.
  • Eine unmit­tel­ba­re Aus­wir­kung auf die Bewer­tung ent­steht durch das Ergeb­nis eines KI-Detek­tors allein(!) erst­mal nicht.
Erkenntnisse

Die Nut­zung eines KI-Detek­tors ist kom­plet­ter Unsinn. Dabei ist es irrele­vant, ob er funk­tio­niert oder nicht funk­tio­niert, weil der Text der Fach­ar­beit höchst­wahr­schein­lich durch inkom­pe­ten­ten Gebrauch von LLMs inhalt­lich und struk­tu­rell deut­lich schlech­ter wird als durch eigen­stän­di­ge Erar­bei­tung. Das gilt aus­drück­lich nicht für die sprach­li­che Form.

In die­sen Thread auf bildung.social sind eini­ge Text­mar­ker zusam­men­ge­tra­gen, die zumin­dest bei mir gut mit einer hohen Wahr­schein­lich­keit im KI-Detek­tor kor­re­lie­ren. Sie stam­men von mir und der Com­mu­ni­ty (u.a. Tobi­as Wun­der, I. L. Vil­li­an)

  1. Kei­ne direk­ten Zita­te bzw. Aus­ein­an­der­set­zung damit
  2. Inhalt­li­che Neu­an­sät­ze, durch Anein­an­der­rei­hung von Quellenzusammenfassungen
  3. Red­un­dan­zen, wenn Quel­len zu ana­lo­gen Schlüs­sen kommen
  4. Lehr­buch­ar­ti­ger Sprach­duk­tus, meist „über­re­du­ziert“ und dadurch oberflächlich
  5. Inhalt­lich viel zu brei­te Anlage
  6. Kaum vor­han­de­ne Lesen­den­füh­rung, feh­len­de Vernetzung
  7. Selt­sa­me, unvoll­stän­di­ge Auf­zäh­lun­gen ohne Mehrwert
  8. Stot­te­rer“ (glei­che Satz­tei­le mehr­fach im Satz), z.B. „Es gibt ver­schie­de­ne Ampel­far­ben, z.B. rot, gelb, rot, blau.“
  9. Selt­sa­me, durch Goo­geln oder Lite­ra­tur­re­cher­che für SuS kaum auf­find­ba­re Belege
  10. Bei inter­na­tio­nal bedeut­sa­men The­men eine star­ke US-Zen­trie­rung der Quellen
  11. Von Sei­ten wie books.google.com usw. wird nur der Deeplink Link „zitiert“, obwohl der Text dahin­ter kom­plet­te biblio­gra­fi­sche Daten besitzt.
  12. […]

Jeder die­ser Text­mar­ker ist durch Spe­zi­fi­ka der LLMs mit Trans­for­mer­an­satz gut erklär­bar, die „Stot­te­rer“ etwa durch Modell­rau­schen oder der Sprach­duk­tus durch zu brei­tes the­men­über­grei­fen­des Trai­ning des Modells.

Die häu­fig zu brei­te inhalt­li­che Anla­ge lässt sich dadurch erklä­ren, dass in Wis­sens­do­mä­nen, in den sich ein Schrei­ber nicht aus­kennt, nicht sinn­voll zwi­schen Rele­vanz und Irrele­vanz unter­schie­den wer­den kann und auch die Aus­wahl eines sinn­vol­len Fokus erschwert ist. Das passt sehr gut zur Kogni­ti­ons­theo­rie mit Lang­zeit- und Arbeits­ge­dächt­nis.

Daher glau­be ich mitt­ler­wei­le, dass LLMs völ­lig unge­eig­net für Novi­zin­nen in einem The­ma sind, wenn sie sich einen Über­blick dar­über ver­schaf­fen wol­len oder ohne Vor­re­cher­che Glie­de­run­gen mit sol­chen Werk­zeu­gen erstel­len las­sen – ent­ge­gen häu­fig beschrie­be­ner unter­richt­li­cher Ein­satz­sze­na­ri­en auf Socialmedia. 

Ausblick

Die häu­fig ange­bo­te­ne „Lösung“ bei schlech­ten Ergeb­nis­sen durch LLMs besteht dar­in, den „Feh­ler“ in man­geln­den Promp­ting-Skills zu sehen. Mich über­zeugt das immer weni­ger, gera­de wenn es dar­um geht, einen geschlos­se­nen Gedan­ken­gang unter Ver­wen­dung von Sekun­där­li­te­ra­tur zu ent­wi­ckeln. Ein her­aus­ra­gen­der Text setzt für mich eige­ne Lebens­rea­li­tät, eige­nen Erfah­run­gen in der Welt in Bezug zu Erfah­run­gen aus Lite­ra­tur, For­schungs­er­geb­nis­sen Drit­ter usw..

Wir kön­nen in Bezug auf LLMs alles daher­ar­gu­men­tie­ren, aber genau an dem feh­len­den indi­vi­du­el­len Welt­be­zug muss es sys­tem­be­dingt bei unse­ren heu­ti­gen algo­rith­mi­schen Ansät­zen immer scheitern.

Es gibt Anwen­dun­gen, für die LLMs gera­de­zu prä­de­sti­niert sind, näm­lich bei allem, was im Prin­zip ent­seelt ist und kei­nen indi­vi­du­el­len beruf­li­chen Arbeits­schwer­punkt bil­det: Aus PDFs Excels­heets machen, vie­le For­men von Gut­ach­ten, Ver­mer­ke Anträ­ge – d.h. Kom­mu­ni­ka­ti­ons­si­tua­tio­nen, die im Prin­zip kaum durch dia­lo­gi­sche, son­dern eher para­so­zia­le Dis­kur­se geprägt sind – gera­de auch in juris­ti­schen Berei­chen. Und gera­de dort dürf­te es hin­rei­chend gro­ße Märk­te geben, um spe­zia­li­sier­te Nischen­mo­del­le gezielt zu trainieren.

 

 

 

Wasmanie

Aus­gangs­si­tua­ti­on:

Vor dem Haus liegt ein Sta­pel mit Tro­cken­est­rich­plat­ten. Es han­delt sich um 60 Stück mit je einem Gewicht von ca. 28kg mit einem Maß von 50x150cm. Die Auf­ga­be besteht dar­in, mit die­sen Plat­ten auf dem Dach­bo­den den Grund­auf­bau für einen Fuß­bo­den zu schaffen.

Grup­pe 1 – Leh­rer und Bildungsforscher

Die Grup­pe trifft sich zunächst zu einer aus­führ­li­chen Bespre­chung beim Sta­pel. Nach Kon­sul­ta­ti­on der voll­stän­di­gen Ver­le­ge­an­lei­tung wird ein ein­zel­nes Ele­ment zunächst genau inspi­ziert. Dabei stel­len sich fol­gen­de Sach­ver­hal­te her­aus, die in einem Ether­pad kol­la­bo­ra­tiv deskri­biert werden.

  1. Die Sty­ro­por­däm­mung neigt dazu abzu­bre­chen und muss mit äußers­ter Vor­sicht behan­delt wer­den. Kei­nes­fall darf die Plat­te auf die­ser schwa­chen Kan­te abge­setzt oder belas­tet werden.
  2. Die über­ste­hen­de Fer­macell­kan­te auf der ande­ren Sei­te neigt ins­be­son­de­re an der Ecke dazu, leicht abzu­bre­chen. Fol­ge­rich­tig zei­gen sich auch bereits an eini­gen Plat­ten ers­te Schä­den bei Anlie­fe­rung. Die­se snd zunächst ein­mal beim Lie­fe­ran­ten zu reklamieren.
  3. Das Gewicht einer Plat­te ist so groß, dass ein bei fal­scher Tra­ge­tech­nik poten­ti­ell zu Rücken­schä­den kom­men kann. Dem­nach müs­sen Richt­li­ni­en und Leit­sät­ze für den Trans­port der Plat­ten ins Dach­ge­schoss erar­bei­tet werden.
  4. Der Gips ist nur durch Fasern gebun­den. Daher muss eine ent­spre­chen­de Klei­dung bei der Ver­ar­bei­tung getra­gen wer­den, bei der Ver­schmut­zun­gen zu ver­nach­läs­sig­bar sind.
  5. Bei der Beruf­ge­nos­sen­schaft Bau muss ein Gut­ach­ten ein­ge­holt wer­den, der Trans­port über die enge Boden­trep­pe über­haupt recht­lich mög­lich ist.
  6. Es wird fest­ge­hal­ten, dass der Trans­port von Boden­est­rich­ele­men­ten völ­lig neue Kom­pe­ten­zen und einen völ­lig neu­es Selbst­ver­ständ­nis aller betei­lig­ten Berufs­grup­pen erfordert.

Die Grup­pe beschließt ange­sicht des noch offe­nen Fra­gen wei­te­re Dis­kus­si­on­run­den und Tref­fen. Auf­ga­ben wer­den in der Grup­pe pari­tä­tisch ver­teilt. Wei­ter­hin gilt es, eine Per­spek­ti­ve für die Zukunft zu for­mu­lie­ren: Auch beim Ver­le­gen der Plat­ten blei­ben trotz der Anlei­tung immer noch Fra­gen offen.

Grup­pe 2 – Handwerker

Die Hand­wer­ker tra­gen zunächst ein­mal kol­la­bo­ra­tiv alle Plat­ten auf den Dach­bo­den. Dabei geht teil­wei­se die Sty­po­r­däm­mung flö­ten und eini­ge Kan­ten bre­chen ab. Durch den beim Ver­le­gen not­wen­di­gen Ver­satz kön­nen sol­che Plat­ten trotz­dem ver­wen­det wer­den. Außer­dem hat der Lie­fe­rant sowie­so eini­ge Plat­ten mehr ange­lie­fert als ursprüng­lich bestellt waren – das geüb­te Auge der Hand­wer­ker hat das bereits unten vor dem Haus erfasst. Beim Ver­le­gen geht eini­ges schief, aber nach zwei, drei Bah­nen ist das Team ein­ge­spielt. Die Ver­le­ge­an­lei­tung wur­de nur kurz kon­sul­tiert, um die Dosie­rung des Kle­bers nach­zu­schla­gen – die muss aber ohne­hin je nach Ver­le­ge­ort etwas vari­iert werden.

Ergeb­nis nach einem Tag Arbeit:

Die Plat­ten von Grup­pe 1 lie­ge immer noch vor dem Haus und wer­den immer Nacht durch einen kräf­ti­gen Schlag­re­gen für die wei­te­re Ver­wen­dung unbrauch­bar, sodass aus der Grup­pe auch nie­mand mehr Lust hat, die Sache zu einem Ende zu brin­gen. Die Grup­pe hat das Gefühl, wert­vol­le Arbeit geleis­tet zu haben, aber letzt­lich an wid­ri­gen Umstän­den geschei­tert zu sein. Der Haus­herr tobt derweil.

Die Plat­ten von Grup­pe 2 sind noch am sel­ben Abend ver­legt – es gibt natür­lich eini­ge blaue Fle­cken und etwas Dreck im Haus. Dem einen oder ande­ren tut auch der Rücken etwas weh. Die Grup­pe hat das Gefühl, wert­vol­le Arbeit geleis­tet zu haben und erfreut sich bei der Bege­hung des Dach­bo­dens an einem Fei­er­abend­bier. Haus­flur und Trep­pe lie­gen voll von Sty­ro­por­ku­geln und zer­tre­te­nen Plat­ten­res­ten. Der Haus­herr fährt zur Tan­ke, um Nach­schub zu holen und putzt am nächs­ten Mor­gen froh die Wohnung.

Was­ma­nie

Wie viel Aktio­nen im Netz beschäf­ti­gen sich mit der Fra­ge, was man denn tun soll. Über die­ses „Was“ gibt es ver­netz­ten Aus­tausch an allen Orten und Kan­ten. Das ist schön und das ist wert­voll. Aber dadurch allein kommt kei­ne Plat­te auf den Dach­bo­den. Seit Jah­ren höre ich die immer glei­chen Posi­tio­nen, neh­me das ver­hoh­le­ne War­ten dar­auf wahr, dass end­lich jemand ein­mal die Plat­ten hochträgt.

  • Darf man das?
  • Gibt es nicht auch Alternativen?
  • Ist das schon zu Ende gedacht?
  • Ist das jetzt so auch richtig?

Alles ohne Zwei­fel wich­ti­ge Fra­gen. Mein „spe­zi­el­ler Freund“ Gün­ther Dueck hat sinn­ge­mäß etwas Wah­res gesagt:

Die, die medi­en­tech­nisch vor­weg­lau­fen, haben nicht die Auf­ga­be, immer wei­ter davon­zu­ei­len, son­dern sich umzu­schau­en zu den ande­ren, sie mitzunehmen.

Sascha Lobo hält der Web2.0‑Gemeinde auf der re:publica11 sinn­ge­mäß vor, in ihrem selbst­re­fle­xi­ven Meta­ge­sei­er zu ersti­cken, sich wohl zu füh­len in einem Meer gegen­sei­ti­ger Selbst­be­stä­ti­gung und er wird dafür beklatscht.

Für mich kom­men mehr und mehr Zwei­fel dar­an auf, wie lan­ge mich per­sön­lich mein was­ma­ti­sches Meta­ge­sei­er noch tra­gen wird. Ich bekom­me mit den Jah­ren mehr und mehr Fei­er­abend­bier­durst. Dem­entspre­chend wird sich bei mir in nächs­ter Zeit mein Instru­men­ta­ri­um neu justieren.

Der erste Mai

Die ers­te Schlag­zei­le, die mir heu­te Mor­gen  in unse­rer Lokal­zei­tung in die Hän­de fiel:

Zwölf­jäh­ri­ger Jun­ge hat 2,2 Pro­mil­le im Blut

Poli­zei zieht nach dem Mai­fei­er­tag ernüch­tern­de Bilanz 

(MT, 5.5.2009, 129 Jg.)

Wenn es inhalt­lich nicht so trau­rig wäre, könn­te es sprach­lich recht lus­tig sein – zuge­ge­be­ner­ma­ßen nur für Deutschlehrer…

Sprache als Verräter

… nur deko­die­ren muss man sie. Hier ein Aus­schnitt aus „Kaba­le und Lie­be“ von Fried­rich Schiller:

PRÄSIDENT. Und ich dach­te, sie blie­be ganz weg. Dum­mer Teu­fel, was ver­schlägt es denn ihm, ob Er die Karo­lin frisch aus der Mün­ze oder vom Ban­kier bekommt. Tröst Er sich mit dem hie­si­gen Adel; – Wis­sent­lich oder nicht – bei uns wird sel­ten eine Maria­ge geschlos­sen, wo nicht wenis­tens ein halb Dut­zend der Gäs­te – oder der Auf­wär­ter – das Para­dies des Bräu­ti­gams geo­me­trisch ermes­sen kann.

aus dem 1. Akt, 5. Szene

Die Rede ist hier von einer Frau, die der Gesprächs­part­ner des Prä­si­den­ten – der Sekre­tär „Wurm“ – zu erlan­gen sucht. Sie ist die „Karo­lin“, eine Ende des 18. Jhd. gebräuch­li­che Mün­ze, sie trägt das „Para­dies des Bräu­ti­gams“, was „ein halb Dut­zend“ Män­ner vor der Hoch­zeit in der ade­li­gen Sphä­re „geo­me­tri­scher­mes­sen“ haben. Otto Waal­kes hat dazu pas­send bereits gedichtet:

Mein Lieb­chen hat so etwas, das ist so fein und süss
und die­se klei­ne Etwas das ist mein Paradies
ja die­se klei­ne Etwas, ist mei­nes Lieb­chens Mund
und wer was and­res dach­te, der ist ein Schweinehund

Die Frau ist halt dann schon nicht mehr unver­braucht und das soll­te doch nach Ansicht des Spre­chers kein Hin­der­nis darstellen.

Wei­ter­le­sen

Verarmter Wortschatz = Sammelbeckenwörter

unklar!“, „unge­nau!“, „undif­fe­ren­ziert!“ – das sind Rand­be­mer­kun­gen, die SuS oft am Rand ihrer kor­ri­gier­ten Arbei­ten lesen müs­sen. Ich glau­be, dass SuS mit die­sen Wor­ten nichts anfan­gen kön­nen. Ich glau­be wei­ter­hin, dass es so vie­le didak­ti­sche Kon­zep­te gar nicht gibt, um die­ser Her­aus­for­de­rung Herr zu wer­den. Ich glau­be, wir leben in einer Gesell­schaft, die emo­tio­nal ver­armt. Die­se emo­tio­na­le Ver­ar­mung ist ein der Spra­che ables­bar. Von SuS höre ich oft den Ausspruch:

Ich bin gestresst!“

Stress“ ist ein Sam­mel­be­cken­wort für alle mög­li­chen Gefüh­le gewor­den. Man könn­te statt­des­sen auch sagen:

Ich lei­de unter den gan­ze Hausaufgaben.“

Ich bin trau­rig dar­über, kei­ne Zeit mehr für mei­ne Freun­de zu haben.“

Ich bin zor­nig über die blö­den Anfor­de­run­gen hier an der Schule.“

Ich bin total ver­zwei­felt, weil ich nicht weiß, ob ich alles hinbekomme.“

Ich habe Angst, nicht reicht­zei­tig mit dem Ler­nen fer­tig zu werden.“

All das u.v.m. kann gemeint sein, wenn jemand „gestresst“ ist. Viel­leicht liest man des­we­gen in Klau­su­ren oft von „Din­gen“, „Sachen“, „Leu­ten, die etwas sagen“, „Sachen, die sind“ oder moder­ner: „Aspek­ten“. Man liest sel­ten etwas von „Les­ar­ten“, „Denk­an­sät­zen“, „Kon­zep­ten“, „Auf­fas­sun­gen“.

Was hilft?

Wir müs­sen wahr­schein­lich mit SuS auf die Suche nach Wor­ten gehen. Wor­te für Gefüh­le sind dabei nach mei­ner Erfah­rung sehr gut geeig­net, weil sie die Über­lei­tung zu Wor­ten für z.B. Sprech­ak­te bil­den kön­nen. Ohne Wort­schatz kei­ne Rede, kein guter Auf­satz, kei­ne dif­fe­ren­zier­te Inhalts­an­ga­ben. Und den Aus­spruch: „Dein Wort ist ein Sam­mel­be­griff für alles Mög­li­che und das meint die Bezeich­nung ‚unklar‘ “ ver­steht viel­leicht ein Schü­ler eher… Denn „unklar!“, „unge­nau!“, „undif­fe­ren­ziert!“ sind schließ­lich Sam­mel­be­cken­be­grif­fe von uns Lehrern.

1 2