AI at school? Is it just there and do we have to deal with it?

Preliminary remarks for this english version

Alt­hough this artic­le takes a cri­ti­cal look at the use of AI in schools, I have used an AI tool „made in Ger­ma­ny“ for the trans­la­ti­on (https://www.deepl.com). it’s not my style and vio­la­tes my idea of flu­ent english.

On the basis of the­se thoughts, I some­ti­mes face strong cri­ti­cism from the Ger­man edu­ca­ti­on com­mu­ni­ty or even the edu­ca­ti­on admi­nis­tra­ti­on for which I work – it seems to me, that I would break (male) tech­nic toys or spoil them at least.

Introduction

Not a day goes by on social media wit­hout new, cool tips on using AI in the class­room. For three years now, I’ve been giving talks on AI to all kinds of groups and com­mit­tees, which has incre­asing­ly tur­ned into a very cri­ti­cal view of the topic.

1. AI applications that generate language prevent learning processes

Various rese­ar­chers and experts point to serious short­co­mings in lan­guage models, which form the back­bone of many edu­ca­tio­nal offe­rings. The effects on lear­ning pro­ces­ses are also being descri­bed with incre­asing cri­ti­cism. Signi­fi­cant­ly, the most nuan­ced cri­ti­cism almost always comes from peo­p­le with a back­ground in com­pu­ter sci­ence. Advo­ca­tes of the use of lan­guage models in the tea­ching con­text always argue that it always depends on the type of use. I am not con­vin­ced of this.

As an exam­p­le, I would like to refer to a recent stu­dy by Rai­ner Mühl­hoff and Mar­te Hen­ningsen, who took a clo­ser look at a Fobizz tool for the auto­ma­tic assess­ment of home­work. The­re are seve­ral of the­se tools or offe­rings on the Ger­man mar­ket, even tho­se that have recei­ved start-up awards. What they have in com­mon is that they are based on the same IT tech­no­lo­gy and are expli­cit­ly aimed at tea­chers. The study’s base of data is rela­tively small – unfort­u­na­te­ly, this is the case with many stu­dies in the edu­ca­ti­on sec­tor. Here are some excerp­ts from the results:

  1. Both the sug­gested over­all gra­de and the qua­li­ta­ti­ve feed­back varied signi­fi­cant­ly bet­ween dif­fe­rent assess­ment runs of the same sub­mis­si­on. This vola­ti­li­ty poses a serious pro­blem, as tea­chers rely­ing on the tool could unkno­wing­ly award ‘cher­ry-picked’ and poten­ti­al­ly unfair gra­des and feedback.§
  2. Even with full imple­men­ta­ti­on of the sug­ges­ti­ons for impro­ve­ment, it was not pos­si­ble to sub­mit a “per­fect” – i.e. no lon­ger objec­tionable – sub­mis­si­on. A near-per­fect score was only achie­ved by revi­sing the solu­ti­on with ChatGPT, which signals to stu­dents that they need to rely on AI sup­port to achie­ve a top score.“
  3. The tool has fun­da­men­tal short­co­mings, seve­ral of which the stu­dy clas­si­fies as “fatal obs­ta­cles to use”. It is poin­ted out that most of the obser­ved short­co­mings are due to the inher­ent tech­ni­cal cha­rac­te­ristics and limi­ta­ti­ons of lar­ge lan­guage models (LLMs). For the­se reasons, a quick tech­ni­cal solu­ti­on to the short­co­mings is not to be expected.“

The stu­dy refers to the use of lan­guage models by tea­chers. This should a use by experts with cor­re­spon­ding expe­ri­ence and exper­ti­se in the imple­men­ta­ti­on of assessments.

The lar­ge­ly pro­fes­sio­nal­ly unre­flec­ted demand for the nati­on­wi­de pro­vi­si­on of so-cal­led AI tools can be found both in the press and in asso­cia­ti­ons. Our media cen­ter actual­ly pro­vi­des tea­chers at schools run by the dis­trict with such access. I would now con­sider lin­king this pro­vi­si­on to pri­or man­da­to­ry trai­ning and awareness-raising.

With regard to use by stu­dents, Jep­pe Klit­gaard Stri­cker has made some remar­kab­le the­ses and obser­va­tions for me:

  1. Intellec­tu­al mir­ro­ring (stu­dents uncon­scious­ly adop­ting AI speech patterns)
  2. Digi­tal depen­den­cy dis­or­der (stu­dents panic when AI tools are unavailable)
  3. The illu­si­on of mas­tery (stu­dents thin­king they under­stand becau­se AI explai­ned it)
  4. Col­la­bo­ra­ti­ve intel­li­gence decay (stu­dents aban­do­ning human brain­stor­ming when AI is faster)
  5. Rea­li­ty-prompt con­fu­si­on (stu­dents vie­w­ing real-life chal­lenges as prompts to optimize)
  6. Know­ledge con­fi­dence cri­sis (stu­dents doubting human wis­dom vs AI certainty)
  7. AI-indu­ced per­fec­tion­ism (the pres­su­re to match AI’s flaw­less outputs)

I would like to replace the word “stu­dents” with the word “lear­ners” here, becau­se many of the points are likely to app­ly to adults as well. This per­spec­ti­ve is quite new to me, becau­se up to now I have ten­ded to take a cogni­ti­ve-theo­re­ti­cal approach in my cri­ti­cism of the use of lan­guage models in the classroom:

In a nuts­hell: Our working memo­ry con­ta­ins what we are curr­ent­ly thin­king. Among other things, it is fed by what we have trans­fer­red to our long-term memo­ry over the cour­se of our lives. The degree of net­wor­king of this know­ledge in long-term memo­ry is grea­ter for expe­ri­en­ced peo­p­le (experts) than for inex­pe­ri­en­ced peo­p­le (novices). The out­put of lan­guage models over­loads the capa­ci­ty of the working memo­ry of novices much fas­ter than that of experts, becau­se the­re is less com­pen­sa­ti­on through pre-net­work­ed know­ledge from long-term memory.

Of cour­se, AI can be used at any stage, e.g. when wri­ting semi­nar papers. Howe­ver, the ext­ent to which this makes sen­se for novices with a very hete­ro­ge­neous degree of net­wor­king – which is how lear­ning groups are com­po­sed – in long-term memo­ry must be exami­ned very carefully.

Taking into account the pre­vious pre­mi­ses, lan­guage models can only be used to pro­mo­te lear­ning if the novices alre­a­dy have a cer­tain amount of net­work­ed pri­or know­ledge. For me, it would be irre­spon­si­ble to focus tea­ching sole­ly on the level of use and operation.

Experts, on the other hand, are pro­ba­b­ly much bet­ter at eva­lua­ting the out­put of lan­guage models, but wit­hout a basic under­stan­ding of their func­tion, they can­not use them in a reflec­ti­ve man­ner. Who, for exam­p­le, has the same text eva­lua­ted seve­ral times by an AI tool and then com­pa­res the out­puts with each other, as was done in the stu­dy cited? What’s more, the mar­ke­ting pro­mi­se of time savings quick­ly beco­mes obso­le­te. Experts also tend to be „sus­cep­ti­ble“ to the mecha­nisms for­mu­la­ted by Stricker.

2. Products of AI applications are the new plastic and contaminate the communication space of the Internet

Linux Lee, among others, came up with the idea of see­ing gene­ra­ti­ve AI pro­ducts as ana­log­ous to pla­s­tic made from cru­de oil. Just as the petro­le­um pro­duct fills our tan­gi­ble world, the pro­ducts of gene­ra­ti­ve AI (music, images, vide­os, texts, etc.) fill the com­mu­ni­ca­ti­ve space of the internet.

In the cour­se of sus­taina­bi­li­ty thin­king, pla­s­tic quick­ly falls into a nega­ti­ve cor­ner, but as a mate­ri­al it is indis­pensable in many are­as of modern socie­ty. One major dif­fe­rence is what can be done with exis­ting pla­s­tic. In prin­ci­ple, pla­s­tic made from cru­de oil can be recy­cled, but this is neither eco­no­mic­al­ly via­ble nor are the­re any cor­re­spon­ding con­trol mecha­nisms in the pro­duc­tion and recy­cling chain that would make this pos­si­ble. With a well-struc­tu­red pla­s­tic cycle, mul­ti­ple use of the mate­ri­al is con­ceiva­ble in prin­ci­ple wit­hout any major loss of quality.

The more pro­ducts of gene­ra­ti­ve AI enter the com­mu­ni­ca­ti­on space of the inter­net, the more likely it is that they them­sel­ves will beco­me the actu­al trai­ning basis for AI. This is refer­red to as the „rebound effect“. More or less humo­rous­ly, the the­sis was for­mu­la­ted in rela­ti­on to the edu­ca­ti­on sys­tem that at some point a „tea­cher AI“ will eva­lua­te the „AI home­work“ of the stu­dents. Iro­ni­cal­ly, the stu­dy by Mühl­hoff and Hen­ningsen pro­vi­des „initi­al evi­dence“ of pre­cis­e­ly this. In con­trast to pla­s­tic made from cru­de oil, the resour­ce „pro­duct of a gene­ra­ti­ve AI“ is not real­ly limi­t­ed if, for exam­p­le, rene­wa­ble ener­gy is used to pro­du­ce it. This means that the­re is no real inte­rest or even a need to regu­la­te the­se pro­ducts. The cri­ti­cal view of AI in an edu­ca­tio­nal con­text alo­ne is defi­ni­te­ly asso­cia­ted with hosti­li­ty towards innovation.

This in turn has to do with the fact that AI is often not view­ed in a dif­fe­ren­tia­ted way: Using simi­lar com­pu­ter sci­ence mecha­nisms, AI can gene­ra­te lan­guage or cal­cu­la­te pro­te­in struc­tures very effi­ci­ent­ly in the deve­lo­p­ment of medi­ci­nes. The­se can beco­me sus­tainable pro­ducts, as is also pos­si­ble with pla­s­tic made from cru­de oil. Both „are“ AI.

I would eva­lua­te the lat­ter use of AI very dif­fer­ent­ly, as the resul­ting pro­duct is effec­ti­ve on a com­ple­te­ly dif­fe­rent level. I miss this dif­fe­rence in per­spec­ti­ve in the social dis­cus­sion. In the edu­ca­ti­on sec­tor in par­ti­cu­lar, the topic is usual­ly satu­ra­ted with mar­ke­ting and buz­zwords and usual­ly rea­ches a tar­get group that is not suf­fi­ci­ent­ly edu­ca­ted in infor­ma­ti­on technology.

Yes, what can you do? AI is here to stay!

… and does­n’t go away again. In my last gra­dua­ti­on speech at my son’s school, I descri­bed how being able to choo­se is a luxu­ry situa­ti­on. In fact, you can choo­se not to use lan­guage models in class. Per­so­nal­ly, I find it dif­fi­cult to give lon­ger text pro­duc­tions as home­work – I pre­fer to do this in class, e.g. in com­bi­na­ti­on with col­la­bo­ra­ti­ve wri­ting tools. The resul­ting pro­ducts are alre­a­dy an inde­pen­dent achie­ve­ment. An ortho­gra­phic and gram­ma­ti­cal „fol­low-up check“ using ki-based tools works very well. Espe­ci­al­ly in the inter­me­dia­te level, the skills for eva­lua­ting „AI inter­ven­ti­ons“ in this area should, in prin­ci­ple, have alre­a­dy occur­red in school life and be „pre-net­work­ed“ in long-term memo­ry – actually.

One of the main tasks of edu­ca­ti­on will be how to com­mu­ni­ca­te that cer­tain things should be mas­te­red befo­re AI is used – pre­cis­e­ly becau­se the machi­ne can do it so much bet­ter. And not just for stu­dents, but abo­ve all for us teachers.

When we think about this, we very quick­ly end up with struc­tu­ral con­side­ra­ti­ons about the ger­man edu­ca­ti­on sys­tem itself.

Oh, Lui­se, stop … that’s too broad a field.“ (Theo­dor Fon­ta­ne, Effi Briest, last sentence)

Warum lohnt sich die Anstrengung, KI nicht zu nutzen?

Phil­ip­pe Wampf­ler denkt in sei­nem letz­ten Blog­ar­ti­kel dar­über nach, wie lan­ge es noch mög­lich sein wird, KI zur Erstel­lung von Tex­ten in der Schu­le nicht zu nut­zen bzw. wie lan­ge es dafür noch gute Argu­men­te gibt . Er nutzt dafür eine Ana­lo­gie: Nie­mand wür­de heu­te auf die Idee kom­men, im All­tag Sah­ne mit der Hand zu schla­gen, weil mitt­ler­wei­le elek­tri­sche Rühr­ge­rä­te zur Ver­fü­gung ste­hen. Irgend­wann wird nie­mand mehr auf Idee kom­men, Tex­te selbst zu ver­fas­sen, weil KI-Model­le immer bes­ser und nor­ma­ler werden.

Ich habe Schwie­rig­kei­ten mit Ana­lo­gien aus der „ana­lo­gen Welt“ in Bezug auf den gesell­schaft­li­chen Wan­del durch die digi­ta­le Welt. Ob ich Sah­ne mit einer Gabel oder einem Rühr­ge­rät schla­ge, ist bezo­gen auf das Pro­dukt, was dabei ent­steht, letzt­lich nicht ent­schei­dend. Es kommt immer mehr oder weni­ger steif geschla­ge­ne Sah­ne dabei her­aus. Die Kon­sis­tenz der Sah­ne hat dar­über­hin­aus über­haupt kei­ne Wir­kung nach außen – KI hin­ge­gen das Poten­ti­al mit Gesell­schaft in viel­fäl­ti­ger Wei­se zu wechselwirken.

Was an Aus­ga­ben aus einem Sprach­mo­dell kommt, ist mehr oder min­der zufäl­lig. Dass mir ein Sprach­mo­dell einen Text kor­rekt zusam­men­fasst, hängt letzt­lich von sta­tis­ti­schen Berech­nun­gen ab. Bei einem Scan­ner oder Kopie­rer wür­den wir nicht akzep­tie­ren, wenn es zu zufäl­li­gen Aus­ga­ben kommt. Bei Sprach­mo­del­len ist das prin­zip­be­dingt so und wir akzep­tie­ren es. Man kann zwar in Gren­zen Aus­ga­ben beein­flus­sen, aber hät­te dann ggf. den Text in der glei­chen Zeit selbst ver­fasst, die man für das Fin­den eines geeig­ne­ten Prompts benötigt.

Nie­mand löst das mit KI erstell­te Arbeits­blatt bes­ser als KI. Nie­mand beant­wor­tet KI-gene­rier­te Fra­gen zu einem Video bes­ser als KI. Das wis­sen auch Schüler:innen.

Es gibt die Hoff­nung, dass Sprach­mo­del­le bes­ser wer­den könn­ten – dazu müss­te mei­ner Mei­nung nach aber ein tech­nisch gänz­lich neu­er Ansatz ent­wi­ckelt wer­den – der bis­he­ri­ge Trans­for­mer­an­satz hat prin­zip­be­ding­te Gren­zen – schon allein, weil das zur Ver­fü­gung ste­hen­de Trai­nings­ma­te­ri­al limi­tiert ist und dar­über­hin­aus immer mehr KI-gene­rier­te Tex­te das Netz flu­ten, die dann ihrer­seits in einer Feed­back­schlei­fe ihren Weg zurück in die gro­ßen Model­le finden.

Mich treibt eher die­se Fra­ge um:

Was muss man eigent­lich kön­nen, bevor man ein Sprach­mo­dell sinn­voll nut­zen kann?

Um Pro­duk­te für die Schu­le zu gene­rie­ren, muss man eigent­lich in vie­len Fäl­len gar nicht so viel kön­nen, aber ist das letzt­lich für das Ler­nen bzw. den Kom­pe­tenz­er­werb dann hilfreich?

Ich bil­de mir mitt­ler­wei­le ein, KI-gene­rier­te Tex­te deut­lich bes­ser iden­ti­fi­zie­ren zu kön­nen, weil sie u.a. immer einen hin­ein­trai­nier­ten Bias mitbringen.

Ich sehe Sprach­mo­del­le eher da, wo es weni­ger um Ler­nen oder Wis­sen geht.

  • Recht­schreib­kor­rek­tur
  • Erstel­lung von ent­seel­ten Tex­ten (Gut­ach­ten, Anträ­ge, Ver­mer­ke, Produktbeschreibungen…)
  • Doku­men­ten­ma­nage­ment (Such­hil­fe)
  • auto­ma­ti­sche Über­set­zung ent­seel­ter Tex­te (bei z.B. Dia­lo­gen oder lite­ra­ri­schen Tex­ten geht das bis­her m.E. noch nicht gut)
  • ggf. Erstel­lung von Übungs­ma­te­ri­al (wenn den Üben­den kei­ne KI zur Ver­fü­gung steht – s.o.)

Für Digi­tal­kon­zer­ne sind Sprach­mo­del­le vor allem ein gro­ßes Geschenk, um an Inhal­te jed­we­der Art zu kom­men, ohne dass die meis­ten Benutzer:innen das in irgend­ei­ner Form pro­ble­ma­tisch fin­den.  Und das ist nur eine der wei­ter oben ange­deu­te­ten Wech­sel­wir­kun­gen. Mit Sah­ne erreicht man das nicht. Daher ist für mich die­se Ana­lo­gie nur auf den ers­ten Blick einleuchtend.

 

 

Sollte ich als Lehrkraft den KI-Einsatz z.B. bei Feedback oder Unterrichtsplanung transparent machen?

Es kris­tal­li­siert sich bei mir in Bera­tungs­pro­zes­sen zuneh­mend ein Ungleich­ge­wicht bei der KI-Nut­zung (KI hier als Syn­onym für Sprach­mo­del­le) von Lehr­kräf­ten und Schüler:innen heraus. 

Weil Schüler:innen KI nut­zen, gibt es ein gro­ßes Bedürf­nis nach tech­ni­schen Lösun­gen, wie man das her­aus­fin­den kann, denn das wäre ja Betrug, weil man die Leis­tung eines tech­ni­schen Sys­tems als die eige­ne ausgibt. 

Wenn Lehr­kräf­te hin­ge­gen KI-Sys­te­me zum Erstel­len von Feed­back oder Unter­richts­vor­be­rei­tun­gen nut­zen, dann ist das eine selbst­ver­ständ­li­che Nut­zung eines Werk­zeugs zur Ent­las­tung im zuneh­mend belas­ten­de­ren Beruf. Weil es eben nur ein Werk­zeug wie z.B. die auto­ma­ti­sche Recht­schreib­kor­rek­tur oder ein Wör­ter­buch ist, muss das nicht trans­pa­rent gemacht werden.

Das riecht ober­fläch­lich betrach­tet natür­lich ziem­lich streng nach Adul­tis­mus: Erwach­se­ne Lehr­kräf­te „dür­fen“ etwas, was Schüler:innen nicht dür­fen. Zusätz­li­che Legi­ti­ma­ti­on erhält das dadurch, dass KI-Werk­zeu­ge expli­zit mit die­sen Mög­lich­kei­ten für Lehr­kräf­te bewor­ben und durch man­che Kul­tus­mi­nis­te­ri­en selbst pro­mo­tet wer­den. Wenn selbst der Dienst­herr mir die­se Tür öff­net, dann ist die­se Art der Werk­zeug­nut­zung in der Wahr­neh­mung von Lehr­kräf­ten natür­lich auch legitim.

Die häu­fi­ge Kri­tik an mich dabei ist der Vor­wurf, letzt­lich inno­va­ti­ons­feind­lich zu sein. Ich ver­su­che im Ver­lauf die­ses Tex­tes zu erklä­ren, war­um es wich­tig ist, die Fra­ge zuzu­las­sen, ob man als Lehr­kraft den Ein­satz von KI Schüler:innen gegen­über trans­pa­rent machen soll­te. Die Ent­schei­dung muss jeder selbst treffen.

Transparenz entwertet die Leistung der Lehrkraft gegenüber Schüler:innen

Gedan­ken­ex­pe­ri­ment: Ich habe mich ver­liebt und möch­te das zum Aus­druck brin­gen. Ich nut­ze ein Sprach­mo­dell, um ein Tref­fen mit dem ange­be­te­ten Men­schen über einen Mes­sen­ger anzu­bah­nen. Wel­che Aus­sich­ten auf ein Tref­fen habe ich, wenn ich das im Chat­ver­lauf bereits trans­pa­rent mache?

Ich den­ke: Keine. 

Intu­ti­tiv wird mein Gegen­über wahr­neh­men, dass er/sie mir es nicht ein­mal wert war, dass ich mich als Mensch in den ers­ten Kon­takt einbringe.

Das spü­re ich als Nut­zer der Sprach­mo­del­le natür­lich eben­falls intui­tiv. Ich legi­ti­mie­re den Ein­satz aber viel­leicht dadurch vor mir selbst, dass ich zwar schlecht schrei­ben, mich aber real gut prä­sen­tie­ren kann.

Ohne den Ein­satz der KI wür­de ich nicht ein­mal die Chan­ce auf ein Tref­fen bekommen!

Wenn ich die­se Trans­pa­renz als Lehr­kraft gegen­über Schüler:innen in Feed­back­pro­zes­sen her­stel­le, könn­ten die Wahr­neh­mun­gen ähn­lich sein: Viel­leicht wer­de ich in mei­ner beruf­li­chen Kom­pe­tenz anders wahr­ge­nom­men, viel­leicht emp­fin­den Schüler:innen sich durch auto­ma­ti­sier­te Feed­back­pro­zes­se weni­ger wert­ge­schätzt. Ich glau­be, dass das der Grund für die Ver­wei­ge­rung von Trans­pa­renz in die­sem Bereich ist.

Aber ohne den Ein­satz von KI wür­den die Schüler:innen ange­sichts mei­ner eige­nen Belas­tung nicht ein­mal die Chan­ce auf ein indi­vi­dua­li­sier­tes Feed­back bekommen!

Durch KI-Feedback stabilisieren wir ein reformbedürftiges System

Der Aus­weg besteht dann dar­in, von vorn­her­ein ein Sys­tem zu nut­zen, bei dem die Prä­senz der KI kom­plett trans­pa­rent ist – da gibt es ja das ein oder ande­re am Markt.

Wir stel­len aber fest, dass wir im bestehen­den Sys­tem nicht in der Lage sind, Schüler:innen ange­mes­sen und indi­vi­dua­li­siert Feed­back zu geben. Um das zu kön­nen, lagern wir das Feed­back an tech­ni­sche Sys­te­me aus, las­sen uns davon unter­stüt­zen oder geben uns den Ver­spre­chen hin, dass das irgend­wann mög­lich sein wird.

Aber die eigent­li­che Ursa­che liegt doch im Sys­tem – vor allem dar­in, dass „Kom­pe­tenz­nach­wei­se“ grund­sätz­lich an Pro­duk­ten geführt wer­den, deren Erstel­lung für KI-Sys­te­me mitt­ler­wei­le ein Leich­tes ist.

Ich glau­be, dass Kom­pe­ten­zen inner­halb von Pro­zes­sen ent­ste­hen (und ich glau­be dar­an, dass der Pro­zess­be­griff den Kom­pe­tenz­be­griff bald ablö­sen wird). Indem (ope­ra­tio­na­li­siert) ich einen Text schrei­be, ler­ne ich einen Text zu schrei­ben. Indem ich eine Pro­gram­mier­auf­ga­be löse, ler­ne ich zu pro­gram­mie­ren. Indem ich Fin­ger­läu­fe auf der Gitar­re übe, ler­ne ich ein Musik­stück zu spielen.

Aber das ist Stress. Für mich ist es heu­te tota­ler Stress, mir ein­fa­che Tabu­la­tu­ren von Eva Cass­idy drauf­zu­schaf­fen und ich schaue dann lie­ber YT-Vide­os, die mir das zei­gen. Aber ich kann bis heu­te kei­nen Song von ihr spie­len. Wenn aber mein Kol­le­ge, der Gitar­re stu­diert hat, mei­ne Tech­nik anschaut müde lächelnd sagt: „Mh, das Pro­blem dabei ist oft … Ver­su­che doch mal …“ und viel­leicht noch an mei­ner Hal­tung her­um­biegt – dann geht es voran.

Jetzt stel­len wir uns ein Bil­dungs­sys­tem vor, das Schüler:innen in ver­gleich­ba­ren Pro­zes­sen unter­stützt, sie an Klip­pen vor­bei­führt, an denen schon vie­le Men­schen vor­her vor­bei muss­ten. Dann ent­ste­hen ande­re Pro­duk­te. Wel­che Rol­le hät­te KI in einem sol­chen Sys­tem? Wel­che Rol­le hät­ten Produkte?

Indem Men­schen KI nut­zen, über­sprin­gen sie Pro­zes­se. Men­schen – also Schüler:innen und Lehrkräfte.

KI-Feedback ist pseudo-individuell

KIs sind sta­tis­ti­sche Model­le. Sie bil­den sta­tis­ti­sche Wahr­schein­lich­kei­ten ab. Eine KI „weiß“ nicht, dass Mar­tha seit drei Jah­ren in Deutsch­land lebt und dar­an schei­tert, dass ihr ihr Anspruch im Weg steht, mög­lichst hoch­tra­ben­des Deutsch zu schrei­ben. Eine KI „weiß“ nicht ein­mal, dass sie gera­de einen Non­sen­se-Text erhal­ten hat und gibt brav und prompt­kon­form sta­tis­ti­sches Feed­back zu einem Text, den ich maxi­mal ange­le­sen hätte.

Ich habe in mei­nem Feed­back zu Mar­tha eine Pas­sa­ge aus ihrem Text genom­men und die­se in eine Form über­tra­gen, von der ich den­ke, dass Mar­tha sie sprach­lich beherr­schen könnte.

Ich habe Peter geschrie­ben, dass sich die feh­len­de Struk­tur und asso­zia­ti­ve Anla­ge sei­nes Tex­tes sprach­lich u.a. in der häu­fi­gen Ver­wen­dung der Kon­junk­ti­on „und“ wider­spie­gelt und(!) ihm ins „Auf­ga­ben­buch“ drei sei­ner Sät­ze zum Umfor­mu­lie­ren geschrieben.

Ich habe Luca mei­ne Hoch­ach­tung für sei­nen Mut mit­ge­teilt, dass er sich in der Klau­sur etwas mit eige­nem Stil getraut hat, obwohl das nicht immer der Auf­ga­be gerecht wurde.

Ich weiß im Gegen­satz zur KI näm­lich etwas über Mar­tha, Peter und Luca. Und ich habe eine Vor­stel­lung davon, was ich für eige­nen Stil hal­te. Die­se Vor­stel­lung habe ich ent­wi­ckelt, weil ich über jah­re­lan­ge Kor­rek­tur­er­fah­rung ver­fü­ge, die mir u.a. sagt, dass es Sinn macht, gezielt Ent­wick­lungs­po­ten­tia­le in einem Feed­back zu fokus­sie­ren, Schwer­punk­te für Feed­back zu set­zen und nicht wahl­los einen Text rot zu malen.

KI ist für mich in die­sem Kon­text maxi­mal für Wort­hül­sen und „Sprach­füll­ma­te­ri­al“ nutz­bar – wie es der Dienst­herr zuneh­mend ver­langt (s.u.). Aber Mar­tha, Peter und Luca wür­den das wahr­schein­lich gar nicht bemer­ken, wenn ich für Feed­back ein­fach nur KI-Aus­ga­ben nut­ze und modi­fi­zie­re, so wie ich nicht bemer­ken wür­de, wenn sie ihrer­seits damit ihre Tex­te schrieben.

Aber hät­te ich das mein Leben lang gemacht, sähe mein Lern­pro­zess bezüg­lich des Feed­backs an Schüler:innen deut­lich anders aus. Ich wäre viel­leicht ver­gleich­bar (in)effizient wie heu­te durch die tech­ni­sche Unter­stüt­zung, aber bei Wei­tem nicht so individualisiert.

Indem ich mich der Fra­ge stel­le, ob ich nicht den Ein­satz von KI für Schüler:innenfeedback trans­pa­rent machen sollte …

KI für entseelte Texte

In man­chen Kul­tus­mi­nis­te­ri­en sol­len Juris­ten sit­zen, die den Rah­men für Refor­men vor­ge­ben und Recht nicht ent­wi­ckeln (wol­len). Aus sol­chen Krei­sen sind m.E. in den letz­ten Jah­ren Vor­ga­ben gekom­men für alle Art von Kon­zep­ten, Berich­ten, Gut­ach­ten und dezi­dier­ten Kor­rek­tur­vor­schrif­ten (z.B. nicht die noten­äqui­va­len­ten Wör­ter wie „sehr gut“ usw. in Rand­be­mer­kun­gen zu nut­zen). Der Hin­ter­grund ist die Jus­ti­tia­bi­li­tät, das sich „Sich-nicht-angreif­bar-machen“ im Fal­le von Aus­ein­an­der­set­zun­gen. Man möch­te im Rah­men sei­ner Für­sor­ge­pflicht die Lehr­kräf­te vor unan­ge­neh­men Situa­tio­nen bewah­ren. Und ich glau­be, dass dahin­ter letzt­lich tat­säch­lich eine gute Absicht mit etwas blö­den Kon­se­quen­zen in der Flä­che steht.

Die­se gan­zen Tex­te, die dabei ent­ste­hen, sind durch die­se Vor­ga­ben ent­seelt. Sie haben eine begrenz­te Legi­ti­ma­ti­on in Edge-Cases, wer­den aber zu 99% nie wie­der gele­sen oder kon­trol­liert. Sie müs­sen halt nur da sein. Sol­che Tex­te kann KI gut. Sehr gut sogar. Weil sie so oft wischi­wa­schi und sehr sche­ma­tisch sind.

Mich juckt es in den Fin­gern, im nächs­ten Jahr, alle mei­ne Abit­ur­gut­ach­ten mit einem Trans­pa­renz­hin­weis zu ver­se­hen, dass zur Erstel­lung KI genutzt wor­den ist. Ich bin

  1. gespannt, was dann und ob etwas los ist
  2. wie nach Weg­nah­me des Hin­wei­ses über­prüft wer­den soll, dass das Gut­ach­ten jetzt ohne KI erstellt wor­den ist (Wahr­schein­lich müss­te ich das schrift­lich erklä­ren und dann wäre das gut …)

Dass eini­ge Dienst­herrn die Unter­stüt­zung durch KI bei Kor­rek­tu­ren und Feed­back aktiv bewer­ben, sich aber der Fra­ge nach der Trans­pa­renz oft gar nicht, bzw. für mich nicht sicht­bar stel­len, ist doch ziem­lich bezeich­nend, oder?

Logisch wäre eine Dienst­an­wei­sung, das Zeug zu nut­zen, aber das um Him­mels­wil­len nicht trans­pa­rent zu machen. Dann wür­de es näm­lich wahr­schein­lich span­nend hin­sicht­lich der Justitiabilität.

KI in der Schule? Ist sie nun einmal da und muss man sich deswegen damit beschäftigen?

Es ver­geht kein Tag auf Social Media mit neu­en, coo­len Tipps zur Nut­zung von KI im Unter­richt. Ich zie­he seit drei Jah­ren mit einem Vor­trag zu KI durch alle mög­li­chen Grup­pen und Gre­mi­en, der sich mehr und mehr zu einer sehr kri­ti­schen Sicht auf das The­ma gewan­delt hat.

1. KI-Anwendungen, die Sprache generieren, verhindern Lernprozesse

Ver­schie­de­ne For­scher und Exper­ten wei­sen auf gra­vie­ren­de Män­gel in Sprach­mo­del­len hin, die das Rück­grat vie­ler Ange­bo­te für den Bil­dungs­be­reich bil­den. Auch die Aus­wir­kun­gen auf Lern­pro­zes­se wer­den zuneh­men kri­tisch beschrie­ben. Bezeich­nen­der­wei­se kommt die dif­fe­ren­zier­tes­te Kri­tik dabei nahe­zu immer von Men­schen mit infor­ma­ti­schem Hin­ter­grund. Ver­fech­ter der Nut­zung von Sprach­mo­del­len im Unter­richts­kon­text hal­ten stets dage­gen, dass es dabei immer auf die Art der jewei­li­gen Nut­zung ankommt. Davon bin ich nicht überzeugt.

Exem­pla­risch ver­wei­se ich auf eine aktu­el­le Stu­die von Rai­ner Mühl­hoff und Mar­te Hen­ningsen, die sich ein Fobizz-Tool zur auto­ma­ti­schen Bewer­tung von Haus­auf­ga­ben genau­er ange­schaut haben. Von die­sen Werk­zeu­gen bzw. Ange­bo­ten gibt es meh­re­re auf dem deut­schen Markt, sogar sol­che, die Grün­der­prei­se erhal­ten haben. Ihnen gemein ist, dass sie sich auf die glei­che infor­ma­ti­sche Tech­no­lo­gie stüt­zen und sich expli­zit an Lehr­kräf­te rich­ten. Die Daten­ba­sis der Stu­die ist ver­hält­nis­mä­ßig gering – das ist lei­der im Bil­dungs­be­reich bei vie­len Stu­di­en so. Hier eini­ge Aus­zü­ge aus den Ergebnissen:

  1. Sowohl die vor­ge­schla­ge­ne Gesamt­no­te als auch das qua­li­ta­ti­ve Feed­back vari­ier­ten erheb­lich zwi­schen ver­schie­de­nen Bewer­tungs­durch­läu­fen der­sel­ben Abga­be. Die­se Vola­ti­li­tät stellt ein erns­tes Pro­blem dar, da Lehr­kräf­te, die sich auf das Tool ver­las­sen, unbe­merkt qua­si “aus­ge­wür­fel­te” und poten­zi­ell unge­rech­te Noten und Rück­mel­dun­gen ver­ge­ben könnten.

  2. Selbst mit voll­stän­di­ger Umset­zung der Ver­bes­se­rungs­vor­schlä­ge war es nicht mög­lich, eine “per­fek­te” – d.h. nicht mehr bean­stan­de­te – Ein­rei­chung vor­zu­le­gen. Eine nahe­zu per­fek­te Bewer­tung gelang nur durch Über­ar­bei­tung der Lösung mit ChatGPT, was Schüler:innen signa­li­siert, dass sie für eine Best­no­te auf KI-Unter­stüt­zung zurück­grei­fen müssen.

  3. Das Tool weist grund­le­gen­de Defi­zi­te auf, von denen die Stu­die meh­re­re als “fata­le Gebrauchs­hin­der­nis­se” klas­si­fi­ziert. Es wird dar­auf hin­ge­wie­sen, dass die meis­ten der beob­ach­te­ten Män­gel auf die inhä­ren­ten tech­ni­schen Eigen­schaf­ten und Limi­ta­tio­nen gro­ßer Sprach­mo­del­le (LLMs) zurück­zu­füh­ren sind. Aus die­sen Grün­den ist eine schnel­le tech­ni­sche Lösung der Män­gel nicht zu erwarten.

Die Stu­die bezieht sich auf die Nut­zung von Sprach­mo­del­len durch Lehr­kräf­te. Dies ist eine Nut­zung durch Expert:innen mit ent­spre­chen­der Erfah­rung und Exper­ti­se bei der Umset­zung von Bewertungen.

Die weit­ge­hend fach­lich unre­flek­tier­te For­de­rung nach flä­chen­de­cken­der Bereit­stel­lung von soge­nann­ten KI-Tools zieht sich sowohl durch die Pres­se­land­schaft als auch durch Ver­bän­de. Unser Medi­en­zen­trum stellt Lehr­kräf­ten an Schu­len in Trä­ger­schaft des Land­krei­ses tat­säch­lich einen sol­chen Zugang bereit. Ich wür­de mitt­ler­wei­le dar­über nach­den­ken, die­se Bereit­stel­lung an eine vor­he­ri­ge ver­bind­li­che Schu­lung und Sen­si­bi­li­sie­rung zu koppeln.

In Bezug auf die Nut­zung durch Schüler:innen hat Jep­pe Klit­gaard Stri­cker für mich bemer­kens­wer­te The­sen bzw. Beob­ach­tun­gen auf- bzw. angestellt:

  1. Intel­lek­tu­el­le Spie­ge­lung: Schüler:innen über­neh­men unbe­wusst von LLMs gene­rier­te Sprachmuster.
  2. Digi­ta­le Abhän­gig­keits­stö­rung: Schüler:innen gera­ten in Panik, wenn KI-Tools nicht ver­füg­bar sind.
  3. Die Illu­si­on der Beherr­schung: Schüler:innen den­ken, sie hät­ten es ver­stan­den, weil AI es erklärt hat.
  4. Ver­fall der kol­la­bo­ra­ti­ven Intel­li­genz: Schüler:innen ver­zich­ten auf mensch­li­ches Brain­stor­ming, wenn KI schnel­ler ist
  5. Ver­wir­rung zwi­schen Rea­li­tät und Prompt: Schüler:innen betrach­ten Her­aus­for­de­run­gen aus dem wirk­li­chen Leben als Prompt zur Optimierung
  6. Kri­se des Wis­sens­ver­trau­ens: Schüler:innen zwei­feln an der mensch­li­chen Weis­heit im Ver­gleich zur KI-Gewissheit
  7. KI-indu­zier­ter Per­fek­tio­nis­mus: Der Druck, die feh­ler­frei­en Ergeb­nis­se der KI zu erreichen

Ich möch­te das Wort „Schüler:innen“ hier ger­ne all­ge­mei­ner durch das Wort „Ler­nen­de“ erset­zen, denn vie­le der Punk­te dürf­ten eben­so auf Erwach­se­ne zutref­fen. Für mich ist die­se Per­spek­ti­ve recht neu, weil ich bis­her bei mei­ner Kri­tik an der Nut­zung von Sprach­mo­del­len im Unter­richt eher kogni­ti­ons­theo­re­tisch unter­wegs war:

In aller Kür­ze: Unser Arbeits­ge­dächt­nis ent­hält das, was wir aktu­ell den­ken. Es speist sich u.a. aus dem, was wir im Lau­fe des Lebens in unser Lang­zeit­ge­dächt­nis über­nom­men haben. Der Ver­net­zungs­grad die­ses Wis­sens im Lang­zeit­ge­dächt­nis ist bei erfah­re­nen Per­so­nen (Exper­ten) grö­ßer als bei eher uner­fah­re­nen (Novi­zen). Der Out­put von Sprach­mo­del­len über­las­tet die Kapa­zi­tät des Arbeits­ge­dächt­nis­ses bei Noviz:innen viel schnel­ler als bei Expert:innen, weil weni­ger Kom­pen­sa­ti­on durch vor­ver­netz­tes Wis­sen aus dem Lang­zeit­ge­dächt­nis erfolgt.

Natür­lich ist KI z.B. bei der Erstel­lung von Semi­nar­ar­bei­ten in jeder Pha­se nutz­bar. Zu prü­fen ist aber sehr genau, in wel­chem Umfang das für Noviz:innen mit sehr hete­ro­ge­nem Ver­net­zungs­grad – so sind Lern­grup­pen zusam­men­ge­setzt – im Lang­zeit­ge­dächt­nis sinn­voll ist.

Unter Berück­sich­ti­gung der bis­he­ri­gen Prä­mis­sen sind Sprach­mo­del­le erst dann lern­för­der­lich nutz­bar, wenn bei den Noviz:innen bereits ein gewis­ses Maß an ver­netz­tem Vor­wis­sen vor­han­den ist. Unver­ant­wort­lich wird für mich eine unter­richt­li­che The­ma­ti­sie­rung allein auf der Benut­zungs- und Bedienungsebene.

Expert:innen hin­ge­gen kön­nen wahr­schein­lich zwar die Aus­ga­ben von Sprach­mo­del­len deut­lich bes­ser bewer­ten, sie aber ohne ein Grund­ver­ständ­nis für deren Funk­ti­on nicht reflek­tiert nut­zen. Wer lässt denn z.B. den glei­chen Text mehr­fach durch ein KI-Werk­zeug bewer­ten und ver­gleicht die Aus­ga­ben dann zusätz­lich mit­ein­an­der, wie es in der zitier­ten Stu­die gesche­hen ist? Zudem ist das Mar­ke­ting­ver­spre­chen der Zeit­er­spar­nis damit ziem­lich schnell hin­fäl­lig. Auch Expert:innen sind ten­den­zi­ell „anfäl­lig“ für die von Stri­cker for­mu­lier­ten Mechanismen.

2. Produkte von KI-Anwendungen sind das neue Plastik und kontaminieren den Kommunikationsraum des Internets

Unter ande­rem von Linux Lee kommt die Idee, Pro­duk­te gene­ra­ti­ver KI ana­log mit aus Erd­öl her­ge­stell­tem Plas­tik zu sehen. Genau wie das Erd­öl­pro­dukt unse­rer fass­ba­re Welt füllt, fül­len die Pro­duk­te gene­ra­ti­ver KI (Musik, Bil­der, Vide­os, Tex­te etc.) den kom­mu­ni­ka­ti­ven Raum des Internets.

Im Zuge von Nach­hal­tig­keits­den­ken gerät Plas­tik schnell in eine nega­ti­ve Ecke, ist aber als Werk­stoff aus einer moder­nen Gesell­schaft an viel­fäl­ti­gen Stel­len nicht weg­zu­den­ken. Ein gra­vie­ren­der Unter­schied besteht dar­in, was man mit vor­han­de­nem Plas­tik machen kann. Prin­zi­pi­ell ist Plas­tik aus Erd­öl recy­cle­bar, nur ist das weder wirt­schaft­lich noch gibt es ent­spre­chen­de Steue­rungs­me­cha­nis­men in der Pro­duk­ti­ons- und Ver­wer­tungs­ket­te, die das über­haupt ermög­li­chen wür­den. Bei einem gut struk­tu­rier­ten Plas­tik­kreis­lauf ist eine Mehr­fach­nut­zung des Werk­stoffs ohne sehr gro­ße Qua­li­täts­ein­bu­ßen prin­zi­pi­ell denkbar.

Je mehr Pro­duk­te gene­ra­ti­ver KI in den Kom­mu­ni­ka­ti­ons­raum des Inter­nets gelan­gen, des­to wahr­schein­li­cher ist die Gefahr, dass sie wie­der­um selbst die eigent­lich Trai­nings­ba­sis für KI wer­den. Man spricht dabei von einem soge­nann­ten „Rebound-Effekt“. Mehr oder weni­ger humor­voll wur­de bezo­gen auf das Bil­dungs­we­sen die The­se for­mu­liert, dass irgend­wann eine „Lehr­kräf­te-KI“ die „KI-Haus­auf­ga­ben“ der Schüler:innen bewer­tet. Iro­ni­scher­wei­se lie­fert die Stu­die von Mühl­hoff und Hen­ningsen ja genau dafür eine „Anfangs­evi­denz“. Im Gegen­satz zum Plas­tik aus Erd­öl ist die Res­sour­ce „Pro­dukt einer gene­ra­ti­ven KI“ nicht wirk­lich begrenzt, wenn z.B. rege­ne­ra­ti­ve Ener­gie zu deren Pro­duk­ti­on genutzt wird. Damit gibt es kein wirk­li­ches Inter­es­se oder gar eine Not­wen­dig­keit, die­se Pro­duk­te zu regu­lie­ren. Allein die kri­ti­sche Betrach­tung von KI im Bil­dungs­kon­text wird durch­aus mit Inno­va­ti­ons­feind­lich­keit in Ver­bin­dung gebraucht.

Das wie­der­um hat damit zu tun, dass KI oft nicht dif­fe­ren­ziert betrach­tet wird: Mit ähn­li­chen infor­ma­ti­schen Mecha­nis­men kann eine KI Spra­che erzeu­gen oder aber sehr effi­zi­ent Pro­te­in­struk­tu­ren in der Ent­wick­lung von Medi­ka­men­ten berech­nen. Das kön­nen nach­hal­ti­ge Pro­duk­te wer­den, wie sie auch beim Plas­tik aus Erd­öl mög­lich sind. Bei­des „ist“ KI.

Letz­te­ren Ein­satz von KI wür­de ich deut­lich anders bewer­ten, da das ent­ste­hen­de Pro­dukt auf eine völ­lig ande­ren Ebe­ne Wirk­sam­keit ent­fal­tet. Die­se Unter­schie­de in der Betrach­tung ver­mis­se ich in der gesell­schaft­li­chen Dis­kus­si­on. Gera­de im Bil­dungs­be­reich ist das The­ma meist mar­ke­ting- und buz­zword­ge­schwän­gert und trifft auf eine infor­ma­tisch meist nicht aus­rei­chend vor­ge­bil­de­te Zielgruppe.

Ja, was soll man denn machen? KI ist ja nunmal da!

… und geht nicht wie­der weg. In einer Rede zum Abitur mei­nes Soh­nes habe ich beschrie­ben, dass die Mög­lich­keit, sich ent­schei­den zu kön­nen, eine Luxus­si­tua­ti­on ist. Tat­säch­lich kann man sich dafür ent­schei­den, Sprach­mo­del­le im Unter­richt nicht zu nut­zen. Ich per­sön­lich tue mich schwer damit, län­ge­re Text­pro­duk­tio­nen ist die Haus­auf­ga­be zu geben – das mache ich lie­ber im Unter­richt, z.B. in Kom­bi­na­ti­on mit kol­la­bo­ra­ti­ven Schreib­werk­zeu­gen. Die ent­ste­hen­den Pro­duk­te stel­len schon eine eigen­stän­di­ge Leis­tung dar. Sehr gut funk­tio­niert eine ortho­gra­fi­sche und gram­ma­ti­sche „Nach­kon­trol­le“ durch ki-basier­te Werk­zeu­ge. Gera­de in der Mit­tel­stu­fe soll­ten die Kom­pe­ten­zen zur Bewer­tung der „KI-Ein­grif­fe“ in die­sem Bereich im Prin­zip schon­mal im Schul­le­ben vor­ge­kom­men und „vor­ver­netzt“ im Lang­zeit­ge­dächt­nis vor­lie­gen – eigentlich.

Eine der wesent­li­chen Haupt­auf­ga­ben von Bil­dung wird sein, wie man ver­mit­teln kann, dass bestimm­te Din­ge gekonnt wer­den soll­ten, bevor KI zum Ein­satz kommt – gera­de weil die Maschi­ne es doch so viel bes­ser kann. Und das nicht nur bei Schüler:innen son­dern vor allem auch bei uns Lehrkräften.

Wenn wir dar­über nach­den­ken, lan­den wir sehr schnell bei struk­tu­rel­len Über­le­gun­gen zum Bil­dungs­sys­tem an sich.

Ach, Lui­se, lass … das ist ein zu wei­tes Feld.“ (Theo­dor Fontane)