AI at school? Is it just there and do we have to deal with it?

Preliminary remarks for this english version

Alt­hough this artic­le takes a cri­ti­cal look at the use of AI in schools, I have used an AI tool „made in Ger­ma­ny“ for the trans­la­ti­on (https://www.deepl.com). it’s not my style and vio­la­tes my idea of flu­ent english.

On the basis of the­se thoughts, I some­ti­mes face strong cri­ti­cism from the Ger­man edu­ca­ti­on com­mu­ni­ty or even the edu­ca­ti­on admi­nis­tra­ti­on for which I work – it seems to me, that I would break (male) tech­nic toys or spoil them at least.

Introduction

Not a day goes by on social media wit­hout new, cool tips on using AI in the class­room. For three years now, I’ve been giving talks on AI to all kinds of groups and com­mit­tees, which has incre­asing­ly tur­ned into a very cri­ti­cal view of the topic.

1. AI applications that generate language prevent learning processes

Various rese­ar­chers and experts point to serious short­co­mings in lan­guage models, which form the back­bone of many edu­ca­tio­nal offe­rings. The effects on lear­ning pro­ces­ses are also being descri­bed with incre­asing cri­ti­cism. Signi­fi­cant­ly, the most nuan­ced cri­ti­cism almost always comes from peo­p­le with a back­ground in com­pu­ter sci­ence. Advo­ca­tes of the use of lan­guage models in the tea­ching con­text always argue that it always depends on the type of use. I am not con­vin­ced of this.

As an exam­p­le, I would like to refer to a recent stu­dy by Rai­ner Mühl­hoff and Mar­te Hen­ningsen, who took a clo­ser look at a Fobizz tool for the auto­ma­tic assess­ment of home­work. The­re are seve­ral of the­se tools or offe­rings on the Ger­man mar­ket, even tho­se that have recei­ved start-up awards. What they have in com­mon is that they are based on the same IT tech­no­lo­gy and are expli­cit­ly aimed at tea­chers. The study’s base of data is rela­tively small – unfort­u­na­te­ly, this is the case with many stu­dies in the edu­ca­ti­on sec­tor. Here are some excerp­ts from the results:

  1. Both the sug­gested over­all gra­de and the qua­li­ta­ti­ve feed­back varied signi­fi­cant­ly bet­ween dif­fe­rent assess­ment runs of the same sub­mis­si­on. This vola­ti­li­ty poses a serious pro­blem, as tea­chers rely­ing on the tool could unkno­wing­ly award ‘cher­ry-picked’ and poten­ti­al­ly unfair gra­des and feedback.§
  2. Even with full imple­men­ta­ti­on of the sug­ges­ti­ons for impro­ve­ment, it was not pos­si­ble to sub­mit a “per­fect” – i.e. no lon­ger objec­tionable – sub­mis­si­on. A near-per­fect score was only achie­ved by revi­sing the solu­ti­on with ChatGPT, which signals to stu­dents that they need to rely on AI sup­port to achie­ve a top score.“
  3. The tool has fun­da­men­tal short­co­mings, seve­ral of which the stu­dy clas­si­fies as “fatal obs­ta­cles to use”. It is poin­ted out that most of the obser­ved short­co­mings are due to the inher­ent tech­ni­cal cha­rac­te­ristics and limi­ta­ti­ons of lar­ge lan­guage models (LLMs). For the­se reasons, a quick tech­ni­cal solu­ti­on to the short­co­mings is not to be expected.“

The stu­dy refers to the use of lan­guage models by tea­chers. This should a use by experts with cor­re­spon­ding expe­ri­ence and exper­ti­se in the imple­men­ta­ti­on of assessments.

The lar­ge­ly pro­fes­sio­nal­ly unre­flec­ted demand for the nati­on­wi­de pro­vi­si­on of so-cal­led AI tools can be found both in the press and in asso­cia­ti­ons. Our media cen­ter actual­ly pro­vi­des tea­chers at schools run by the dis­trict with such access. I would now con­sider lin­king this pro­vi­si­on to pri­or man­da­to­ry trai­ning and awareness-raising.

With regard to use by stu­dents, Jep­pe Klit­gaard Stri­cker has made some remar­kab­le the­ses and obser­va­tions for me:

  1. Intellec­tu­al mir­ro­ring (stu­dents uncon­scious­ly adop­ting AI speech patterns)
  2. Digi­tal depen­den­cy dis­or­der (stu­dents panic when AI tools are unavailable)
  3. The illu­si­on of mas­tery (stu­dents thin­king they under­stand becau­se AI explai­ned it)
  4. Col­la­bo­ra­ti­ve intel­li­gence decay (stu­dents aban­do­ning human brain­stor­ming when AI is faster)
  5. Rea­li­ty-prompt con­fu­si­on (stu­dents vie­w­ing real-life chal­lenges as prompts to optimize)
  6. Know­ledge con­fi­dence cri­sis (stu­dents doubting human wis­dom vs AI certainty)
  7. AI-indu­ced per­fec­tion­ism (the pres­su­re to match AI’s flaw­less outputs)

I would like to replace the word “stu­dents” with the word “lear­ners” here, becau­se many of the points are likely to app­ly to adults as well. This per­spec­ti­ve is quite new to me, becau­se up to now I have ten­ded to take a cogni­ti­ve-theo­re­ti­cal approach in my cri­ti­cism of the use of lan­guage models in the classroom:

In a nuts­hell: Our working memo­ry con­ta­ins what we are curr­ent­ly thin­king. Among other things, it is fed by what we have trans­fer­red to our long-term memo­ry over the cour­se of our lives. The degree of net­wor­king of this know­ledge in long-term memo­ry is grea­ter for expe­ri­en­ced peo­p­le (experts) than for inex­pe­ri­en­ced peo­p­le (novices). The out­put of lan­guage models over­loads the capa­ci­ty of the working memo­ry of novices much fas­ter than that of experts, becau­se the­re is less com­pen­sa­ti­on through pre-net­work­ed know­ledge from long-term memory.

Of cour­se, AI can be used at any stage, e.g. when wri­ting semi­nar papers. Howe­ver, the ext­ent to which this makes sen­se for novices with a very hete­ro­ge­neous degree of net­wor­king – which is how lear­ning groups are com­po­sed – in long-term memo­ry must be exami­ned very carefully.

Taking into account the pre­vious pre­mi­ses, lan­guage models can only be used to pro­mo­te lear­ning if the novices alre­a­dy have a cer­tain amount of net­work­ed pri­or know­ledge. For me, it would be irre­spon­si­ble to focus tea­ching sole­ly on the level of use and operation.

Experts, on the other hand, are pro­ba­b­ly much bet­ter at eva­lua­ting the out­put of lan­guage models, but wit­hout a basic under­stan­ding of their func­tion, they can­not use them in a reflec­ti­ve man­ner. Who, for exam­p­le, has the same text eva­lua­ted seve­ral times by an AI tool and then com­pa­res the out­puts with each other, as was done in the stu­dy cited? What’s more, the mar­ke­ting pro­mi­se of time savings quick­ly beco­mes obso­le­te. Experts also tend to be „sus­cep­ti­ble“ to the mecha­nisms for­mu­la­ted by Stricker.

2. Products of AI applications are the new plastic and contaminate the communication space of the Internet

Linux Lee, among others, came up with the idea of see­ing gene­ra­ti­ve AI pro­ducts as ana­log­ous to pla­s­tic made from cru­de oil. Just as the petro­le­um pro­duct fills our tan­gi­ble world, the pro­ducts of gene­ra­ti­ve AI (music, images, vide­os, texts, etc.) fill the com­mu­ni­ca­ti­ve space of the internet.

In the cour­se of sus­taina­bi­li­ty thin­king, pla­s­tic quick­ly falls into a nega­ti­ve cor­ner, but as a mate­ri­al it is indis­pensable in many are­as of modern socie­ty. One major dif­fe­rence is what can be done with exis­ting pla­s­tic. In prin­ci­ple, pla­s­tic made from cru­de oil can be recy­cled, but this is neither eco­no­mic­al­ly via­ble nor are the­re any cor­re­spon­ding con­trol mecha­nisms in the pro­duc­tion and recy­cling chain that would make this pos­si­ble. With a well-struc­tu­red pla­s­tic cycle, mul­ti­ple use of the mate­ri­al is con­ceiva­ble in prin­ci­ple wit­hout any major loss of quality.

The more pro­ducts of gene­ra­ti­ve AI enter the com­mu­ni­ca­ti­on space of the inter­net, the more likely it is that they them­sel­ves will beco­me the actu­al trai­ning basis for AI. This is refer­red to as the „rebound effect“. More or less humo­rous­ly, the the­sis was for­mu­la­ted in rela­ti­on to the edu­ca­ti­on sys­tem that at some point a „tea­cher AI“ will eva­lua­te the „AI home­work“ of the stu­dents. Iro­ni­cal­ly, the stu­dy by Mühl­hoff and Hen­ningsen pro­vi­des „initi­al evi­dence“ of pre­cis­e­ly this. In con­trast to pla­s­tic made from cru­de oil, the resour­ce „pro­duct of a gene­ra­ti­ve AI“ is not real­ly limi­t­ed if, for exam­p­le, rene­wa­ble ener­gy is used to pro­du­ce it. This means that the­re is no real inte­rest or even a need to regu­la­te the­se pro­ducts. The cri­ti­cal view of AI in an edu­ca­tio­nal con­text alo­ne is defi­ni­te­ly asso­cia­ted with hosti­li­ty towards innovation.

This in turn has to do with the fact that AI is often not view­ed in a dif­fe­ren­tia­ted way: Using simi­lar com­pu­ter sci­ence mecha­nisms, AI can gene­ra­te lan­guage or cal­cu­la­te pro­te­in struc­tures very effi­ci­ent­ly in the deve­lo­p­ment of medi­ci­nes. The­se can beco­me sus­tainable pro­ducts, as is also pos­si­ble with pla­s­tic made from cru­de oil. Both „are“ AI.

I would eva­lua­te the lat­ter use of AI very dif­fer­ent­ly, as the resul­ting pro­duct is effec­ti­ve on a com­ple­te­ly dif­fe­rent level. I miss this dif­fe­rence in per­spec­ti­ve in the social dis­cus­sion. In the edu­ca­ti­on sec­tor in par­ti­cu­lar, the topic is usual­ly satu­ra­ted with mar­ke­ting and buz­zwords and usual­ly rea­ches a tar­get group that is not suf­fi­ci­ent­ly edu­ca­ted in infor­ma­ti­on technology.

Yes, what can you do? AI is here to stay!

… and does­n’t go away again. In my last gra­dua­ti­on speech at my son’s school, I descri­bed how being able to choo­se is a luxu­ry situa­ti­on. In fact, you can choo­se not to use lan­guage models in class. Per­so­nal­ly, I find it dif­fi­cult to give lon­ger text pro­duc­tions as home­work – I pre­fer to do this in class, e.g. in com­bi­na­ti­on with col­la­bo­ra­ti­ve wri­ting tools. The resul­ting pro­ducts are alre­a­dy an inde­pen­dent achie­ve­ment. An ortho­gra­phic and gram­ma­ti­cal „fol­low-up check“ using ki-based tools works very well. Espe­ci­al­ly in the inter­me­dia­te level, the skills for eva­lua­ting „AI inter­ven­ti­ons“ in this area should, in prin­ci­ple, have alre­a­dy occur­red in school life and be „pre-net­work­ed“ in long-term memo­ry – actually.

One of the main tasks of edu­ca­ti­on will be how to com­mu­ni­ca­te that cer­tain things should be mas­te­red befo­re AI is used – pre­cis­e­ly becau­se the machi­ne can do it so much bet­ter. And not just for stu­dents, but abo­ve all for us teachers.

When we think about this, we very quick­ly end up with struc­tu­ral con­side­ra­ti­ons about the ger­man edu­ca­ti­on sys­tem itself.

Oh, Lui­se, stop … that’s too broad a field.“ (Theo­dor Fon­ta­ne, Effi Briest, last sentence)

Wie Sprachmodelle unsere Gesellschaft verändern werden

Ein Blick ins Klassenzimmer

Mar­tha hat eine Eng­lisch­haus­auf­ga­be bekom­men. Sie soll einen Text über die drei bekann­tes­ten Sehens­wür­dig­kei­ten von New York schrei­ben. New York steht im Zen­trum der aktu­el­len Unit im Eng­lisch­buch. Mar­tha ist nicht sehr gut in Eng­lisch. Aber die App auf ihrem Han­dy ist direkt an ChatGPT ange­dockt. ChatGPT ist eine künst­li­che Intel­li­genz, die auf mög­lichst natür­li­che Text­aus­ga­be opti­miert ist. Mar­tha tippt in ihre App: „Wri­te an artic­le about the three most famous sights in New York.“, denn das ist die Auf­ga­ben­stel­lung, die ihre Leh­re­rin ihr gege­ben hat. Her­aus kommt fol­gen­der Text (abge­druckt ist die unver­än­der­te Ausgabe):

New York City is one of the world’s most vibrant and exci­ting desti­na­ti­ons. Known for its diver­se cul­tu­re, bust­ling streets, and ico­nic land­marks, the city is a hub of enter­tain­ment and com­mer­ce. From the bright lights of Times Squa­re to the gran­deur of the Sta­tue of Liber­ty, New York offers a wealth of sights to explo­re. In this artic­le, we will take a clo­ser look at the three most famous sights in the city.

1. The Sta­tue of Liberty

The Sta­tue of Liber­ty is one of the most ico­nic land­marks in New York City. Loca­ted on Liber­ty Island, the sta­tue was gifted to the United Sta­tes by the peo­p­le of France in 1886 as a sym­bol of free­dom and demo­cra­cy. The sta­tue is 151 feet tall and is made of cop­per pla­tes, which have tur­ned green over time due to weathering.

Visi­tors can take a fer­ry to Liber­ty Island and climb to the top of the pedes­tal or even to the crown of the sta­tue for pan­o­r­amic views of the city sky­line and har­bor. The sta­tue is also visi­ble from Bat­tery Park in Lower Man­hat­tan, whe­re visi­tors can take in the stun­ning view of the sta­tue against the back­drop of the city.

1. The Empire Sta­te Building

The Empire Sta­te Buil­ding is a towe­ring sky­scra­per loca­ted in Mid­town Man­hat­tan. It was com­ple­ted in 1931 and was the world’s tal­lest buil­ding until 1971. The buil­ding stands at 1,454 feet tall and has 102 flo­ors. Visi­tors can take an ele­va­tor to the obser­va­ti­on deck on the 86th flo­or for breath­ta­king views of the city sky­line. On a clear day, visi­tors can see up to 80 miles in every direction.

The Empire Sta­te Buil­ding has been fea­tured in num­e­rous movies and is a popu­lar tou­rist desti­na­ti­on. The building’s art deco archi­tec­tu­re is a sight to behold, and the night­ti­me light­ing dis­play is an ico­nic part of the city skyline.

1. Cen­tral Park

Cen­tral Park is a vast green space loca­ted in the heart of Man­hat­tan. The park covers 843 acres and is a popu­lar desti­na­ti­on for both locals and tou­rists. Visi­tors can explo­re the park on foot, by bike, or even by hor­se-drawn car­ria­ge. The park fea­tures num­e­rous wal­king paths, gar­dens, lakes, and ponds, as well as famous land­marks such as the Cen­tral Park Zoo and the Bethes­da Fountain.

In the win­ter, visi­tors can go ice-ska­ting at the Woll­man Rink, and in the sum­mer, the­re are num­e­rous con­certs and events held in the park. Cen­tral Park is a wel­co­me respi­te from the hust­le and bust­le of the city and pro­vi­des a tran­quil oasis in the heart of Manhattan.

In con­clu­si­on, New York City is home to many famous sights, but the Sta­tue of Liber­ty, Empire Sta­te Buil­ding, and Cen­tral Park are three of the most ico­nic. The­se land­marks repre­sent the city’s histo­ry, cul­tu­re, and natu­ral beau­ty and are must-see desti­na­ti­ons for anyo­ne visi­ting the city. Whe­ther you’­re a first-time visi­tor or a lifel­ong New Yor­ker, the­se sights never cea­se to ama­ze and inspire.

Mar­tha mel­det sich und liest ihren Text vor. Ihre Lehr­kraft ist ver­wun­dert. Die­ser Text ent­spricht über­haupt nicht Mart­has bis­her im Unter­richt gezeig­ten Fähig­kei­ten. Sie hat den Ver­dacht, dass die­ser Text von irgend­wo­her kopiert sein könn­te – fin­det im Netz aber nichts. Mar­tha erhält eine gute Note.

Han­nes und Fred prä­sen­tie­ren ihren Text im Unter­richt. Eigent­lich lässt sich zum Inhalt wenig Schlech­tes sagen, aber das Geschrie­be­ne erin­nert dann doch mehr an Gespro­che­nes: Satz­zei­chen­in­fla­ti­on am Satz­en­de, kaum Groß- und Klein­schrei­bung und die Zei­chen­set­zung ist opti­mier­bar – oder gar nicht erst vor­han­den. Han­nes und Fred kopie­ren ihren Text dar­auf­hin in https://www.deepl.com/write . Das ist ein KI-basier­ter Web­dienst, der kei­ne Daten sam­melt und bis 2000 Zei­chen kos­ten­los ohne Account nutz­bar ist. Deepl ist eigent­lich ein sehr gutes Über­set­zungs­werk­zeug, kann in einer Beta­ver­si­on jetzt aber auch Tex­te sti­lis­tisch über­ar­bei­ten. Han­nes und Fred schau­en sich die vor­ge­schla­ge­nen Ände­run­gen an. Eini­ges gefällt ihnen, eini­ges scheint den Sinn ihres Tex­tes zu stark zu ver­än­dern. Sie ent­schei­den sich dazu, eini­ge Pas­sa­gen zu ändern, weil sie durch die Ände­run­gen wirk­lich bes­ser klingen.

Die­se bei­den Bei­spie­le zei­gen, was heu­te für alle bereits mit sprach­ba­sier­ter künst­li­cher Intel­li­genz mög­lich ist. Wäh­rend das ers­te Bei­spiel in vie­len Kol­le­gi­en in deut­schen Schu­len für Auf­ruhr sorgt, wenn das Poten­ti­al von Sprach­mo­del­len dort über­haupt ankommt, zeigt das zwei­te Bei­spiel, dass Sprach­mo­del­le gera­de unsi­che­re Schrei­ber sehr gut unter­stüt­zen könnten.

Die Auseinandersetzung über ChatGPT in sozialen Netzwerken

Zwi­schen die­sen bei­den Polen bewe­gen sich manch­mal emo­tio­nal sehr auf­ge­la­de­ne Dis­kus­sio­nen in sozia­len Netz­wer­ken. Die einen sehen bestehen­de Struk­tu­ren und Auf­ga­ben­for­ma­te in Gefahr, die ande­re expe­ri­men­tie­ren mutig mit den sich erge­ben­den neu­en Mög­lich­kei­ten. Die­se Expe­ri­men­te bewe­gen sich oft pri­mär auf einer phä­no­me­no­lo­gi­schen Ebe­ne: Im Kern geht es dar­um, die Ein­ga­ben („Prompts“) zu fin­den, die eine vor­her erdach­te Auf­ga­ben­stel­lung mit Hil­fe eines Sprach­mo­dells opti­mal lösen.

Natür­lich bleibt die Aus­ein­an­der­set­zung vor­erst phä­no­me­no­lo­gisch. Man gibt sich Tipps, wel­che Ein­ga­ben zu einem gewünsch­ten Ergeb­nis füh­ren und wie der Chat­Bot in z.B. eine ande­re Rol­le ein­neh­men kann. Das klappt auf der Ober­flä­che. Die tech­ni­schen Abläu­fe in einem Sprach­mo­dell sind gar nicht so leicht zu verstehen.

Was ist ein Sprachmodell eigentlich?

Ein Sprach­mo­dell ist eine sehr kom­ple­xe Soft­ware, die zur Klas­se der künst­li­chen Intel­li­genz gezählt wird. Schon der Begriff „Intel­li­genz“ ist je nach Fach­dis­zi­plin nicht ein­fach zu defi­nie­ren. Daher spre­chen eini­ge Fach­leu­te lie­ber von „maschi­nel­lem Ler­nen“, was das Defi­ni­ti­ons­pro­blem jedoch ledig­lich auf den Begriff des Ler­nens ver­schiebt. Als Aus­weg aus die­sem Dilem­ma haben eine Rei­he von Autor:innen nicht nur aus dem Infor­ma­tik­um­feld fol­gen­de Arbeits­de­fi­ni­ti­on für künst­li­che Intel­li­genz vorgeschlagen:

Künst­li­che Intel­li­genz bezeich­net die Fähig­keit von Com­pu­ter­sys­te­men, auf sie zuge­schnit­te­ne Auf­ga­ben selbst­tä­tig zu lösen, die auf­grund ihrer Kom­ple­xi­tät bis­lang mensch­li­che Fähig­kei­ten erfor­der­ten”1

Ange­wen­det: Sprach­mo­del­le lösen nun selbst­stän­dig das Pro­blem der Erstel­lung von Tex­ten auf Basis von Ein­ga­ben, die Nutzer:innen vor­ge­ben. Aber wie machen sie das?

In den Anfangs­zei­ten von künst­li­cher Intel­li­genz waren die Auf­ga­ben und Mög­lich­kei­ten von IT-Sys­te­men noch etwas beschränk­ter. Ein sehr ein­fa­ches Bei­spiel sind die dama­li­gen Obst­waa­gen in den Fri­sche­ab­tei­lun­gen der Super­märk­te. Der Kun­de füll­te eine Ware in einen Beu­tel, ging zur einer Waa­ge, leg­te den Beu­tel auf und drück­te eine Tas­te mit einem Sym­bol oder einer Num­mer. Die Waa­ge druck­te dann einen Kas­sen­zet­tel mit Strich­code aus. Es waren aber nicht alle Kun­den ehr­lich, so dass man auf die Idee kam, die­se Waa­gen durch eine Kame­ra zu ergän­zen, mit deren Hil­fe die auf­ge­leg­te Ware erkannt wer­den konn­te, z.B. anhand von Grö­ße oder Far­be. Im Prin­zip konn­te man drei Fäl­le unterscheiden:

a) Wenn der Tas­ten­druck des Kun­den zur erkann­ten Ware pass­te, war die Ent­schei­dung eindeutig.

b) Wenn der Tas­ten­druck ein­deu­tig nicht zur auf­ge­leg­ten Ware pass­te, konn­te ein alter­na­ti­ver Kas­sen­zet­tel gedruckt werden.

c) Wenn die Erken­nung selbst unein­deu­tig war, d.h. zwei Pro­duk­te in Fra­ge kom­men wür­den, aber der Kun­de z.B. die Tas­te mit dem teu­re­ren Pro­dukt gedrückt hat, wur­de natür­lich die teu­re­re Vari­an­te gewählt – gleich­zei­tig ließ sich die­se Situa­ti­on abspei­chern, so dass sie für die Zukunft mit berück­sich­tigt wer­den konnte.

Die­se Waa­ge erzeug­te also auf Basis von Ein­ga­ben und der Bil­der der Kame­ra (Ein­ga­be­schicht) Daten, die sie ver­ar­bei­te­te (Ver­ar­bei­tungs­schicht). Bei der Ver­ar­bei­tung flos­sen die Ein­ga­be­da­ten eben­so ein, wie gespei­cher­te Fäl­le aus einer Daten­bank. Die Daten wur­den unter­ein­an­der gewich­tet, mit einer Daten­bank vol­ler Stan­dard­fäl­le abge­gli­chen und dann eine Aus­ga­be in Form eines Kas­sen­zet­tels erzeugt (Ausgabeschicht).Mit einer gewis­sen Wahr­schein­lich­keit stimm­ten dann Kas­sen­zet­tel und Pro­dukt tat­säch­lich über­ein. Die Wahr­schein­lich­keit der Über­ein­stim­mung war umso grö­ßer, je mehr Stan­dard­fäl­le in der Daten­bank der Waa­ge erfasst wur­den und je mehr Ein­ga­ben die „intel­li­gen­te Waa­ge“ bereits ver­ar­bei­tet hat­te. Softwarentwickler:innen konn­ten die Stan­dard­fäl­le in Form einer Daten­bank vorgeben.

Sprach­mo­del­le funk­tio­nie­ren nach einem ähn­li­chen Prin­zip, nur dass die Stan­dard­fäl­le und Aus­ga­ben ungleich kom­ple­xer sind als bei dem Bei­spiel der Waa­ge. Zudem ist ver­hält­nis­mä­ßig wenig dar­über bekannt, mit wel­chen Daten die zugrun­de­lie­gen­den Daten­ban­ken gefüllt wur­den. Letzt­lich gilt aber auch hier, dass die Aus­ga­ben ledig­lich mit einer gewis­sen Wahr­schein­lich­keit kor­rekt sind oder gar zur Anfra­ge des Nut­zen­den pas­sen – daher ver­hal­ten sich Han­nes und Fred deut­lich smar­ter als Martha.

Es mag auf den ers­ten Blick erstau­nen, dass Sprach­mo­del­le Aus­ga­ben in der momen­ta­nen Qua­li­tät lie­fern. Wir hal­ten Spra­che für ein kom­ple­xes Sys­tem und wür­den einer Maschi­ne deren Imi­ta­ti­on zunächst nicht so recht zutrau­en. Aller­dings sind Sprach­mo­del­le nicht ein­fach vom Him­mel gefallen.

Die Grund­la­gen wur­den schon früh gelegt: Sprachassistent:innen wie Siri, Ale­xa, Cort­a­na usw. sind schon län­ger in der Lage gespro­che­ne Spra­che zu erken­nen und Reak­tio­nen auf ein­fa­che Ein­ga­ben zu erzeugen.

In der Infor­ma­tik gilt der Grundsatz:

Wenn du eine Soft­ware oder KI bau­en kannst, die etwas erkennt, kannst du auch eine Soft­ware oder KI bau­en, die das­sel­be Ding imi­tiert.“2

Neben­bei bemerkt wird durch die­sen schlich­ten Satz auch klar, dass jedes Sicher­heits­sys­tem, das auf der Erken­nung von z.B. mensch­li­cher Spra­che oder der Erken­nung von Gesich­tern basiert, kei­ne gute Idee zur Her­stel­lung von Sicher­heit ist – wenn es künst­li­che Intel­li­genz gibt, die mensch­li­che Spra­che und mensch­li­che Gesich­ter imi­tie­ren kann und die­se sich zudem wei­ter entwickelt.

Einen wei­te­ren Ein­blick in die Kom­ple­xi­tät von Sprach­mo­del­len bie­ten übri­gens auch deren Hard­ware­an­for­de­run­gen. Vor kur­zem tauch­te Face­books Sprach­mo­dell „LLaMA“ im Netz auf. Ein hand­li­cher Down­load von 268GB ent­hält unter­schied­li­che Sprach­mo­dell­va­ri­an­ten. In der ein­fachs­ten 7B Vari­an­te benö­tigt LLaMA zwi­schen 12–16GB an VRAM einer Gra­fik­kar­te, mög­lichst vie­le Pro­zes­sor­ker­ne und RAM. Die Ver­ar­bei­tungs­zei­ten selbst ein­fa­cher Prompts auf Stan­dard­hard­ware bewe­gen sich jen­seits erträg­li­cher Wer­te. Damit ist zumin­dest für den Moment klar, dass auf Basis des heu­ti­gen Wis­sens­stan­des nur sehr weni­ge Mark­teil­neh­mer in der Lage sein wer­den, in der Brei­te ver­füg­ba­re Sprach­mo­del­le sta­bil zu betreiben.

Mögliche Auswirkungen auf das kommerzialisierte Internet

Der dazu not­wen­di­ge immense Ener­gie­ver­brauch ist in die­sem Kon­text letzt­lich eine Fuß­no­te, weil Sprach­mo­del­le das Poten­ti­al besit­zen, das Netz in sei­ner Struk­tur fun­da­men­tal zu verändern.

Gera­de das kom­mer­zi­el­le Inter­net besteht aus einer Viel­zahl von Tex­ten, die einen Gebrauchs­cha­rak­ter auf­wei­sen: Nach­rich­ten, Sport­be­rich­te, Pro­dukt­be­schrei­bun­gen und Zusam­men­fas­sun­gen sind durch Sprach­mo­del­le mit rela­tiv begrenz­ten Anwei­sun­gen und Ein­ga­ben auto­ma­ti­siert erstell­bar. Die dazu not­wen­di­gen Daten lie­gen teil­wei­se bereits in digi­ta­li­sier­ter Form vor. Es wird z.B. bei Hand­ball­spie­len ein dezi­dier­tes Spiel­pro­to­koll geführt, aus dem ein heu­ti­ges Sprach­mo­dell mühe­los und weit­ge­hend auto­ma­ti­siert einen Spiel­be­richt erstel­len kann.

Das wird sowohl immense Aus­wir­kun­gen auf jeden Mark­teil­neh­mer haben, der sich mit Con­ten­ter­stel­lung beschäf­tigt, als auch den Such­ma­schi­nen­markt kom­plett ver­än­dern: Der zur Such­an­fra­ge pas­sen­de Inhalt kann theo­re­tisch indi­vi­du­ell gene­riert wer­den – natür­lich auch aus kom­mer­zi­el­len Quel­len. Das wer­den damit span­nen­de Zei­ten für das Leis­tungsschutz­recht: Zitie­ren auch klei­ne­rer Text­pas­sa­gen ist im Prin­zip nicht mehr not­wen­dig. Die Ergeb­nis­se wer­den einer signi­fi­kant gro­ßen Anwender:innengruppe voll­kom­men aus­rei­chen. Die dann ggf. höf­li­cher­wei­se mit ange­ge­be­nen Ori­gi­nal­quel­len erfah­ren kei­ne Auf­merk­sam­keit durch Klicks und Besu­che mehr – einer immens wich­ti­gen ideel­len Wäh­rung im Netz. Damit wer­den ins­be­son­de­re die Inter­net­gi­gan­ten es noch effek­ti­ver bewerk­stel­li­gen, Nutzer:innen in ihrem eige­nen digi­ta­len Öko­sys­tem zu hal­ten. Micro­soft unter­nimmt bereits ers­te Schrit­te mit Bing­AI und der Inte­gra­ti­on von sprach­mo­dell­ba­sier­ter Kor­rek­tur­funk­tio­nen in sei­ne Office­pro­duk­te. Goog­le holt als Reak­ti­on sei­nen auf Lam­da basier­ten Chat­bot „Bard“ wie­der auf die Büh­ne, des­sen Pro­duk­tiv­be­trieb zunächst auf Basis von ethi­schen Beden­ken ver­wor­fen wur­de: Bard konn­te per Sprach­aus­ga­be täu­schend ech­te Anru­fe z.B. zur Reser­vie­rung von Restau­rant­ti­schen oder Essens­be­stel­lun­gen auf Basis von ein­fa­chen Prompts rea­li­sie­ren. Das poten­ti­el­le Miss­brauchs­po­ten­ti­al die­ser Funk­tio­nen stand einer Markt­ein­füh­rung 2021 noch im Weg.

Sprachmodelle als Unterstützung bei Anträgen und Dokumentationen

Deutsch­land hat ein aus­ge­präg­tes Doku­men­ta­ti­ons- und Antrags­we­sen in unter­schied­li­chen Berei­chen eta­bliert: In der Medi­zin z.B. der Arzt­be­richt, in För­der­pro­gram­men umfang­rei­che Anträ­ge, in der Pfle­ge kom­ple­xe Doku­men­ta­tio­nen, Pro­to­kol­le von allen mög­li­chen Sit­zun­gen – die Lis­te lie­ße sich belie­big fort­set­zen. Allen die­sen „Text­gat­tun­gen“ ist gemein, dass sie oft sehr sche­ma­tisch sind – sche­ma­ti­sche Tex­te sind schon heu­te eine Domä­ne von Sprachmodellen.

Sprach­mo­del­le wer­den dabei hel­fen, Men­schen von die­sen sche­ma­ti­schen Auf­ga­ben zu ent­las­ten. Für spe­zi­el­le Fach­be­rei­che sind Text­ge­ne­ra­to­ren denk­bar, die pri­mär mit fach­be­zo­ge­nen Inhal­ten trai­niert wer­den. Dadurch kön­nen sie bei Rou­ti­ne­auf­ga­ben unter­stüt­zen, wenn­gleich nach heu­ti­gem Stand immer noch eine Über­prü­fung der Aus­ga­ben durch einen sach­kun­di­gen Men­schen erfor­der­lich ist.

Aber auch in die­sem Feld ist es kom­pli­ziert. Neh­men wir das Antrags­we­sen in För­der­pro­gram­men: Die teil­wei­se hohen Anfor­de­run­gen an För­der­an­trä­ge die­nen dazu, den Zugriff auf eine begrenz­te Res­sour­ce (z.B. Geld oder Per­so­nal) zu begren­zen. Sprach­mo­del­le wer­den natür­lich dabei hel­fen, bis­her nicht aus­rei­chend genutz­te För­der­mit­tel tat­säch­lich abru­fen zu kön­nen. Es gibt jedoch Res­sour­cen, die völ­lig über­lau­fen sind – etwa die son­der­päd­ago­gi­schen Unter­stüt­zungs­an­ge­bo­te in Schu­len. Auch hier wer­den Sprach­mo­del­le z.B. bei der Erstel­lung von Gut­ach­ten unter­stüt­zen, jedoch blei­ben gera­de per­so­nel­le Res­sour­cen wei­ter­hin knapp. Damit wird der Zugang zu eben­die­sen Res­sour­cen auf ande­ren Wegen erschwert wer­den: Ein gut begrün­de­ter Antrag steht ledig­lich in Kon­kur­renz zu ande­ren sehr gut begrün­de­ten Anträgen.

Sprachmodelle als neutralere Entscheidungsinstanzen?

Sascha Lobo setzt sich in sei­ner Kolum­ne KI kann mensch­li­che Ver­ant­wor­tung nicht erset­zen? – Doch!“ mit der Stel­lung­nah­me des deut­schen Ethik­ra­tes zu künst­li­cher Intel­li­genz aus­ein­an­der. Er for­dert, dass künst­li­che Intel­li­genz in bestimm­ten Berei­chen an die Stel­le der mensch­li­chen Ent­schei­dung tritt – genau da fällt für den deut­schen Ethik­rat die letz­te Gren­ze. Als Bei­spiel kann die Dia­gno­se eines Arz­tes die­nen: Ein spe­zi­ell mit medi­zi­ni­schem Wis­sen trai­nier­tes Sprach­mo­dell könn­te dabei unter­stüt­zen. Als Ein­ga­be die­nen z.B. Labor- und Ana­mne­se­da­ten. Das spe­zia­li­sier­te Sprach­mo­dell könn­te denk­ba­re Erkran­kun­gen auf Basis die­ser Daten ermit­teln und wäre dabei nicht auf das Wis­sen einer Ein­zel­per­son beschränkt.

Für Sascha Lobo ist das ein Fall, bei dem sich die Fra­ge nach dem Ein­satz von Sprach­mo­del­len nicht stellt, son­dern für ihn ver­bind­lich sein soll­te, weil das spe­zia­li­sier­te Sprach­mo­dell dem Men­schen über­le­gen sei. Die­se Argu­men­ta­ti­on erscheint zunächst bestechend – aller­dings ist ein Modell immer nur so gut wie des­sen Ein­ga­be­da­ten, die hier im Rah­men einer Ana­mne­se durch einen Men­schen ent­ste­hen. Das kann bei eini­gen Krank­heits­bil­dern kom­plex und feh­ler­träch­tig sein – gera­de in Zwei­fels­fäl­len: Die glei­che Krank­heit kann bei unter­schied­li­chen Men­schen völ­lig unter­schied­li­che Sym­pto­me aus­lö­sen – es wird eine span­nen­de Fra­ge in wel­chem ggf. lücken­haf­ten Ver­hält­nis das Erfah­rungs­wis­sen eines Men­schen und des­sen Inter­ak­ti­ons­mög­lich­kei­ten mit ande­ren zu der von einer KI gelie­fer­ten Infor­ma­ti­on steht.

Sprachmodelle und Bildungsprozesse

Kom­men wir am Schluss noch ein­mal zurück zu Mar­tha, Han­nes und Fred: Sie wach­sen in einer Welt auf, in der Sprach­mo­del­le mit ihren immer men­schen­ähn­li­che­ren Inter­faces wie ChatGPT in ganz kur­zer Zeit selbst­ver­ständ­lich sein wer­den – gera­de auch in Kom­bi­na­ti­on mit Sprach­ein- und ‑aus­ga­be. Nie wie­der schu­li­sche Übungs­tex­te? Nie wie­der Haus­auf­ga­ben mit künst­li­chen Auf­ga­ben­stel­lun­gen? Sind Haus­auf­ga­ben gar tot? Wenn doch heu­te ein­fa­ches „Promp­ting“ ausreicht?

Ent­schei­dend beim Schrei­ben ist der gedank­li­che Pro­zess bei der Erstel­lung eines Tex­tes. Wenn wir an die Stel­le des Schreib­pro­zes­ses Promp­ting bei einem Sprach­mo­dell set­zen und den Schreib­pro­zess selbst auto­ma­ti­sie­ren, ver­schie­ben wir den Lern­pro­zess auf eine ande­re Ebe­ne. Die­se Ebe­ne erfor­dert letzt­lich gro­ße Beur­tei­lungs­kom­pe­ten­zen, die sich bei Schreib­ler­nen­den wie Mar­tha, Han­nes und Fred noch in einer sen­si­blen Ent­wick­lungs­pha­se befin­den und damit in vie­len Fäl­len eine Über­for­de­rung dar­stel­len müs­sen. Gleich­zei­tig gehen mit eini­ger Wahr­schein­lich­keit schreib­kom­pe­ten­ten Men­schen durch die Nut­zung von Sprach­mo­del­len Trai­nings- und Denk­pro­zes­se bei eigent­li­chen Erstel­len von Tex­ten ver­lo­ren. An deren Stel­le tre­ten Mecha­nis­men zur Ent­wick­lung und Modi­fi­ka­ti­on von geeig­ne­ten Prompts. Genau die­se Vor­ge­hens­wei­sen und Anwen­dun­gen wer­den bereits in gro­ßer Brei­te in den sozia­len Medi­en dis­ku­tiert. War­um den Ein­füh­rungs­text zu Imma­nu­el Kant aus dem Schul­buch lesen? Las­sen wie Schüler:innen doch ein­fach mit einem Chat­Bot „Imma­nu­el Kant“ chat­ten, den eine Lehr­kraft zuvor per „Mega­prompt“ mit Hil­fe eines Sprach­mo­dells erschaf­fen hat und der auf die indi­vi­du­el­len Fra­gen der Schüler:innen eingeht.

Sprach­mo­del­le selbst kön­nen auf­grund ihrer Kom­ple­xi­tät nur von gro­ßen Markt­teil­neh­mern betrie­ben wer­den – das wirft die Fra­ge nach neu­en Abhän­gig­keits­ebe­nen auf, gera­de im Bildungssystem.

Chancen und neue Herausforderungen

Sprach­mo­del­le berüh­ren einen Bereich, der eine Gesell­schaft aus­macht: Die Kom­mu­ni­ka­ti­on und den Umgang mit Spra­che. Sie sind nach Maß­stä­ben der Digi­ta­li­sie­rung nichts wirk­lich Neu­es, wie Goo­gles Chat­Bot „Bard“ bereits vor drei Jah­ren zeig­te. Mit ChatGPT steht erst­mals ein Inter­face zum Sprach­mo­dell GPT zur Ver­fü­gung, was durch vie­le Men­schen nie­der­schwel­lig nutz­bar ist. Vie­le Anfor­de­run­gen wer­den noch nicht zufrie­den­stel­lend gelöst. Jedoch kön­nen Sprach­mo­del­le auf Mil­lio­nen von Nutzer:inneneingaben zurück­grei­fen und auf deren Basis wei­ter­ent­wi­ckelt wer­den. Bereits auf dem Stand der heu­ti­gen Ent­wick­lung ist immenses Poten­ti­al auf unter­schied­li­chen Ebe­nen erahn­bar. Gleich­zei­tig tre­ten ganz neue Fra­ge­stel­lun­gen auf, die vor allem Juris­ten und Ethi­ker beschäf­ti­gen wer­den. Die Kom­ple­xi­tät bei der Modi­fi­ka­ti­on und dem Betrieb von Sprach­mo­del­len wird dafür sor­gen, dass sie pri­mär in der Hand der Inter­net­gi­gan­ten blei­ben wer­den. Was die­se ohne wirk­sa­me staat­li­che Regu­lie­rung dar­aus machen wer­den, bleibt eine offe­ne Frage.

1 Geth­mann, Bux­mann Dis­tel­rath, Humm, Ling­ner, Nit­sch, Schmidt, Spiecker genannt Döh­mann: „Künst­li­che Intel­li­genz in der For­schung – Neue Mög­lich­kei­ten und Her­aus­for­de­run­gen für die Wis­sen­schaft“, S. 10, aus der Rei­he: Ethics of Sci­ence and Tech­no­lo­gy Assess­ment Bd. 48, bei: Springer

ChatGPT und Co. – der Versuch eines Blickes unter die Haube

Wenn man in sozia­len Netz­wer­ken über Sprach­mo­del­le wie GPT‑3 liest, blei­ben genau wie in den Feuil­le­tons die meis­ten Ana­ly­sen und Bewer­tun­gen auf der phä­no­me­no­lo­gi­schen Ebe­ne stehen:

  • Was kann ich im Unter­richt damit machen?
  • Was muss ich tun, damit ein Feh­ler in der Aus­ga­be auftritt?
  • Wel­chen Ein­fluss wer­den Sprach­mo­del­le auf die Schu­le der Zukunft haben?
  • War­um soll­ten Sprach­mo­del­le in der Schu­le nicht ver­bo­ten werden?
  • […]

Eine Analogie

Wenn ich mit Schul­klas­sen das ers­te Mal mit Indi­ka­to­ren im Che­mie­un­ter­richt expe­ri­men­tie­re, kommt es für vie­le zunächst nicht dar­auf an, war­um ein Indi­ka­tor eine bestimm­te Far­be hat, son­dern eher dar­auf, wie sich mög­lichst vie­le unter­schied­li­che Far­ben durch wahl­lo­ses Zusam­men­kip­pen erzeu­gen las­sen. Ich könn­te dabei in Aner­ken­nung der indi­vi­du­el­len Neu­gier Fra­gen stel­len, die auf einem ähn­li­chen phä­no­me­no­lo­gi­schen Level wie die sozia­len Medi­en zur Sprach­mo­del­len dis­ku­tier­ten Fra­gen operieren.

  • Durch wel­chen Men­gen­ver­hält­nis­se bekom­me ich wel­che Far­be hin?
  • Wie kann ich die­se Far­ben außer­halb des Labors nutzen?
  • Wel­chen Ein­fluss hat das neue Farb­spek­trum auf die Ent­wick­lung neu­er Wandfarben?
  • Stellt die­se Neu­ent­wick­lung nicht grund­le­gen­de Ver­fah­ren der Farb­her­stel­lung und des ästhe­ti­schen Emp­fin­dens in Frage?

Die­se Fra­gen sind berech­tigt. Aber eigent­lich sind die Indi­ka­to­ren z.B. ein Mit­tel, um sich gene­rel­len Stoff­ei­gen­schaf­ten (sau­er / alka­lisch) auf einer phä­no­me­no­lo­gi­schen Ebe­ne anzu­nä­hern, Gesetz­mä­ßig­kei­ten zu ent­de­cken und dar­aus wei­te­re all­ge­mei­ne Aus­sa­gen abzu­lei­ten. Nie­mand käme hier auf die (didak­ti­sche) Idee, hier auf der Ebe­ne der Phä­no­me­ne ste­hen­zu­blei­ben oder Men­schen auf Basis der blo­ßen Beob­ach­tung die­ser Phä­no­me­ne etwas „ver­mit­teln“ zu wollen.

Was ich selbst über Sprachmodelle weiß

Sprach­mo­del­le erle­be ich zur­zeit selbst auf einer phä­no­me­no­lo­gi­schen Ebe­ne. Ich expe­ri­men­tie­re mit Ein­ga­ben und unter­schied­li­chen Para­me­tern her­um. Ich weiß den­noch eini­ges über IT-Sys­te­me, was mir ein wenig hilft, die Leis­tun­gen von Sprach­mo­del­len ein­zu­ord­nen. Ich möch­te für mich durch die­sen Text eher ein­gren­zen, was ich eigent­lich noch nicht weiß, um dar­aus dann Fra­gen zu ent­wi­ckeln, die etwas weg von den Phä­no­me­nen füh­ren. Ich nut­ze dazu Kennt­nis­se, die ich im Rah­men mei­nes Infor­ma­tik­stu­di­ums auf Lehr­amt anders hineinvernetzte.

Ein Sprachmodell braucht eine Grammatik

Eine sehr simp­le Metho­de zur Beschrei­bung einer Gram­ma­tik ist die Erwei­ter­te Backus-Naur-Form (ENBF). Selbst die genaue gram­ma­ti­sche Defi­ni­ti­on einer Zahl ist schon gar nicht so einfach.

Ken­nen“ muss ein Mensch oder IT-Sys­tem dazu zunächst die in einer Spra­che ver­wen­de­ten Sym­bo­le (Ter­mi­na­le), wir ver­wen­den in Deutsch­land die Zei­chen 0–9 zur Dar­stel­lung von Zah­len, das sind also unse­re Terminale.

ZifferAusserNull = "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9";
Ziffer           = "0" | ZifferAusserNull

Damit haben wir defi­niert, wel­che Sym­bo­le unse­re Spra­che zur Dar­stel­lung von Zah­len ver­wen­det. Das „|“-Zei­chen ist als „oder“ zu lesen. Die­se Defi­ni­tio­nen kön­nen wir für alle wei­te­ren als Platz­hal­ter ver­wen­den. Damit kön­nen wir jetzt eine natür­li­che Zahl definieren:

NatuerlicheZahl   = ZifferAusserNull, { Ziffer };
NegativeGanzeZahl = "-", NatuerlicheZahl;

Der Aus­druck in geschweif­ten Klam­mern kann belie­big oft oder gar nicht vor­kom­men. Jetzt kann unse­re „KI“ auf Basis die­ser Gram­ma­tik gan­ze Zah­len mit Vor­zei­chen, aber kei­ne Null erkennen.

Das geht aber mit die­ser Definition:

Zahl = ([ "-" ], ZifferAusserNull, { Ziffer }) | "0" ;

Eine Zahl besteht aus einem optio­na­len Minus­zei­chen, gefolgt von einer Zif­fer außer Null, gefolgt von belie­big vie­len wei­te­ren Zif­fern (auch kei­ner wei­te­ren Zif­fer). Oder: Eine Zahl besteht aus dem Zei­chen Null.

Bei Wor­ten wird es schon schwieriger.

Wort = [A-Z], {a-z}

Ein Wort besteht aus min­des­tens zwei Sym­bo­len aus dem Zei­chen­vor­rat a‑z, wobei am Anfang auch der Sym­bol­vor­rat {A‑Z} ste­hen kann.

Dum­mer­wei­se erfüllt jedes Fan­ta­sie­wort belie­bi­ger Län­ge genau die­se Bedin­gung. An eine Defi­ni­ti­on von „Satz“ mag ich da gar nicht erst den­ken. Aber jedes Sprach­mo­dell muss in einem ers­ten Schritt die Ein­ga­be auf Basis von vor­ge­be­nen Regeln ana­ly­sie­ren, bevor es intern wei­ter­ar­bei­ten kann.

Es wird aber auch schon jetzt klar, dass nicht gram­ma­tik­kon­for­me Eingaben

  1. erkannt
  2. auf Feh­ler ana­ly­siert sind

Damit kön­nen ins­be­son­de­re Recht­schreib­feh­ler recht ein­fach kor­ri­giert wer­den, indem auf Basis von z.B. Wahr­schein­lich­kei­ten ein gram­ma­ti­kon­for­mer Ersatz gesucht wird.

Ein Sprachmodell braucht eine Semantik

Bei uns im Hand­ball wird eine Soft­ware für Spiel­pro­to­kol­le ein­ge­setzt. Die Ein­ga­ben macht ein spe­zi­ell geschul­ter Mensch (z.B. ich), der „Sekre­tär“ genannt wird. Ein sol­ches Spiel­pro­to­koll sieht tech­nisch etwa so aus:

00:59   TOR     HEIM   01   1:0
01:02   GELB    GAST   89
08:36   ZEIT    GAST   89
08:45   TOR 7M  HEIM   04   2:0

Das ers­te Tor fiel für die Heim­mann­schaft nach 59s nach einem Foul des geg­ne­ri­schen Spie­lers mit der Num­mer 89. Es dau­er­te lan­ge 7:34 Minu­ten, bis der nächs­te Tref­fer per 7m nach einem mit Zeit­stra­fe geahn­de­tem Foul dem Spie­ler mit der Num­mer 4 gelang.“

Mit dem Kon­text „Hand­ball­spiel“ kann eigent­lich auch jeder, der in der Hal­le nicht anwe­send war, auf die­ser Basis einen kor­rek­ten Spiel­be­richt ver­fas­sen. Aus Meta­da­ten wie der Zeit las­sen sich auf Basis von Wahr­schein­lich­kei­ten wei­te­re Aus­sa­gen ergän­zen, z.B. sind tor­lo­se sie­ben Minu­ten im Hand­ball schon recht unge­wöhn­lich und es kom­men dafür nur weni­ge Ursa­chen in Betracht. Die Text­sor­te „Bericht“ gibt gram­ma­tisch die zu ver­wen­den­de Zeit­form vor, die mög­li­chen Ver­ben in einem Sport­be­richt sind zudem begrenzt.

Ich glau­be, dass man sich gut vor­stel­len kann, wie sich das Ver­fas­sen von Spiel­be­rich­ten ver­gleichs­wei­se ein­fach mit einem IT-Sys­tem umset­zen lässt, wenn es Regeln zur Umset­zung der Daten in eine Gram­ma­tik gibt. Der resul­tie­ren­de Text wirkt erst ein­mal authen­tisch, wenn er unse­re Erwar­tun­gen an einen Sport­be­richt erfüllt. Das tut er wie­der­um, wenn bestimm­te For­mu­lie­run­gen und Wort­grup­pen ent­hal­ten sind.

Ein Sprachmodell braucht Varianz

Mit einer Gram­ma­tik, ein per Daten und Kon­text las­sen sich schon Tex­te schrei­ben, aber nach ein paar Wochen im Sport­teil wür­de uns dann doch die Lust beim Lesen ver­ge­hen. Ähn­li­che Ein­ga­ben wür­den immer wie­der glei­che For­mu­lie­run­gen her­vor­brin­gen. Als „krea­tiv“ emp­fän­den wir Tex­te, die immer wie­der neue For­mu­lie­rungs­ideen ent­hal­ten wür­den. Die­se könn­te man auch hän­disch in unser bis­he­ri­ges Sprach­mo­dell kip­pen, aber schö­ner wäre es ja schon, wenn das auch auto­ma­ti­siert gin­ge. Und da kom­men neu­ro­na­le Net­ze ins Spiel. Die Funk­ti­ons­wei­se lässt sich am bes­ten mit einer star­ken Ver­ein­fa­chung erklären.

Dazu eine Geschich­te: Es gab eine Zeit, in der in Super­märk­ten Waa­gen zum Selbst­wie­gen stan­den. Da muss­te man eine Tas­te mit z.B. einem Sym­bol  oder einer Num­mer für die auf­ge­leg­te Ware drü­cken und es kam ein Bon zum Auf­kle­ben für die Kas­se her­aus. Es gab auch schon ers­te Waa­gen, die das auf­ge­leg­te Obst oder Gemü­se bereits optisch erken­nen konn­ten, aber trotz­dem noch Tas­ten hat­ten, die auch gedrückt wer­den mussten.

Das IT-Sys­tem hät­te dabei z.B. aus die­sen Kom­po­nen­ten bestehen können:

Eine Ein­ga­be­schicht:

  • Eine Kame­ra, die ein hoch­auf­lö­sen­des Bild von der auf­ge­leg­ten Ware macht.
  • Ein Gewichts­sen­sor, der das Gewicht digi­tal ermittelt.
  • Eine Tas­te, die die Kun­den­ein­ga­be weiterleitet.

Eine Ver­ar­bei­tungs­schicht:

  • Ein Algo­rith­mus, der aus dem Bild die Län­ge der auf­ge­leg­ten Ware ermit­telt („Neu­ron 1“).
  • Ein Algo­rith­mus, der aus dem Bild die Brei­te der auf­ge­leg­ten Ware ermit­telt („Neu­ron 2“).
  • Ein Algo­rith­mus, der die Bild­punk­te der domi­nie­ren­den Far­be der Ware zählt („Neu­ron 3“).
  • Ein Algo­rith­mus, der das Gewicht ins Ver­hält­nis zur Grö­ße setzt („Neu­ron 4“).
  • Ein Algo­rith­mus, der schaut, was der Kun­de gedrückt hat („Neu­ron 5“)

Eine Aus­ga­be­schicht:

  • Ein Algo­rith­mus, der auf Basis eines Schwell­wer­tes und einer Daten­bank einen Preis berech­net und einen Eti­ket­ten­dru­cker ansteuert.

 

Bei­spiel 1:

Neu­ron 1: 15cm

Neu­ron 2: 4cm

Neu­ron 3: Domi­nie­ren­de Far­be ist gelb.

Neu­ron 4: Das Gewicht ent­spricht etwa 70% des äqui­va­len­ten Volu­mens an Wasser

Neu­ron 5: Apfel

Der Kun­de hat mich ver­arscht, das ist eine Banane!“

Das Sys­tem gewich­tet sei­ne Mes­sun­gen hier höher als die Kundeneingabe.

 

Bei­spiel 2:

Neu­ron 1: 12cm

Neu­ron 2: 6cm

Neu­ron 3: grün

Neu­ron 4: Das Gewicht ent­spricht etwa 80% des äqui­va­len­ten Volu­mens an Wasser

Neu­ron 5: Avocado

Eigent­lich blöd, könn­te eine Limet­te oder eine Avo­ca­do sein. Ach, der Kun­de wird ja nicht das bil­li­ge­re Zeug gedrückt haben, also eher eine Avocado.“

 

Das Sys­tem gewich­tet die Kun­den­ein­ga­be in Ver­bin­dung mit einem Preis­ge­fü­ge hier hoch, um zu ent­schei­den, wel­chen Bon es druckt. Es „ent­schei­det“ auf Basis von Daten, wel­che Para­me­ter und Daten es wie gewich­tet und „merkt“ sich belie­big vie­le z.B. unein­deu­ti­ge Situa­tio­nen und wie sel­bi­ge auf­ge­löst wur­den. Danach „kann“ es auf Basis von Daten „ent­schei­den“, wel­chen Bon es z.B. bei einer „nicht stan­dard­kon­for­men Avo­ca­do“ druckt.

Man kann die­sen Pro­zess durch kor­rek­te mensch­li­che Ein­ga­ben beschleu­ni­gen und opti­mie­ren („Trai­ning“). Man kann – falls es einen ande­ren Rück­kopp­lungs­ka­nal gibt – die­se Sys­te­me sich auch selbst opti­mie­ren las­sen – bezo­gen auf Sprach­mo­del­le könn­te man als „Rück­mel­de­ka­nal“ schau­en, wel­che der gene­rier­ten Tex­te per Copy&Paste ver­wen­det wur­den oder wel­che Tex­te wie­der im Netz auftauchen.

Vari­anz „ent­steht“ bei unse­rer Geschich­te mit den Waa­gen durch unkla­re Situa­tio­nen. Im Fal­le von Sprach­mo­del­len kann Vari­anz durch spe­zi­el­le „Neu­ro­nen“ künst­lich erzeugt wer­den, die z.B. betrach­ten, wel­che Tex­te in einem Zeit­raum schon gene­riert wor­den sind und dann „Schwell­wer­te“ ande­rer Neu­ro­nen „ändert“.

Was ein Sprachmodell von einem Menschen unterscheidet

Ein Sprach­mo­dell erfüllt nur eine begrenz­te Auf­ga­ben­stel­lung ganz beson­ders gut: Aus Ein­ga­ben Tex­te erzeu­gen, die für einen mög­lichst gro­ßen Teil von Men­schen authen­tisch wirkt. Men­schen sind in ihren Mög­lich­kei­ten, krea­ti­ve Pro­duk­te zu erschaf­fen da nicht so arg begrenzt. Je mehr „Neu­ro­nen“ durch die Ein­ga­be „getrig­gert“ wer­den, des­to authen­ti­scher wird der Text sein. Daher ist es zumin­dest aus infor­ma­ti­scher Sicht eine Bin­se, wenn Rat­schlä­ge kom­men, ein Sprach­mo­dell mit mög­lichst umfas­sen­den Ein­ga­ben zu speisen.

Begrenzt sind Men­schen jedoch bei der Auf­nah­me von Daten. ChatGPT bricht momen­tan öfter ein­mal zusam­men, weil sehr vie­le Men­schen das Sys­tem gleich­zei­tig nut­zen. Es gibt zwar kei­ne bestä­tig­ten Zah­len, aber die Ein­heit „Mil­lio­nen Anfra­gen pro Sekun­de“ dürf­te als Basis zunächst nicht falsch sein. Mil­lio­nen Anfra­gen bedeu­ten aber auch Mil­lio­nen „Feed­back­ka­nä­le“ zum „Trai­ning“ des neu­ro­na­len Net­zes. Sprach­mo­del­le kön­nen viel mehr Infor­ma­ti­on bewäl­ti­gen als ein ein­zi­ger Mensch. Eigent­lich ist ein Sprach­mo­dell Borg. Wir neh­men die ent­ste­hen­den Tex­te als Pro­duk­te _eines_ Sys­tems wahr. Tech­nisch gese­hen sind es aber die Aus­ga­ben eines Kol­lek­tivs. Der ein­zel­ne Borg agiert ja nicht indi­vi­du­ell, son­dern ver­mit­telt der Figur, die mit ihm kom­mu­ni­ziert, ledig­lich den Anschein einer indi­vi­du­el­len Kom­mu­ni­ka­ti­on.  Wenn die­se Simu­la­ti­on hin­rei­chend gut ist, lässt sie sich für einen rele­van­ten Teil von Men­schen nicht mehr von „ech­ter“ Text­pro­duk­ti­on durch Men­schen unter­schei­den. Mehr braucht es eigent­lich nicht, um (wirt­schaft­lich) als Tech­no­lo­gie erfolg­reich zu sein.

Warum Sprachmodelle emotional wahrgenommen und diskutiert werden

Sprach­mo­del­le sind nüch­tern betrach­tet nicht­ma­te­ri­el­ler Code auf irgend­wel­chen elek­tro­ni­schen Schalt­krei­sen. Ihre Aus­ga­ben drin­gen aber erst­ma­lig leicht benutz­bar in einen Bereich vor, der für Gesell­schaf­ten prä­gend ist: Kom­mu­ni­ka­ti­on. Gesell­schaf­ten kon­sti­tu­ie­ren sich im Wesent­li­chen durch die Art, wie sie intern kom­mu­ni­zie­ren und über wel­che Leit­me­di­en sie das tun. Sprach­mo­del­le decken recht bru­tal auf, wel­che Tex­te einer Gesell­schaft so ein­fach gestrickt sind, dass sie sich mühe­los durch Aus­ga­ben eines IT-Sys­tems erset­zen las­sen. Und das sind zum ganz wesent­li­chen Teil Gebrauchs­tex­te, aber auch Tex­te von Men­schen, die das Schrei­ben (in einer Fremd­spra­che) gera­de ler­nen – also ein Groß­teil von Übun­gen, wie sie in Schul­bü­chern vor­kom­men. Das bedroht zen­tra­le Vor­stel­lun­gen, wie Bil­dung funk­tio­niert und es bedroht Arbeits­rou­ti­nen in Bil­dungs­sys­te­men. In unse­rer Vor­stel­lung waren die­se Tex­te bis­her näm­lich durch­aus nicht unter­kom­plex, son­dern wich­ti­ge Zwi­schen­stu­fen bei der Ent­wick­lung von z.B. Schreibfertigkeiten.

Unterkomplexe Reaktionsmuster auf phänomenologischer Basis

Und es gibt aus mei­ner Sicht unter­kom­ple­xe Reak­tio­nen dar­auf. Ein häu­fi­ger Reflex ist Freu­de dar­über, dass nun end­lich klar wird, wie „stu­pi­de“ Bil­dungs­pro­zes­se eigent­lich sind und wir viel kom­ple­xe­re Auf­ga­ben­for­ma­te brau­chen, z.B. die Bewer­tung der Aus­ga­ben eines Sprach­mo­dells und die Über­ar­bei­tung der­sel­ben. Ohne ein Wis­sen und ohne eige­ne ent­wi­ckel­te Schreib­fer­tig­keit ist das gar nicht so unge­fähr­lich. Im schlimms­ten Fall gibt es eine Aus­ga­be, die dann vom Nut­zen­den an ver­mu­te­te Erwar­tun­gen ange­passt wird.

So wie der Schü­ler, der die Far­be eines Indi­ka­tors so hin­mischt, dass es auf eine Säu­re hin­deu­tet, weil genau das ja auch auf der Fla­sche stand (und das Zeug sau­er schmeckt) – es könn­te aber auch eine ganz ande­re Säu­re oder eine falsch beschrif­te­te Fla­sche gewe­sen sein. MIt Wis­sen dar­über, wie ein Indi­ka­tor funk­tio­niert, wer­den in die­sem Fall ande­re Fra­ge­stel­lun­gen mög­lich. Durch blin­den Glau­ben an den Indi­ka­tor eher nicht.

Rechtfertigungsdruck für tradierte Bildungsprozesse

Was auf jeden Fall geschieht und was für mich der eigent­lich Gewinn dabei ist: Sprach­mo­del­le zwin­gen mich dazu:

  1. Kri­tisch auf für selbst­ver­ständ­lich gehal­te­ne Ver­mitt­lungs­for­men zu schauen
  2. Ver­mitt­lungs­for­men, die der Prü­fung stand­hal­ten, vor der Lern­grup­pe expli­zit recht­fer­ti­gen zu müssen.

Wenn ChatGPT uns alles für eine Erör­te­rung lie­fert, Herr Riecken, war­um müs­sen wir dann noch selbst eine schreiben?

Weil ich es so will und bes­ser weiß, was gut für euch ist!“ könn­te – auch als impli­zi­te Hal­tung – zukünf­tig etwas schwie­ri­ger wer­den – erst­mal gar nicht so komfortabel.

Was ich nicht über Sprachmodelle weiß

Es hat bis­her den Anschein, als sei­en Sprach­mo­del­le wie GPT‑3 bis­her aus­schließ­lich mit Tex­ten trai­niert worde, die Men­schen aus­ge­wählt haben. Da kom­men natür­lich Fra­gen dazu auf, nach wel­chen Kri­te­ri­en die­se Trai­nings­da­ten von wem aus­ge­wählt wor­den sind.

Sprach­mo­del­le sind in einem ers­ten Schritt zunächst nicht in die Lage ver­setzt wor­den, ihre Trai­nings­da­ten „selbst­stän­dig“ aus dem Inter­net her­aus­zu­ho­len. Wel­che Grün­de gibt es eigent­lich dafür?

Sprach­mo­del­le wer­den vie­le Gebrauchs­tex­te erset­zen, die bis­her Domä­nen von Men­schen waren – etwa Sport­be­rich­te. Logisch zuen­de gedacht, wer­den bald wesent­li­che Tei­le einer (west­li­chen) Gesell­schaft nicht mehr ihr Geld mit Schrei­ben ver­die­nen kön­nen. Auch mein Blog kann mühe­los von Aus­ga­ben von Sprach­mo­dell quan­ti­ta­tiv an die Wand gena­gelt und z.B. in Such­ma­schi­nen nicht mehr wahr­nehm­bar sein – mein Blog ist jetzt ein däm­li­ches Bei­spiel, aber was bedeu­tet das insgesamt?

Wird es uns gelin­gen, nen­nens­wer­te Tei­le von Schüler:innen (und uns Lehrer:innen) dazu zu befä­hi­gen, das künf­ti­ge Niveau von Sprach­mo­del­len zu errei­chen? Machen wir uns nicht ganz schön was vor mit der Annah­me, dass gro­ße Tei­le der Schüler:innenschaft in der Lage sein wer­den, Aus­ga­ben von Sprach­mo­del­len „kri­tisch“ zu hin­ter­fra­gen und zu über­ar­bei­ten, WENN uns gleich­zei­tig bewusst ist, dass das Niveau die­ser Aus­ga­ben eher qua­li­ta­tiv stei­gen wird?