Ein Blick ins Klassenzimmer Martha hat eine Englischhausaufgabe bekommen. Sie soll einen Text über die drei bekanntesten Sehenswürdigkeiten von New
Wie Sprachmodelle unsere Gesellschaft verändern werden
Ein Blick ins Klassenzimmer
Martha hat eine Englischhausaufgabe bekommen. Sie soll einen Text über die drei bekanntesten Sehenswürdigkeiten von New York schreiben. New York steht im Zentrum der aktuellen Unit im Englischbuch. Martha ist nicht sehr gut in Englisch. Aber die App auf ihrem Handy ist direkt an ChatGPT angedockt. ChatGPT ist eine künstliche Intelligenz, die auf möglichst natürliche Textausgabe optimiert ist. Martha tippt in ihre App: „Write an article about the three most famous sights in New York.“, denn das ist die Aufgabenstellung, die ihre Lehrerin ihr gegeben hat. Heraus kommt folgender Text (abgedruckt ist die unveränderte Ausgabe):
New York City is one of the world’s most vibrant and exciting destinations. Known for its diverse culture, bustling streets, and iconic landmarks, the city is a hub of entertainment and commerce. From the bright lights of Times Square to the grandeur of the Statue of Liberty, New York offers a wealth of sights to explore. In this article, we will take a closer look at the three most famous sights in the city.
1. The Statue of Liberty
The Statue of Liberty is one of the most iconic landmarks in New York City. Located on Liberty Island, the statue was gifted to the United States by the people of France in 1886 as a symbol of freedom and democracy. The statue is 151 feet tall and is made of copper plates, which have turned green over time due to weathering.
Visitors can take a ferry to Liberty Island and climb to the top of the pedestal or even to the crown of the statue for panoramic views of the city skyline and harbor. The statue is also visible from Battery Park in Lower Manhattan, where visitors can take in the stunning view of the statue against the backdrop of the city.
1. The Empire State Building
The Empire State Building is a towering skyscraper located in Midtown Manhattan. It was completed in 1931 and was the world’s tallest building until 1971. The building stands at 1,454 feet tall and has 102 floors. Visitors can take an elevator to the observation deck on the 86th floor for breathtaking views of the city skyline. On a clear day, visitors can see up to 80 miles in every direction.
The Empire State Building has been featured in numerous movies and is a popular tourist destination. The building’s art deco architecture is a sight to behold, and the nighttime lighting display is an iconic part of the city skyline.
1. Central Park
Central Park is a vast green space located in the heart of Manhattan. The park covers 843 acres and is a popular destination for both locals and tourists. Visitors can explore the park on foot, by bike, or even by horse-drawn carriage. The park features numerous walking paths, gardens, lakes, and ponds, as well as famous landmarks such as the Central Park Zoo and the Bethesda Fountain.
In the winter, visitors can go ice-skating at the Wollman Rink, and in the summer, there are numerous concerts and events held in the park. Central Park is a welcome respite from the hustle and bustle of the city and provides a tranquil oasis in the heart of Manhattan.
In conclusion, New York City is home to many famous sights, but the Statue of Liberty, Empire State Building, and Central Park are three of the most iconic. These landmarks represent the city’s history, culture, and natural beauty and are must-see destinations for anyone visiting the city. Whether you’re a first-time visitor or a lifelong New Yorker, these sights never cease to amaze and inspire.
Martha meldet sich und liest ihren Text vor. Ihre Lehrkraft ist verwundert. Dieser Text entspricht überhaupt nicht Marthas bisher im Unterricht gezeigten Fähigkeiten. Sie hat den Verdacht, dass dieser Text von irgendwoher kopiert sein könnte – findet im Netz aber nichts. Martha erhält eine gute Note.
Hannes und Fred präsentieren ihren Text im Unterricht. Eigentlich lässt sich zum Inhalt wenig Schlechtes sagen, aber das Geschriebene erinnert dann doch mehr an Gesprochenes: Satzzeicheninflation am Satzende, kaum Groß- und Kleinschreibung und die Zeichensetzung ist optimierbar – oder gar nicht erst vorhanden. Hannes und Fred kopieren ihren Text daraufhin in https://www.deepl.com/write . Das ist ein KI-basierter Webdienst, der keine Daten sammelt und bis 2000 Zeichen kostenlos ohne Account nutzbar ist. Deepl ist eigentlich ein sehr gutes Übersetzungswerkzeug, kann in einer Betaversion jetzt aber auch Texte stilistisch überarbeiten. Hannes und Fred schauen sich die vorgeschlagenen Änderungen an. Einiges gefällt ihnen, einiges scheint den Sinn ihres Textes zu stark zu verändern. Sie entscheiden sich dazu, einige Passagen zu ändern, weil sie durch die Änderungen wirklich besser klingen.
Diese beiden Beispiele zeigen, was heute für alle bereits mit sprachbasierter künstlicher Intelligenz möglich ist. Während das erste Beispiel in vielen Kollegien in deutschen Schulen für Aufruhr sorgt, wenn das Potential von Sprachmodellen dort überhaupt ankommt, zeigt das zweite Beispiel, dass Sprachmodelle gerade unsichere Schreiber sehr gut unterstützen könnten.
Die Auseinandersetzung über ChatGPT in sozialen Netzwerken
Zwischen diesen beiden Polen bewegen sich manchmal emotional sehr aufgeladene Diskussionen in sozialen Netzwerken. Die einen sehen bestehende Strukturen und Aufgabenformate in Gefahr, die andere experimentieren mutig mit den sich ergebenden neuen Möglichkeiten. Diese Experimente bewegen sich oft primär auf einer phänomenologischen Ebene: Im Kern geht es darum, die Eingaben („Prompts“) zu finden, die eine vorher erdachte Aufgabenstellung mit Hilfe eines Sprachmodells optimal lösen.
Natürlich bleibt die Auseinandersetzung vorerst phänomenologisch. Man gibt sich Tipps, welche Eingaben zu einem gewünschten Ergebnis führen und wie der ChatBot in z.B. eine andere Rolle einnehmen kann. Das klappt auf der Oberfläche. Die technischen Abläufe in einem Sprachmodell sind gar nicht so leicht zu verstehen.
Was ist ein Sprachmodell eigentlich?
Ein Sprachmodell ist eine sehr komplexe Software, die zur Klasse der künstlichen Intelligenz gezählt wird. Schon der Begriff „Intelligenz“ ist je nach Fachdisziplin nicht einfach zu definieren. Daher sprechen einige Fachleute lieber von „maschinellem Lernen“, was das Definitionsproblem jedoch lediglich auf den Begriff des Lernens verschiebt. Als Ausweg aus diesem Dilemma haben eine Reihe von Autor:innen nicht nur aus dem Informatikumfeld folgende Arbeitsdefinition für künstliche Intelligenz vorgeschlagen:
„Künstliche Intelligenz bezeichnet die Fähigkeit von Computersystemen, auf sie zugeschnittene Aufgaben selbsttätig zu lösen, die aufgrund ihrer Komplexität bislang menschliche Fähigkeiten erforderten”1
Angewendet: Sprachmodelle lösen nun selbstständig das Problem der Erstellung von Texten auf Basis von Eingaben, die Nutzer:innen vorgeben. Aber wie machen sie das?
In den Anfangszeiten von künstlicher Intelligenz waren die Aufgaben und Möglichkeiten von IT-Systemen noch etwas beschränkter. Ein sehr einfaches Beispiel sind die damaligen Obstwaagen in den Frischeabteilungen der Supermärkte. Der Kunde füllte eine Ware in einen Beutel, ging zur einer Waage, legte den Beutel auf und drückte eine Taste mit einem Symbol oder einer Nummer. Die Waage druckte dann einen Kassenzettel mit Strichcode aus. Es waren aber nicht alle Kunden ehrlich, so dass man auf die Idee kam, diese Waagen durch eine Kamera zu ergänzen, mit deren Hilfe die aufgelegte Ware erkannt werden konnte, z.B. anhand von Größe oder Farbe. Im Prinzip konnte man drei Fälle unterscheiden:
a) Wenn der Tastendruck des Kunden zur erkannten Ware passte, war die Entscheidung eindeutig.
b) Wenn der Tastendruck eindeutig nicht zur aufgelegten Ware passte, konnte ein alternativer Kassenzettel gedruckt werden.
c) Wenn die Erkennung selbst uneindeutig war, d.h. zwei Produkte in Frage kommen würden, aber der Kunde z.B. die Taste mit dem teureren Produkt gedrückt hat, wurde natürlich die teurere Variante gewählt – gleichzeitig ließ sich diese Situation abspeichern, so dass sie für die Zukunft mit berücksichtigt werden konnte.
Diese Waage erzeugte also auf Basis von Eingaben und der Bilder der Kamera (Eingabeschicht) Daten, die sie verarbeitete (Verarbeitungsschicht). Bei der Verarbeitung flossen die Eingabedaten ebenso ein, wie gespeicherte Fälle aus einer Datenbank. Die Daten wurden untereinander gewichtet, mit einer Datenbank voller Standardfälle abgeglichen und dann eine Ausgabe in Form eines Kassenzettels erzeugt (Ausgabeschicht).Mit einer gewissen Wahrscheinlichkeit stimmten dann Kassenzettel und Produkt tatsächlich überein. Die Wahrscheinlichkeit der Übereinstimmung war umso größer, je mehr Standardfälle in der Datenbank der Waage erfasst wurden und je mehr Eingaben die „intelligente Waage“ bereits verarbeitet hatte. Softwarentwickler:innen konnten die Standardfälle in Form einer Datenbank vorgeben.
Sprachmodelle funktionieren nach einem ähnlichen Prinzip, nur dass die Standardfälle und Ausgaben ungleich komplexer sind als bei dem Beispiel der Waage. Zudem ist verhältnismäßig wenig darüber bekannt, mit welchen Daten die zugrundeliegenden Datenbanken gefüllt wurden. Letztlich gilt aber auch hier, dass die Ausgaben lediglich mit einer gewissen Wahrscheinlichkeit korrekt sind oder gar zur Anfrage des Nutzenden passen – daher verhalten sich Hannes und Fred deutlich smarter als Martha.
Es mag auf den ersten Blick erstaunen, dass Sprachmodelle Ausgaben in der momentanen Qualität liefern. Wir halten Sprache für ein komplexes System und würden einer Maschine deren Imitation zunächst nicht so recht zutrauen. Allerdings sind Sprachmodelle nicht einfach vom Himmel gefallen.
Die Grundlagen wurden schon früh gelegt: Sprachassistent:innen wie Siri, Alexa, Cortana usw. sind schon länger in der Lage gesprochene Sprache zu erkennen und Reaktionen auf einfache Eingaben zu erzeugen.
In der Informatik gilt der Grundsatz:
„Wenn du eine Software oder KI bauen kannst, die etwas erkennt, kannst du auch eine Software oder KI bauen, die dasselbe Ding imitiert.“2
Nebenbei bemerkt wird durch diesen schlichten Satz auch klar, dass jedes Sicherheitssystem, das auf der Erkennung von z.B. menschlicher Sprache oder der Erkennung von Gesichtern basiert, keine gute Idee zur Herstellung von Sicherheit ist – wenn es künstliche Intelligenz gibt, die menschliche Sprache und menschliche Gesichter imitieren kann und diese sich zudem weiter entwickelt.
Einen weiteren Einblick in die Komplexität von Sprachmodellen bieten übrigens auch deren Hardwareanforderungen. Vor kurzem tauchte Facebooks Sprachmodell „LLaMA“ im Netz auf. Ein handlicher Download von 268GB enthält unterschiedliche Sprachmodellvarianten. In der einfachsten 7B Variante benötigt LLaMA zwischen 12–16GB an VRAM einer Grafikkarte, möglichst viele Prozessorkerne und RAM. Die Verarbeitungszeiten selbst einfacher Prompts auf Standardhardware bewegen sich jenseits erträglicher Werte. Damit ist zumindest für den Moment klar, dass auf Basis des heutigen Wissensstandes nur sehr wenige Markteilnehmer in der Lage sein werden, in der Breite verfügbare Sprachmodelle stabil zu betreiben.
Mögliche Auswirkungen auf das kommerzialisierte Internet
Der dazu notwendige immense Energieverbrauch ist in diesem Kontext letztlich eine Fußnote, weil Sprachmodelle das Potential besitzen, das Netz in seiner Struktur fundamental zu verändern.
Gerade das kommerzielle Internet besteht aus einer Vielzahl von Texten, die einen Gebrauchscharakter aufweisen: Nachrichten, Sportberichte, Produktbeschreibungen und Zusammenfassungen sind durch Sprachmodelle mit relativ begrenzten Anweisungen und Eingaben automatisiert erstellbar. Die dazu notwendigen Daten liegen teilweise bereits in digitalisierter Form vor. Es wird z.B. bei Handballspielen ein dezidiertes Spielprotokoll geführt, aus dem ein heutiges Sprachmodell mühelos und weitgehend automatisiert einen Spielbericht erstellen kann.
Das wird sowohl immense Auswirkungen auf jeden Markteilnehmer haben, der sich mit Contenterstellung beschäftigt, als auch den Suchmaschinenmarkt komplett verändern: Der zur Suchanfrage passende Inhalt kann theoretisch individuell generiert werden – natürlich auch aus kommerziellen Quellen. Das werden damit spannende Zeiten für das Leistungsschutzrecht: Zitieren auch kleinerer Textpassagen ist im Prinzip nicht mehr notwendig. Die Ergebnisse werden einer signifikant großen Anwender:innengruppe vollkommen ausreichen. Die dann ggf. höflicherweise mit angegebenen Originalquellen erfahren keine Aufmerksamkeit durch Klicks und Besuche mehr – einer immens wichtigen ideellen Währung im Netz. Damit werden insbesondere die Internetgiganten es noch effektiver bewerkstelligen, Nutzer:innen in ihrem eigenen digitalen Ökosystem zu halten. Microsoft unternimmt bereits erste Schritte mit BingAI und der Integration von sprachmodellbasierter Korrekturfunktionen in seine Officeprodukte. Google holt als Reaktion seinen auf Lamda basierten Chatbot „Bard“ wieder auf die Bühne, dessen Produktivbetrieb zunächst auf Basis von ethischen Bedenken verworfen wurde: Bard konnte per Sprachausgabe täuschend echte Anrufe z.B. zur Reservierung von Restauranttischen oder Essensbestellungen auf Basis von einfachen Prompts realisieren. Das potentielle Missbrauchspotential dieser Funktionen stand einer Markteinführung 2021 noch im Weg.
Sprachmodelle als Unterstützung bei Anträgen und Dokumentationen
Deutschland hat ein ausgeprägtes Dokumentations- und Antragswesen in unterschiedlichen Bereichen etabliert: In der Medizin z.B. der Arztbericht, in Förderprogrammen umfangreiche Anträge, in der Pflege komplexe Dokumentationen, Protokolle von allen möglichen Sitzungen – die Liste ließe sich beliebig fortsetzen. Allen diesen „Textgattungen“ ist gemein, dass sie oft sehr schematisch sind – schematische Texte sind schon heute eine Domäne von Sprachmodellen.
Sprachmodelle werden dabei helfen, Menschen von diesen schematischen Aufgaben zu entlasten. Für spezielle Fachbereiche sind Textgeneratoren denkbar, die primär mit fachbezogenen Inhalten trainiert werden. Dadurch können sie bei Routineaufgaben unterstützen, wenngleich nach heutigem Stand immer noch eine Überprüfung der Ausgaben durch einen sachkundigen Menschen erforderlich ist.
Aber auch in diesem Feld ist es kompliziert. Nehmen wir das Antragswesen in Förderprogrammen: Die teilweise hohen Anforderungen an Förderanträge dienen dazu, den Zugriff auf eine begrenzte Ressource (z.B. Geld oder Personal) zu begrenzen. Sprachmodelle werden natürlich dabei helfen, bisher nicht ausreichend genutzte Fördermittel tatsächlich abrufen zu können. Es gibt jedoch Ressourcen, die völlig überlaufen sind – etwa die sonderpädagogischen Unterstützungsangebote in Schulen. Auch hier werden Sprachmodelle z.B. bei der Erstellung von Gutachten unterstützen, jedoch bleiben gerade personelle Ressourcen weiterhin knapp. Damit wird der Zugang zu ebendiesen Ressourcen auf anderen Wegen erschwert werden: Ein gut begründeter Antrag steht lediglich in Konkurrenz zu anderen sehr gut begründeten Anträgen.
Sprachmodelle als neutralere Entscheidungsinstanzen?
Sascha Lobo setzt sich in seiner Kolumne „KI kann menschliche Verantwortung nicht ersetzen? – Doch!“ mit der Stellungnahme des deutschen Ethikrates zu künstlicher Intelligenz auseinander. Er fordert, dass künstliche Intelligenz in bestimmten Bereichen an die Stelle der menschlichen Entscheidung tritt – genau da fällt für den deutschen Ethikrat die letzte Grenze. Als Beispiel kann die Diagnose eines Arztes dienen: Ein speziell mit medizinischem Wissen trainiertes Sprachmodell könnte dabei unterstützen. Als Eingabe dienen z.B. Labor- und Anamnesedaten. Das spezialisierte Sprachmodell könnte denkbare Erkrankungen auf Basis dieser Daten ermitteln und wäre dabei nicht auf das Wissen einer Einzelperson beschränkt.
Für Sascha Lobo ist das ein Fall, bei dem sich die Frage nach dem Einsatz von Sprachmodellen nicht stellt, sondern für ihn verbindlich sein sollte, weil das spezialisierte Sprachmodell dem Menschen überlegen sei. Diese Argumentation erscheint zunächst bestechend – allerdings ist ein Modell immer nur so gut wie dessen Eingabedaten, die hier im Rahmen einer Anamnese durch einen Menschen entstehen. Das kann bei einigen Krankheitsbildern komplex und fehlerträchtig sein – gerade in Zweifelsfällen: Die gleiche Krankheit kann bei unterschiedlichen Menschen völlig unterschiedliche Symptome auslösen – es wird eine spannende Frage in welchem ggf. lückenhaften Verhältnis das Erfahrungswissen eines Menschen und dessen Interaktionsmöglichkeiten mit anderen zu der von einer KI gelieferten Information steht.
Sprachmodelle und Bildungsprozesse
Kommen wir am Schluss noch einmal zurück zu Martha, Hannes und Fred: Sie wachsen in einer Welt auf, in der Sprachmodelle mit ihren immer menschenähnlicheren Interfaces wie ChatGPT in ganz kurzer Zeit selbstverständlich sein werden – gerade auch in Kombination mit Sprachein- und ‑ausgabe. Nie wieder schulische Übungstexte? Nie wieder Hausaufgaben mit künstlichen Aufgabenstellungen? Sind Hausaufgaben gar tot? Wenn doch heute einfaches „Prompting“ ausreicht?
Entscheidend beim Schreiben ist der gedankliche Prozess bei der Erstellung eines Textes. Wenn wir an die Stelle des Schreibprozesses Prompting bei einem Sprachmodell setzen und den Schreibprozess selbst automatisieren, verschieben wir den Lernprozess auf eine andere Ebene. Diese Ebene erfordert letztlich große Beurteilungskompetenzen, die sich bei Schreiblernenden wie Martha, Hannes und Fred noch in einer sensiblen Entwicklungsphase befinden und damit in vielen Fällen eine Überforderung darstellen müssen. Gleichzeitig gehen mit einiger Wahrscheinlichkeit schreibkompetenten Menschen durch die Nutzung von Sprachmodellen Trainings- und Denkprozesse bei eigentlichen Erstellen von Texten verloren. An deren Stelle treten Mechanismen zur Entwicklung und Modifikation von geeigneten Prompts. Genau diese Vorgehensweisen und Anwendungen werden bereits in großer Breite in den sozialen Medien diskutiert. Warum den Einführungstext zu Immanuel Kant aus dem Schulbuch lesen? Lassen wie Schüler:innen doch einfach mit einem ChatBot „Immanuel Kant“ chatten, den eine Lehrkraft zuvor per „Megaprompt“ mit Hilfe eines Sprachmodells erschaffen hat und der auf die individuellen Fragen der Schüler:innen eingeht.
Sprachmodelle selbst können aufgrund ihrer Komplexität nur von großen Marktteilnehmern betrieben werden – das wirft die Frage nach neuen Abhängigkeitsebenen auf, gerade im Bildungssystem.
Chancen und neue Herausforderungen
Sprachmodelle berühren einen Bereich, der eine Gesellschaft ausmacht: Die Kommunikation und den Umgang mit Sprache. Sie sind nach Maßstäben der Digitalisierung nichts wirklich Neues, wie Googles ChatBot „Bard“ bereits vor drei Jahren zeigte. Mit ChatGPT steht erstmals ein Interface zum Sprachmodell GPT zur Verfügung, was durch viele Menschen niederschwellig nutzbar ist. Viele Anforderungen werden noch nicht zufriedenstellend gelöst. Jedoch können Sprachmodelle auf Millionen von Nutzer:inneneingaben zurückgreifen und auf deren Basis weiterentwickelt werden. Bereits auf dem Stand der heutigen Entwicklung ist immenses Potential auf unterschiedlichen Ebenen erahnbar. Gleichzeitig treten ganz neue Fragestellungen auf, die vor allem Juristen und Ethiker beschäftigen werden. Die Komplexität bei der Modifikation und dem Betrieb von Sprachmodellen wird dafür sorgen, dass sie primär in der Hand der Internetgiganten bleiben werden. Was diese ohne wirksame staatliche Regulierung daraus machen werden, bleibt eine offene Frage.
1 Gethmann, Buxmann Distelrath, Humm, Lingner, Nitsch, Schmidt, Spiecker genannt Döhmann: „Künstliche Intelligenz in der Forschung – Neue Möglichkeiten und Herausforderungen für die Wissenschaft“, S. 10, aus der Reihe: Ethics of Science and Technology Assessment Bd. 48, bei: Springer
Die SWK möchte als kurzfristige Lösung Mehrarbeit, Abbau von Teilzeit und größere Klassen
Die politisch geschickt instrumentalisierte SWK
Manchmal bin ja Prophet: Ich habe viele dieser Vorschläge bereits vor einiger Zeit vorausgesehen: Lehrkräfte gewinnen & Lehrkräftemangel überwinden – als Laie. Die SWK bekommt in sozialen Medien gerade doch recht eindeutige Reaktionen, die Teile ihrer Mitglieder offenbar stark verunsichert. Renommierte Bildungsjournalist:innen wie der von mir geschätzte Jan-Martin Wiarda springen ihr bei. Zwischentöne wie der Versuch, Unterrichtsqualität durch Einsatz ausgebildeter Lehrkräfte erhalten zu wollen, verhallen gegenüber den Maßnahmen aus dem „Giftschrank“.
Es war aus meiner Sicht keine kluge Entscheidung der SWK, den vorangegangenen Auftrag der KMK überhaupt anzunehmen – offenbar ohne ihn zu modifizieren. Es ist sehr spannend, worüber öffentlich gesprochen wird. Spannend ist aber auch, worüber in Zusammenhang mit der SWK-Veröffentlichung nicht gesprochen wird und wer sich gerade nicht öffentlich äußert und erklärt.
Vermisst habe ich z.B. eine belastbare Erhebung über die Gründe, warum Lehrkräfte in Teilzeit gehen. Verbände und Lehrkräfte selbst behaupten: Wegen Überlastung und dem Wunsch, den Beruf möglichst gut und schülergerecht zu machen. Andere gesellschaftliche Gruppen behaupten: Wegen Bequemlichkeit und dabei zu auskömmlicher Besoldung. Mir fehlen dazu Zahlen. Datengestützte Erkenntnisse dazu könnten nicht unerheblich zu geeigneten Maßnahmen beitragen. Belastbare Zahlen wird man in dieser Phase der Debatte nicht mehr bekommen.
Vermisst habe ich übrigens weiterhin die Idee, mit anderen Aufgaben betraute Lehrkräfte zurück ins System zu holen, z.B. Fachberatung, Medienberatung, Schulentwicklungsberatung, Schulinspektion bzw. allgemein Menschen mit Lehramtsausbildung, die an Schulbehörden, Landesinstituten und Ministerien arbeiten – da wäre noch einiges zu holen, um den Preis einer weiteren systematischen Schwächung des Mittelbaus des Schulsystems, die schon seit Jahren u.a. von externen Beratungsagenturen vorangetrieben wird.
Politik instrumentalisiert nunmal gerne – das Feuer richtet sich zurzeit recht effektiv gegen die Wissenschaftler:innen. Dabei hätte ich ganz andere Fragen – z.B. ob die altehrwürdige KMK (immerhin selbst länger existierend als der Bundesrat) eine geeignete Struktur darstellt und dargestellt hat, unser Bildungsystem in eine Richtung zu entwickeln, die der Volkswirtschaft und Kultur eines bodenschatzarmen Landes gerecht werden könnte. Immerhin spricht die SWK ja selbst von Problemen von historischem Ausmaß – da darf es folgerichtig auch keine Denkverbote hinsichtlich des Fortbestands von Strukturen jedweder Art und Geschichte geben.
Fehlende Alternativen zu den Vorschlägen der SWK
Ich mache mich jetzt einmal unbeliebt: Es gibt objektiv m.E. überhaupt keine Alternative zu den vorgeschlagenen Maßnahmen, wenn man die bisherige – schon jetzt oft kritisierte – Unterrichtsquali- und ‑quantität zumindest für einen gewissen, wahrscheinlich recht kurzen Zeitraum aufrecht erhalten möchte.
Daher laufen dramatisierende Kommentare wie der von Bob Blume im Spiegel weitgehend ins Leere: Sie benennen Misstände und Fehlargumentationen – sie bleiben jedoch letztlich die Antwort schuldig, was man denn jetzt genau für die Schüler:innen machen soll, die sich im System befinden. Überwiegende Teile der Gesellschaft sind der Klage der Lehrkräfte wahrscheinlich überdrüssig.
Die Maßnahmen selbst werden zwar kurzfristig helfen, aber letztlich dazu führen, dass sich Fehlentwicklungen weiter verschärfen. Die Zeit, um gegenzusteuern, wird nicht ausreichen. Der Verweis auf Versäumnisse in der Vergangenheit mag ebenfalls objektiv richtig, aber noch weniger hilfreich bei der Bewältigung aktueller Herausforderungen sein.
Warum die Idee einer Imagesteigerung des Lehrer:innenberufes bestenfalls niedlich ist
Wer fordert, das Image des Lehrer:innenberufs zu verbessern, um mehr Bewerber:innen gewinnen zu können und z.B. mehr Studienplätze schaffen möchte, verkennt die Situation in der Gesamtgesellschaft: Das Fachkräfteproblem ist ein gesamtgesellschaftliches! Das Handwerk, die öffentliche Verwaltung, die Bundeswehr, die Polizei, das Gesundheitssystem, die frühkindliche Bildung, die Industrie – eigentlich nahezu alle Branchen treten zu der oft vorgeschlagenen „Imageoffensive“ in Konkurrenz. Es fehlen schlicht die Menschen für die Aufgaben innerhalb von Wirtschaft und Verwaltung. Als leidlich gut ausgebildeter junger Mensch bin ich nicht (mehr) darauf angewiesen, um die Gunst eines Systems zu buhlen – es bewerben sich gleich mehrere um mich. Je größer dabei die Not, desto geringer muss übrigens folgerichtig zusätzlich im Prinzip die eigene Kompetenz von Bewerber:innen sein. Ggf. könnte die oft beschworene „Deindustrialisierung Deutschlands“ gerade nicht durch Steuern und Energiepreise, sondern letztenendes durch das schlichte Fehlen von Köpfen vorangetrieben werden, wenn Faktoren wie politische Stabilität und freiheitliche Gesellschaftsverhältnisse kein ausreichendes Wachstum in einer kapitalistischen Marktlogik der Großkonzerne mehr garantieren.
Was also tun?
Eine Attraktivitätssteigerung mit Strahlkraft kann nur aus dem System heraus erfolgen. Politisch muss alles daran gesetzt werden, engagierte und kluge Köpfe im Bildungsystem um jeden Preis zu halten. Das geht mit den bisherigen Verwaltungs- und Hörigkeitsstrukturen nicht. Wenn sich Verantwortliche immer wieder auf ihr Recht berufen könnten, z.B. Weisungen zu erteilen, die dann praktisch nicht umsetzbar sind, wird es schwierig. Wenn wir gegenüber Lehrkräften immer wieder Konzepte des maximalen Misstrauens fahren (z.B. enge Vorschriften zur justitiablen Korrektur oder Durchführung von Prüfungen), wird es schwierig. Wie wäre es stattdessen mit einer umfassenden Rechtsschutzversicherung? Oder umfassenden Insassenversicherung, wenn der engagierte Kollege mit der kleinen Schüler:innengruppe zu einem Wettbewerb fährt anstatt dann auch noch einen Antrag stellen zu müssen? Vertrauen statt Misstrauen als default, dienstrechtliche Maßnahmen – dann bitte auch gerne wirklich eskalierend – bei fortgesetztem Fehlverhalten.
Was weiterhin komplett fehlt, ist eine Perspektive für die Menschen, die sich jetzt im System befinden. Die Erfahrung aus der Vergangenheit ist, das Mehrbelastungen schnell umgesetzt, Entlastungen dann aber immer wieder vertagt werden. Solange dieser Zyklus nicht durch eine echte Perspektive durchbrochen wird, bleibt es schwierig. Symbole wie die Absetzung der KMK würden zwar m.E. immens helfen, sind wahrscheinlich formal nicht realistisch. Und so konstruktiv ist diese Forderung ja auch wieder nicht. Zu den Anfängen dieses Blogs hatte ich einmal die Idee, dass Bildungssystem einer staatlich eng kontrollierten NGO anzuvertrauen. Ja, ich weiß, Föderalismus und so. Aber es würde zumindest das Bildungsystems den Legislaturperioden entziehen – ich erniedrige daher auf: „Der KMK eine NGO entgegenstellen“ (und nach zehn Jahre zu schauen, woher die nachhaltigieren Impulse gekommen sind – die andere Organisation wird dann aufgelöst.) Das wären vielleicht ein Symbol und eine geeignete Perspektive.
Zivilgesellschaft muss es noch mehr als jetzt schon richten
Jetzt kommt schon wieder etwas Unangenehmes: Trotzdem Politik und Verwaltung viel zur aktuellen Krise beigetragen haben, werden es Politik und Verwaltung nicht ohne Lehrkräfte und Zivilgesellschaft schaffen. Wir Lehrkräfte mit großen oder keinen Kindern müssen weg von der Haltung: „Jetzt sollen die Jungen mal!“ (falls wir sie hätten, soll ja schon vorgekommen sein). Speziell auf uns kommt einiges zu. Gleichzeitig müssen wir uns mehr unseres Wertes für das System bewusst werden und das dann so leben. Wir haben eine Loyalitätspflicht gegenüber dem Dienstherren, er aber auch eine gegenüber uns. Das wird gerne vergessen. Widerstandsformen hinter der eigenen Klassenraumtür interessieren eine formale Struktur wir eine Schulbürokratie wesentlich weniger als Widerstandsformen, die Verwaltungsakte auslösen und z.B. mit Hilfe von Verbänden ihrerseits intern und immer der Treuepflicht folgend eskaliert werden können.
Um es konkreter zu machen: Beamte müssen beamtenrechtlich amtsangemessen beschäftigt werden. Das ist ein ziemlich relevanter Kern der Fürsorgepflicht. Die ihnen übertragenen Aufgaben müssen ihren Qualifikationen (Hebelpunkt 1) und der Wertigkeit ihres Amtes (Hebelpunkt 2) entsprechen. Die Ausgestaltung eines Amtes durch den Dienstherrn hat hier eine juristische Grenze.
Wir – und damit meine ich viele Männer – dürfen die Hauptlast der familiären Aufgaben nicht vorwiegend Frauen aufbürden. Alle Männer, die die Konfektionsgrößen ihrer Kinder nicht kennen, tun das. Also auch ich. Viele Frauen sind im System wegen der familienfreundlichen Anpassungsmöglichkeiten der Arbeitszeit und tragen aber gleichzeitig die volle Last des „Familienmanagements“, d.h. Lebensmodelle von Lehrerfamilien werden durch Reduktion der Teilzeitmöglichkeiten nicht unberührt bleiben können. Ich bin mir nämlich nicht so sicher, ob es wirklich viele Lehrkräfte gibt, die ohne eigene Kinder unter 18 Jahren oder pflegebedütftige Angehörige Stunden reduzieren. Die Ermittlung konkreter Zahlen dazu ist die SWK schuldig geblieben. 49% Teilzeitquote hört sich erstmal viel an, ja.
Vertrauen muss wieder default werden
Eltern müssen in Erziehungsfragen noch mehr als jetzt in Verantwortung gehen. Kooperation sollte Konfrontation stechen, auch wenn Erzieher:innen und Lehrkräfte die individuellen Bedürfnisse der eigenen Kinder zunehmend eher weniger als mehr erfüllen können. Sonst wird es bald deutlich weniger Menschen geben, die dazu bereit und auch noch in der Lage sind, individuell auf Kinder einzugehen. Ich möchte allen Eltern Mut machen, den Lehrkräften ihrer Kinder zu vertrauen. Wenn dieses Vertrauen gestört ist, gibt es taugliche Mittel (Gesprächstermin + ggf. dann weitere Eskalation) und weniger taugliche Mittel (Veröffentlichung von Korrekturen auf Socialmedia, Beschwerde bei der Schulbehörde als erste Reaktion) zur Lösungsanbahnung.
Ich möchte den Schulbehörden und Kultusministerien Mut machen, ihren Schulleitungen und Lehrkräften mehr oder anders zu vertrauen. Ziel muss Selbstständigkeit sein. Nur das trägt langfristig zur Arbeitsentlastung von Schulleitungen und Behörden bei. Kontrolle und Beratung mit dem Ziel der unbedingten Pflichterfüllung wird immer verunsichern. Verunsicherung zieht ein Bestreben nach Absicherung nach sich. Viele kleinteilige Nachfragen von vielen Kolleg:innen kann z.B. keine Schulleitung dieser Welt bewältigen.
Wenn etwas Öffentlichkeitswirksames schulisches Personal angeht, darf man schulischem Personal vertrauen und es VOR der Öffentlichkeit informieren. Neuerungen und Aufträge z.B. aus Pressemitteilungen zu erfahren stärkt an der Basis nicht die Autorität übergeordneter Behörden. Das ist schlicht optimierbarer Führungsstil. Ideal wäre natürlich eine Beteiligung der Basis an Entscheidungsprozessen, aber natürlich wenig realistisch.
Wo Menschen arbeiten, geschehen Fehler. Wo Menschen überlastet sind, überproportional viele. Man kann jetzt so tun, als bestünde die Möglichkeit, dass derartige Fehler im Prinzip immer wieder und überall vorkommen – obwohl sie statistisch kaum relevant sind – und für alle möglichen Spezialfälle, die selten eintreten, neue Vorgaben, Erlasse und Verordnungen generieren, die letztlich die Arbeit aller einschränken und erschweren – das kann sogar dazu führen, dass die Behörde bei Anfragen dann selbst nicht mehr durchblickt und letztlich auch mehr Arbeit hat.
Man kann aber auch darauf vertrauen, dass im Schulsystem in der Mehrzahl gut ausgebildete Menschen arbeiten, die die Ressourcen des Dienstherrn nicht absichtlich oder fahrlässig binden wollen. Und die Welt ist gemein: Es treten immer wieder Fälle ein, die unvorhersehbar waren. Und dann reagiert man wieder mit neuen Vorgaben, Erlassen und Verordnungen, die Arbeit aller erschweren? Vielleicht ist dieses Konzept selbst bedingt zielführend.
Menschen arbeiten gerne in Umgebungen, die ihnen etwas zutraut und die ihnen selbst vertraut. Und das Schulsystem muss attraktiver werden. Vertrauen als default bitte! (klappt bei Professor:innen und Richter:innen im Wesentlichen auch).
Reform der Ausbildung von Erzieher:innen und Lehrkräften
Eines vorweg und wieder umpopulär: Für die Sekundarstufe habe ich keine Lösung. Die scheint aber auch nicht so wichtig zu sein wie der Elementar- und Primarbereich, wenn Dinge wie Chancengleichheit und Anhebung des gesamten Bildungsniveaus einer Bevölkerung im Mittelpunkt stehen – da verlieren wir die Kinder wesentlich früher und das lässt sich auch kaum wieder aufholen, wenn ich die mir bekannten Studien richtig gelesen habe. Daher: Im KiTa- und Krippenbereich müssen wir die Ausbildungsqualität anheben. Das sollten zumindest vermehrt akademische Berufsbilder sein.
Im Primarbereich ist mir das Konzept eines dualen Studiums sehr sympathisch. Kooperation mit anderen Fachkräften kommt im Primarbereich im Berufsalltag deutlich öfter vor als in höheren Schulformen. Das bildet eine gute Grundlage für junge Menschen, die sich beruflich noch finden wollen und eine frühe Perspektive auf das, was Schule ausmacht. Und ein früher Einblick bietet Chancen, sich zu begeistern und auch fachlich im Studium Leistung zu bringen, aber auch frühe Chancen auf Umorientierung. So könnten Schulen von mehr klugen Köpfen im Alltag profitieren.
Die größte Entlastung für weiterführende Schulformen wären m.E. letztlich Menschen, die in der Mehrzahl lernoffen und selbstkompetent sind. Gleichzeitig könnte das das Arbeitsumfeld attraktiv machen, wenn junge Menschen uns dann anders fordern.
Fachkräfte zur Entlastung der Lehrkräfte von fachfremden Aufgaben?
Die fachfremden Aufgaben gibt es ja an Schulen formal nicht, weil für die Ausgestaltung des Lehrkräfteberufes der Grundsatz der Amtsangemessenheit gilt (s.o.). Die Vorschläge der SWK zur Entlastung von Lehrkräften in diesem Bereich bleiben mir verglichen mit den sehr konkreten Berechnungen zu Stundengewinnen durch Einschränkung von Teilzeitoptionen, Mehrarbeit und Co. etwas zu vage. Die Idee einer Korrekturassistenz ist ja wahrscheinlich auf den ersten Blick ganz nett, aber verkennt, dass hier viele Fragen offenbleiben – etwa die nach der Qualifizierung der beteiligten Personen und dem Aufwand für die notwendigen Kommunikationsprozesse.
Die Digitalisierung wird nach meinem Empfinden von der SWK noch zu stark mit technischem Fokus gedacht anstatt deren gesamtgesellschaftliche Implikationen in den Blick zu nehmen. Die Vorschläge zum Hybridunterricht erscheinen mit sehr stark durch klassische universitäre Lernsettings geprägt. Wie könnten Stellenbeschreibungen für Personal konkret aussehen, das Lehrkräfte nachhaltig entlasten soll? Wo werden die einzusetzenden Ressourcen erhoben und ebenso plakativ berechnet und mit Zahlen hinterlegt wie die zu erwartetenden Stundengewinne? (war wahrscheinlich nicht der „Auftrag“).
Und das Digitale?
Ach, ich glaube meine Gedanken dazu verkaufe ich besser wieder in Form eines kommerziellen Artikels :o)…
ChatGPT und Co. – der Versuch eines Blickes unter die Haube
Wenn man in sozialen Netzwerken über Sprachmodelle wie GPT‑3 liest, bleiben genau wie in den Feuilletons die meisten Analysen und Bewertungen auf der phänomenologischen Ebene stehen:
- Was kann ich im Unterricht damit machen?
- Was muss ich tun, damit ein Fehler in der Ausgabe auftritt?
- Welchen Einfluss werden Sprachmodelle auf die Schule der Zukunft haben?
- Warum sollten Sprachmodelle in der Schule nicht verboten werden?
- […]
Eine Analogie
Wenn ich mit Schulklassen das erste Mal mit Indikatoren im Chemieunterricht experimentiere, kommt es für viele zunächst nicht darauf an, warum ein Indikator eine bestimmte Farbe hat, sondern eher darauf, wie sich möglichst viele unterschiedliche Farben durch wahlloses Zusammenkippen erzeugen lassen. Ich könnte dabei in Anerkennung der individuellen Neugier Fragen stellen, die auf einem ähnlichen phänomenologischen Level wie die sozialen Medien zur Sprachmodellen diskutierten Fragen operieren.
- Durch welchen Mengenverhältnisse bekomme ich welche Farbe hin?
- Wie kann ich diese Farben außerhalb des Labors nutzen?
- Welchen Einfluss hat das neue Farbspektrum auf die Entwicklung neuer Wandfarben?
- Stellt diese Neuentwicklung nicht grundlegende Verfahren der Farbherstellung und des ästhetischen Empfindens in Frage?
Diese Fragen sind berechtigt. Aber eigentlich sind die Indikatoren z.B. ein Mittel, um sich generellen Stoffeigenschaften (sauer / alkalisch) auf einer phänomenologischen Ebene anzunähern, Gesetzmäßigkeiten zu entdecken und daraus weitere allgemeine Aussagen abzuleiten. Niemand käme hier auf die (didaktische) Idee, hier auf der Ebene der Phänomene stehenzubleiben oder Menschen auf Basis der bloßen Beobachtung dieser Phänomene etwas „vermitteln“ zu wollen.
Was ich selbst über Sprachmodelle weiß
Sprachmodelle erlebe ich zurzeit selbst auf einer phänomenologischen Ebene. Ich experimentiere mit Eingaben und unterschiedlichen Parametern herum. Ich weiß dennoch einiges über IT-Systeme, was mir ein wenig hilft, die Leistungen von Sprachmodellen einzuordnen. Ich möchte für mich durch diesen Text eher eingrenzen, was ich eigentlich noch nicht weiß, um daraus dann Fragen zu entwickeln, die etwas weg von den Phänomenen führen. Ich nutze dazu Kenntnisse, die ich im Rahmen meines Informatikstudiums auf Lehramt anders hineinvernetzte.
Ein Sprachmodell braucht eine Grammatik
Eine sehr simple Methode zur Beschreibung einer Grammatik ist die Erweiterte Backus-Naur-Form (ENBF). Selbst die genaue grammatische Definition einer Zahl ist schon gar nicht so einfach.
„Kennen“ muss ein Mensch oder IT-System dazu zunächst die in einer Sprache verwendeten Symbole (Terminale), wir verwenden in Deutschland die Zeichen 0–9 zur Darstellung von Zahlen, das sind also unsere Terminale.
ZifferAusserNull = "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9"; Ziffer = "0" | ZifferAusserNull
Damit haben wir definiert, welche Symbole unsere Sprache zur Darstellung von Zahlen verwendet. Das „|“-Zeichen ist als „oder“ zu lesen. Diese Definitionen können wir für alle weiteren als Platzhalter verwenden. Damit können wir jetzt eine natürliche Zahl definieren:
NatuerlicheZahl = ZifferAusserNull, { Ziffer }; NegativeGanzeZahl = "-", NatuerlicheZahl;
Der Ausdruck in geschweiften Klammern kann beliebig oft oder gar nicht vorkommen. Jetzt kann unsere „KI“ auf Basis dieser Grammatik ganze Zahlen mit Vorzeichen, aber keine Null erkennen.
Das geht aber mit dieser Definition:
Zahl = ([ "-" ], ZifferAusserNull, { Ziffer }) | "0" ;
Eine Zahl besteht aus einem optionalen Minuszeichen, gefolgt von einer Ziffer außer Null, gefolgt von beliebig vielen weiteren Ziffern (auch keiner weiteren Ziffer). Oder: Eine Zahl besteht aus dem Zeichen Null.
Bei Worten wird es schon schwieriger.
Wort = [A-Z], {a-z}
Ein Wort besteht aus mindestens zwei Symbolen aus dem Zeichenvorrat a‑z, wobei am Anfang auch der Symbolvorrat {A‑Z} stehen kann.
Dummerweise erfüllt jedes Fantasiewort beliebiger Länge genau diese Bedingung. An eine Definition von „Satz“ mag ich da gar nicht erst denken. Aber jedes Sprachmodell muss in einem ersten Schritt die Eingabe auf Basis von vorgebenen Regeln analysieren, bevor es intern weiterarbeiten kann.
Es wird aber auch schon jetzt klar, dass nicht grammatikkonforme Eingaben
- erkannt
- auf Fehler analysiert sind
Damit können insbesondere Rechtschreibfehler recht einfach korrigiert werden, indem auf Basis von z.B. Wahrscheinlichkeiten ein grammatikonformer Ersatz gesucht wird.
Ein Sprachmodell braucht eine Semantik
Bei uns im Handball wird eine Software für Spielprotokolle eingesetzt. Die Eingaben macht ein speziell geschulter Mensch (z.B. ich), der „Sekretär“ genannt wird. Ein solches Spielprotokoll sieht technisch etwa so aus:
00:59 TOR HEIM 01 1:0 01:02 GELB GAST 89 08:36 ZEIT GAST 89 08:45 TOR 7M HEIM 04 2:0
„Das erste Tor fiel für die Heimmannschaft nach 59s nach einem Foul des gegnerischen Spielers mit der Nummer 89. Es dauerte lange 7:34 Minuten, bis der nächste Treffer per 7m nach einem mit Zeitstrafe geahndetem Foul dem Spieler mit der Nummer 4 gelang.“
Mit dem Kontext „Handballspiel“ kann eigentlich auch jeder, der in der Halle nicht anwesend war, auf dieser Basis einen korrekten Spielbericht verfassen. Aus Metadaten wie der Zeit lassen sich auf Basis von Wahrscheinlichkeiten weitere Aussagen ergänzen, z.B. sind torlose sieben Minuten im Handball schon recht ungewöhnlich und es kommen dafür nur wenige Ursachen in Betracht. Die Textsorte „Bericht“ gibt grammatisch die zu verwendende Zeitform vor, die möglichen Verben in einem Sportbericht sind zudem begrenzt.
Ich glaube, dass man sich gut vorstellen kann, wie sich das Verfassen von Spielberichten vergleichsweise einfach mit einem IT-System umsetzen lässt, wenn es Regeln zur Umsetzung der Daten in eine Grammatik gibt. Der resultierende Text wirkt erst einmal authentisch, wenn er unsere Erwartungen an einen Sportbericht erfüllt. Das tut er wiederum, wenn bestimmte Formulierungen und Wortgruppen enthalten sind.
Ein Sprachmodell braucht Varianz
Mit einer Grammatik, ein per Daten und Kontext lassen sich schon Texte schreiben, aber nach ein paar Wochen im Sportteil würde uns dann doch die Lust beim Lesen vergehen. Ähnliche Eingaben würden immer wieder gleiche Formulierungen hervorbringen. Als „kreativ“ empfänden wir Texte, die immer wieder neue Formulierungsideen enthalten würden. Diese könnte man auch händisch in unser bisheriges Sprachmodell kippen, aber schöner wäre es ja schon, wenn das auch automatisiert ginge. Und da kommen neuronale Netze ins Spiel. Die Funktionsweise lässt sich am besten mit einer starken Vereinfachung erklären.
Dazu eine Geschichte: Es gab eine Zeit, in der in Supermärkten Waagen zum Selbstwiegen standen. Da musste man eine Taste mit z.B. einem Symbol oder einer Nummer für die aufgelegte Ware drücken und es kam ein Bon zum Aufkleben für die Kasse heraus. Es gab auch schon erste Waagen, die das aufgelegte Obst oder Gemüse bereits optisch erkennen konnten, aber trotzdem noch Tasten hatten, die auch gedrückt werden mussten.
Das IT-System hätte dabei z.B. aus diesen Komponenten bestehen können:
Eine Eingabeschicht:
- Eine Kamera, die ein hochauflösendes Bild von der aufgelegten Ware macht.
- Ein Gewichtssensor, der das Gewicht digital ermittelt.
- Eine Taste, die die Kundeneingabe weiterleitet.
Eine Verarbeitungsschicht:
- Ein Algorithmus, der aus dem Bild die Länge der aufgelegten Ware ermittelt („Neuron 1“).
- Ein Algorithmus, der aus dem Bild die Breite der aufgelegten Ware ermittelt („Neuron 2“).
- Ein Algorithmus, der die Bildpunkte der dominierenden Farbe der Ware zählt („Neuron 3“).
- Ein Algorithmus, der das Gewicht ins Verhältnis zur Größe setzt („Neuron 4“).
- Ein Algorithmus, der schaut, was der Kunde gedrückt hat („Neuron 5“)
Eine Ausgabeschicht:
- Ein Algorithmus, der auf Basis eines Schwellwertes und einer Datenbank einen Preis berechnet und einen Etikettendrucker ansteuert.
Beispiel 1:
Neuron 1: 15cm
Neuron 2: 4cm
Neuron 3: Dominierende Farbe ist gelb.
Neuron 4: Das Gewicht entspricht etwa 70% des äquivalenten Volumens an Wasser
Neuron 5: Apfel
„Der Kunde hat mich verarscht, das ist eine Banane!“
Das System gewichtet seine Messungen hier höher als die Kundeneingabe.
Beispiel 2:
Neuron 1: 12cm
Neuron 2: 6cm
Neuron 3: grün
Neuron 4: Das Gewicht entspricht etwa 80% des äquivalenten Volumens an Wasser
Neuron 5: Avocado
„Eigentlich blöd, könnte eine Limette oder eine Avocado sein. Ach, der Kunde wird ja nicht das billigere Zeug gedrückt haben, also eher eine Avocado.“
Das System gewichtet die Kundeneingabe in Verbindung mit einem Preisgefüge hier hoch, um zu entscheiden, welchen Bon es druckt. Es „entscheidet“ auf Basis von Daten, welche Parameter und Daten es wie gewichtet und „merkt“ sich beliebig viele z.B. uneindeutige Situationen und wie selbige aufgelöst wurden. Danach „kann“ es auf Basis von Daten „entscheiden“, welchen Bon es z.B. bei einer „nicht standardkonformen Avocado“ druckt.
Man kann diesen Prozess durch korrekte menschliche Eingaben beschleunigen und optimieren („Training“). Man kann – falls es einen anderen Rückkopplungskanal gibt – diese Systeme sich auch selbst optimieren lassen – bezogen auf Sprachmodelle könnte man als „Rückmeldekanal“ schauen, welche der generierten Texte per Copy&Paste verwendet wurden oder welche Texte wieder im Netz auftauchen.
Varianz „entsteht“ bei unserer Geschichte mit den Waagen durch unklare Situationen. Im Falle von Sprachmodellen kann Varianz durch spezielle „Neuronen“ künstlich erzeugt werden, die z.B. betrachten, welche Texte in einem Zeitraum schon generiert worden sind und dann „Schwellwerte“ anderer Neuronen „ändert“.
Was ein Sprachmodell von einem Menschen unterscheidet
Ein Sprachmodell erfüllt nur eine begrenzte Aufgabenstellung ganz besonders gut: Aus Eingaben Texte erzeugen, die für einen möglichst großen Teil von Menschen authentisch wirkt. Menschen sind in ihren Möglichkeiten, kreative Produkte zu erschaffen da nicht so arg begrenzt. Je mehr „Neuronen“ durch die Eingabe „getriggert“ werden, desto authentischer wird der Text sein. Daher ist es zumindest aus informatischer Sicht eine Binse, wenn Ratschläge kommen, ein Sprachmodell mit möglichst umfassenden Eingaben zu speisen.
Begrenzt sind Menschen jedoch bei der Aufnahme von Daten. ChatGPT bricht momentan öfter einmal zusammen, weil sehr viele Menschen das System gleichzeitig nutzen. Es gibt zwar keine bestätigten Zahlen, aber die Einheit „Millionen Anfragen pro Sekunde“ dürfte als Basis zunächst nicht falsch sein. Millionen Anfragen bedeuten aber auch Millionen „Feedbackkanäle“ zum „Training“ des neuronalen Netzes. Sprachmodelle können viel mehr Information bewältigen als ein einziger Mensch. Eigentlich ist ein Sprachmodell Borg. Wir nehmen die entstehenden Texte als Produkte _eines_ Systems wahr. Technisch gesehen sind es aber die Ausgaben eines Kollektivs. Der einzelne Borg agiert ja nicht individuell, sondern vermittelt der Figur, die mit ihm kommuniziert, lediglich den Anschein einer individuellen Kommunikation. Wenn diese Simulation hinreichend gut ist, lässt sie sich für einen relevanten Teil von Menschen nicht mehr von „echter“ Textproduktion durch Menschen unterscheiden. Mehr braucht es eigentlich nicht, um (wirtschaftlich) als Technologie erfolgreich zu sein.
Warum Sprachmodelle emotional wahrgenommen und diskutiert werden
Sprachmodelle sind nüchtern betrachtet nichtmaterieller Code auf irgendwelchen elektronischen Schaltkreisen. Ihre Ausgaben dringen aber erstmalig leicht benutzbar in einen Bereich vor, der für Gesellschaften prägend ist: Kommunikation. Gesellschaften konstituieren sich im Wesentlichen durch die Art, wie sie intern kommunizieren und über welche Leitmedien sie das tun. Sprachmodelle decken recht brutal auf, welche Texte einer Gesellschaft so einfach gestrickt sind, dass sie sich mühelos durch Ausgaben eines IT-Systems ersetzen lassen. Und das sind zum ganz wesentlichen Teil Gebrauchstexte, aber auch Texte von Menschen, die das Schreiben (in einer Fremdsprache) gerade lernen – also ein Großteil von Übungen, wie sie in Schulbüchern vorkommen. Das bedroht zentrale Vorstellungen, wie Bildung funktioniert und es bedroht Arbeitsroutinen in Bildungssystemen. In unserer Vorstellung waren diese Texte bisher nämlich durchaus nicht unterkomplex, sondern wichtige Zwischenstufen bei der Entwicklung von z.B. Schreibfertigkeiten.
Unterkomplexe Reaktionsmuster auf phänomenologischer Basis
Und es gibt aus meiner Sicht unterkomplexe Reaktionen darauf. Ein häufiger Reflex ist Freude darüber, dass nun endlich klar wird, wie „stupide“ Bildungsprozesse eigentlich sind und wir viel komplexere Aufgabenformate brauchen, z.B. die Bewertung der Ausgaben eines Sprachmodells und die Überarbeitung derselben. Ohne ein Wissen und ohne eigene entwickelte Schreibfertigkeit ist das gar nicht so ungefährlich. Im schlimmsten Fall gibt es eine Ausgabe, die dann vom Nutzenden an vermutete Erwartungen angepasst wird.
So wie der Schüler, der die Farbe eines Indikators so hinmischt, dass es auf eine Säure hindeutet, weil genau das ja auch auf der Flasche stand (und das Zeug sauer schmeckt) – es könnte aber auch eine ganz andere Säure oder eine falsch beschriftete Flasche gewesen sein. MIt Wissen darüber, wie ein Indikator funktioniert, werden in diesem Fall andere Fragestellungen möglich. Durch blinden Glauben an den Indikator eher nicht.
Rechtfertigungsdruck für tradierte Bildungsprozesse
Was auf jeden Fall geschieht und was für mich der eigentlich Gewinn dabei ist: Sprachmodelle zwingen mich dazu:
- Kritisch auf für selbstverständlich gehaltene Vermittlungsformen zu schauen
- Vermittlungsformen, die der Prüfung standhalten, vor der Lerngruppe explizit rechtfertigen zu müssen.
Wenn ChatGPT uns alles für eine Erörterung liefert, Herr Riecken, warum müssen wir dann noch selbst eine schreiben?
„Weil ich es so will und besser weiß, was gut für euch ist!“ könnte – auch als implizite Haltung – zukünftig etwas schwieriger werden – erstmal gar nicht so komfortabel.
Was ich nicht über Sprachmodelle weiß
Es hat bisher den Anschein, als seien Sprachmodelle wie GPT‑3 bisher ausschließlich mit Texten trainiert worde, die Menschen ausgewählt haben. Da kommen natürlich Fragen dazu auf, nach welchen Kriterien diese Trainingsdaten von wem ausgewählt worden sind.
Sprachmodelle sind in einem ersten Schritt zunächst nicht in die Lage versetzt worden, ihre Trainingsdaten „selbstständig“ aus dem Internet herauszuholen. Welche Gründe gibt es eigentlich dafür?
Sprachmodelle werden viele Gebrauchstexte ersetzen, die bisher Domänen von Menschen waren – etwa Sportberichte. Logisch zuende gedacht, werden bald wesentliche Teile einer (westlichen) Gesellschaft nicht mehr ihr Geld mit Schreiben verdienen können. Auch mein Blog kann mühelos von Ausgaben von Sprachmodell quantitativ an die Wand genagelt und z.B. in Suchmaschinen nicht mehr wahrnehmbar sein – mein Blog ist jetzt ein dämliches Beispiel, aber was bedeutet das insgesamt?
Wird es uns gelingen, nennenswerte Teile von Schüler:innen (und uns Lehrer:innen) dazu zu befähigen, das künftige Niveau von Sprachmodellen zu erreichen? Machen wir uns nicht ganz schön was vor mit der Annahme, dass große Teile der Schüler:innenschaft in der Lage sein werden, Ausgaben von Sprachmodellen „kritisch“ zu hinterfragen und zu überarbeiten, WENN uns gleichzeitig bewusst ist, dass das Niveau dieser Ausgaben eher qualitativ steigen wird?
Aufgaben abarbeiten – was die die beste Strategie?
Wir alle haben jeden Tag eine Fülle von Aufgaben zu erledigen. Einige bekommen das sehr gut hin und antworten z.B. immer schnell auf Anrufe oder E‑Mails, schreiben Konzepte oder Artikel in der vorgegeben Zeit und schaffen auch sonst sehr viel offenbar mit spielender Leichtigkeit. Andere verzetteln sich – man bekommt lange keine Rückmeldung oder muss ewig oft nachfragen.
Darin unterscheiden sich Menschen erstmal gar nicht so sehr von einem Hauptprozessor in einem Computer. Es stehen auch dort begrenzte Ressourcen zur Abarbeitung von Aufgaben zur Verfügung. Es gibt unterschiedliche Strategien, wie ein Betriebssystem mit Bearbeitungszeit „umgeht“. Das nennt sich dort „Scheduling“. Lässt sich davon vielleicht etwas lernen für den eigenen Alltag? Sind vielleicht sogar Alltagsüberlegungen mit in Betriebssystemarchitekturen eingeflossen?
Vier gängige Verfahren von sogenanntem „Task-Scheduling“ sind unten einmal visualisiert. Ich idealisiere in einem ersten Schritt einmal und nehme an, dass zu einem Zeitpunkt x sämtliche Aufgaben T für einen Tag bereits vorliegen. Die Aufgaben T1 bis T5 benötigen unterschiedliche Zeiteinheiten (E), um erledigt werden zu können. Die Wartezeit meines Gegenübers auf die Erledigung einer Aufgabe ist durch einen grünen Pfeil symbolisiert. Eine weitere Idealisierung besteht darin, dass während der gesamten Bearbeitungszeit keine Unterbrechungen auftreten.
Strategie 1: First in, first out
Dazu sortiere ich mir die Aufgaben nach der Zeit ihres Eintreffens. Die von Freitagabend kommen vor denen von Sonntagmittag, wenn ich am Montag im Büro sitze. Wir schauen uns jetzt mal die Wartezeiten an, die meine Gegenüber haben, wenn ich nach diesem Prinzip arbeite. Alle Wartezeiten (grüne Pfeile) addieren wir zusammen. Das sind in unserem ersten grafischen Beispiel 39 Zeiteinheiten.
Strategie 2: Shortest Processing Time First
Hier passiert eine wesentliche Änderung: Ich sortiere mir die Aufgaben so, dass ich zunächst das erledige, was schnell geht. Man sieht es schon an der Länge der Pfeile: Die durchschnittliche Wartezeit sinkt drastisch, d.h. mehr meiner Gegenüber erhalten schneller von mir eine Antwort (26 Zeiteinheiten). An einem Alltagsbeispiel: Wenn man an einer Supermarktkasse immer diejenigen mit wenigen Teilen vorlässt und keine neuen Kunden zur Warteschlange hinzukommen, sinkt im Mittel die Wartezeit für alle. Übrigens sind wir Menschen in der Vorhersage, wie schnell etwas geht, einer Maschine meist überlegen.
Zwischenbilanz
Ein kurze mittlere Antwortzeit ist oft genau das, was mich nach außen hin als „organisiert“ erscheinen lässt. Intuitiv würden Menschen mir für komplexere Aufgaben auch mehr Zeit zugestehen. Wenn ich aber eine ganz kurze Frage lange liegen lasse, gelte ich schnell als langsam. Einen Computer würden wir auch als langsam empfinden, wenn so etwas vermeintlich Banales wie die Maus über den Bildschirm ruckelt. Dass gleichzeitig z.B. das Video im Hintergrund schneller gerendert wird, erfassen wir intuitiv nicht. Wir sind aber immer noch äußerst idealisiert unterwegs.
Strategie 3: Highest Priority First
Am Alltag etwas dichter dran ist die Strategie, nach Prioritäten zu sortieren. Je dunkler die Aufgabe T in der folgenden Grafik ist, desto höher ist ihre Priorität. Wenn wir die gleichen Annahmen machen wie für die beiden ersten Strategien (z.B. alle Aufgaben liegen am Tagesbeginn vor), ist das Ergebnis für die mittleren Antwortzeiten drastisch schlecht, was natürlich aber auch mit am konkreten Beispiel liegt. In der Tendenz lässt sich das aber durchaus verallgemeinern.
Wir stellen durch diese Strategie zwar die wichtigsten Auftraggeber:innen schnell zufrieden, zahlen das aber mit dem relativ hohen Preis, dass umso mehr Menschen lange auf unsere Antwort warten müssen.
Strategie 4: Preemptive Highest Priority First
Damit wir auch mal den Gegenpol sehen am Schluss noch mehr Realismus mit der Zusatzannahme, dass Aufgaben unterschiedlicher Priorität zu unterschiedlichen Zeiten über den Tag hinzukommen. Aufgaben höherer Priorität unterbrechen dabei die Abarbeitung niedriger priorisierter Aufgaben. Diese werden dann fortgesetzt, wenn alle „höherwertigen“ Aufgaben erledigt sind. Das sieht erstmal gut aus, scheint ziemlich optimal zu sein und kommt der Realität vielleicht am nächsten, aber da stecken auch wieder starke versteckte Idealisierungen und Probleme drin.
- Es ist wahrscheinlich, dass niedrigpriorisierte Aufgaben während der Abarbeitung höherpriorisierter Aufgaben kommen und nicht wie in meinem fiktiven Beispiel gleich bearbeitet werden, weil sie immer gerade da sind, wenn nichts zu tun ist. Dadurch steigen die im Mittel erforderlichen Antwortzeiten (x+1).
- Jeder Aufgabenwechsel ist ressourcenmäßig teuer. Man muss sich jedesmal neu eindenken, vor allem, wenn eine komplexe Aufgabe unterbrochen wird. Auch ein Betriebssystem muss Zustände von Prozessen sichern und wiederherstellen. Das kostet Rechenzeit.
- Immer neue Aufgaben mit hoher Priorität können Aufgaben mit niedriger Priorität verdrängen, sodass sie gar nicht mehr bearbeitet werden. Bei Betriebssystemen spricht man davon, dass Prozesse verhungern, im Alltag bleiben Verwaltungarbeiten gerne mal liegen – so wie Korrekturen (deren Priorität steigt aber mit der Zeit automatisch von alleine …).
Wie mache ich das?
Ich kombiniere SPF und PHPF. SPF sorgt dafür, dass Antwortzeiten kurz sind, PHPF lässt mich gegenüber für mich wichtigen Personen „gut“ dastehen. Weiterhin versuche ich, indirekte Kommunikationssituationen zu vermeiden. Wenn ich merke, dass jemand etwas für einen anderen bei mir lösen möchte, lasse ich die Anfrage entweder bewusst verhungern oder versuche, eine direkte Kommunikation zu etablieren. Indirekte Kommunikationssituationen sind sehr teuer, weil man die Bedürfnisse mehrerer Personen mitdenken muss.
Weiterhin vermeide ich in Arbeitsphasen Unterbrechungen bzw. versuche Menschen klar zu machen, wie problematisch Unterbrechung sind (spontanes Vorbeikommen, Telefonanrufe). Als Ausgleich schaffe ich Phasen, in denen ich klar signalisiere: „Ich bin bereit für ‚Wo ich dich gerade sehe …‘ “. Irgendwas an uns ist ja dann schon anders als bei einem Betriebssystem …
Lehrkräfte gewinnen – Lehrkräftemangel überwinden
Unterrichten ist ein toller Beruf
Lehrkraft ist ein toller Beruf. Ich gehe mit einigen Stunden nach den Sommerferien zurück in den Unterricht, weil mir in den vergangenen Jahren das Unterrichten sehr gefehlt hat. Ich werde mit meiner geringen Stundenzahl nicht oder kaum mit den Widrigkeiten konfrontiert sein.
Das Lehrkraftsein ist in Deutschland sehr gut bezahlt. Frauen und Männer werden gleich vergütet. Durch die Verbeamtung winken wirklich auskömmliche Pensionen bei einem rundrum sicheren Job. Rechnet man die Persionsleistungen mit ein, müssen in der freien Wirtschaft erhebliche Jahresgehälter zur Bedienung der privaten Altersversorge erwirtschaftet werden, um dann auf ein ähnliches Lohniveau zu kommen. Beamte mit Kindern unter 18 Jahren können ihre Arbeitszeit sehr flexibel gestalten, für allen anderen wurde über Jahre die flexible Reduktion von Stunden ermöglicht, soweit „dienstliche Gründe“ nicht entgegenstanden.
Es gibt aus unterschiedlichen Gründen auch angestellte Lehrkräfte. Da sieht es deutlich schlechter aus. Vor allem bei der Bezahlung, den Aufstiegsmöglichkeiten innerhalb des Schulsystem und der Rente.
Wir haben einen eklatanten Mangel an Lehrkräften in allen Schulformen. An Gymnasien sieht es noch vergleichsweise gut aus. Zukünftig wird sich dieser Mangel immens verschärfen. Irgendwas scheint nicht zu stimmen, obwohl die Arbeitsbedingungen sicher und gut sind.
Zwei Arbeitsverträge
Jeder Mensch hat zwei Arbeitsverträge.
Der eine regelt das Formale. Wie viel Geld gibt es für welche Arbeit? Wie sieht es mit der Vereinbarkeit von Arbeit und Beruf aus? Wie kann ich meine Arbeitszeit an meine momentane Lebenssituation anpassen? Wie viel Urlaub steht mir zu?
Dieser erste Arbeitsvertrag ist von außen sichtbar. Im Lehrer:innenberuf für alle – selbst die Entlohnung auf den Cent genau. Die Ferienzeiten. Daran entzünden sich mit steter Regelmäßigkeit die üblichen Klischeediskussionen von „nachmittags frei“ und „12 Wochen Urlaub“. Da sollen die Lehrkräfte auch etwas für leisten – so die einhellige Meinung.
Der andere Arbeitsvertrag regelt das Ideelle: Kann ich sinnstiftend arbeiten? Erfahre ich Unterstützung und Anerkennung? Welche Hierarchien gibt es und wie lebt Leitung diese? Erreiche ich Ziele? Werde ich den Menschen in meinem beruflichen Umfeld gerecht? Welche Erwartungen stellt die Gesellschaft an mich?
Dieser zweite Arbeitsvertrag ist von außen nicht sichtbar. Defizite in diesem Bereich lassen sich sehr oft durch eine entsprechende Kompensation im ersten Arbeitsvertrag ausgleichen. Aber das hat Grenzen. Grenzen äußern sich darin, dass ein Beruf nicht mehr angewählt oder verlassen wird – im Lehrer:innenberuf gar nicht so selten durch „innere Kündigung“.
In diesem Stadium wirken Anreizsysteme finanzieller Art nicht mehr – eher wird sogar bewusst auf Geld verzichtet, um den ideellen Arbeitsvertrag sinnstiftend ausgestalten zu können.
Das politische Dilemma
Man hat sich aus meiner Sicht politik- und behördenseitig über Jahre darauf verlassen, dass man mit dem formalen Arbeitsvertrag – vor allem mit der Beamtung – schon hinreichend punkten wird, um immer genügend Lehrkräfte auf dem freien Markt zur Verfügung zu haben. Lange Zeit war das auch so. Das kippt aber – übrigens auch ganz ohne die aktuelle Flüchtlingskrise, die katalysiert das Problem „nur“.
Wahlweise mag auch der eine oder die andere Politiker:in darauf gesetzt haben, dass sich die Herausforderung zumindest teilweise durch Digitalisierung löst. Das klappt auch so bedingt. Und jetzt steht man da.
Die politische Lösung sieht dann oft so aus, dass man Geld bereitstellt und in diesem Fall Kultusbeamt:innen den Auftrag erteilt, mit diesem Geld dafür zu sorgen, dass das Problem weggeht oder es nach außen zumindest so aussieht, als würde man etwas dafür tun, dass das Problem weggeht.
Hierarchische Systeme neigen dann dazu, darauf zu schauen, wie man an dem formalen Arbeitsvertrag (z.B. „Bonuszahlungen“) so schrauben kann, dass mehr Menschen kommen bzw. diejenigen bleiben, die schon im System sind. Das Problem liegt aber gar nicht auf der formalen Ebene.
Alternativ kann man die bisher kulanten Teilzeitregelungen beschneiden oder beamtenrechtliche Mittel wie die Abordnung oder Versetzung nutzen, um Personalressourcen besser auszunutzen. Beides dürfte aber zu Lasten des ideellen Arbeitvertrages gehen und das Problem in ziemlich kurzer Zeit ziemlich verschärfen. Aber: Wir werden diese Maßnahmen meiner Meinung nach sehen.
Alles, was man kurzfristig tun kann, verschärft das Problem. Sinnvollere Maßnahmen wirken nicht rechtzeitig vor der nächsten Wahl oder sind wahlweise nicht „öffentlichkeitsgängig“. Mit symbolträchtigen öffentlichkeitsgängigen Maßnahmen werden im besten Fall knappe Ressourcen nicht sinnvoll gebunden.
Was also tun?
Menschen bleiben in einem Beruf, den sie für sich als sinnstiftend erleben – das ist meine Überzeugung. Daher kann der Weg nur über den zweiten Arbeitsvertrag führen.
Warum schauen wir nicht einmal ganz kritisch auf das Referendariat? Ich war erstaunt, was für einen schlechten Ruf diese Ausbildungsphase insgesamt bei meinen Student:innen hatte. Wir sollten diese Wahrnehmung wirklich ernst nehmen, auch unsere eigene … Vielleicht hilft schon das Angebot(!) einer externen(!) freiwilligen(!) Supervision, um Wahrnehmung einzuordnen.
Warum machen wir es gerade Berufsanfänger:innen am Anfang nicht etwas leichter, indem wir das Deputat zeitlich begrenzt senken? Natürlich verschenken wir dadurch Unterrichtsstunden, aber welche Lehrkraft ist besser für das System: Diejenige, die nicht da ist oder diejenige, die zumindest 80% arbeitet? (Ich weiß, dass das rechtlich schwierig ist – aber Recht lässt sich gestalten).
Schulformen ohne die Möglichkeit(!) des Erwerbs eines Abiturs werden gesellschaftliche Probleme akkumulieren. Immer. Wir sollten dringend davon wegkommen und eine echte Zweigliedrigkeit ins Auge fassen. Es hat Gründe, warum insbesondere an Ober- und sonstigen „Mittelschulen“ der Lehrkräftemangel eklatant ist.
Die verschiedenen Hierarchiebenen im Schulsystem müssen ihre Wirklichkeiten abgleichen und erfahren. Behördenmitarbeiter:innen sollten verbindlich im Fünfjahresturnus an Schulen z.B. im Büro eingesetzt werden. Ministeriumsmitarbeiter:innen sollten in Kontakt mit Schule und Unterricht kommen, z.B. in Form von Hospitationen. Lehrkräfte sollten Verfahren in Schulbehörden hautnah durch Hospitationen erleben könnten oder es sollte niederschwellige Fallbespechungen mit unterschiedlichen Hierachieebenen geben. Wir brauchen dringend gegenseitige Einblicke in die Arbeit.
Wir sollten uns als Gesellschaft fragen, in welchem Verhältnis persönliche Bedürfnisse und Lebensentwürfe zu der Erfüllung des Allgemeinwohls stehen. Der Lehrer:innenberuf ist wie kein anderer einer, der im Allgemeinwohl dienen sollte. Das bringt bestimmte Einschränkungen im persönlichen Umfeld mit sich, die aber an anderer Stelle kompensiert werden – z.B. durch den formalen Arbeitsvertrag im Falle der Verbeamtung.
Das löst die momentane Herausforderung nicht
Nein. Nichts davon löst das. Wir müssen Untericht kurzfristig wahrscheinlich tatsächlich streichen und damit das Problem „öffentlichkeitsgängig“ machen. Das ist eine politische Bankrotterklärung. Aber der Glaube, langfristig entstandene Probleme durch kurzfristige Maßnahmen lösen zu können, ist bestenfalls naiv – ebenso die Absicht, konkret „Verantwortliche“ für das Dilemma benennen zu wollen. Dann weiß man zwar, dass es an Herrn Meyer und Frau Schulze liegt, aber das Problem ist ja immer noch da.