Bewertung & Ablauf¶
Diese Seite erklärt, wie ein Test abläuft und wie die Bewertung entsteht.
Der Ablauf eines Tests¶
flowchart TB
A["📝 Die KI erhält die<br>Beschreibung der Anlage"] --> B{Fehlen Angaben?}
B -- "ja" --> C["❓ KI fragt nach<br> Das Oracle antwortet"]
B -- "nein" --> D["🏗️ KI baut die Anlage"]
C --> D
D --> E["🔍 Die gebaute Anlage wird<br>mit der Referenz verglichen"]
E --> F["📊 Drei Bewertungen<br>in Prozent"]
Schritt für Schritt:
- Aufgabe lesen: Die KI erhält die Beschreibung (Text oder Skizze).
- Nachfragen (nur bei unvollständigen Aufgaben): Fehlt etwas, darf die KI das
Oracle fragen. - Anlage bauen: Die KI generiert den Python-Code, mit dem PyADM1ODE die Anlage aufbaut.
- Vergleichen: Die so gebaute Anlage wird mit der Referenz (der richtigen
Anlage) verglichen. - Bewerten: Daraus entstehen drei Bewertungen in Prozent.
Die drei Bewertungen¶
Das Ergebnis wird aus drei Blickwinkeln betrachtet. Jede Bewertung ist ein Prozentwert zwischen 0 % und 100 %.
-
1. Struktur
Sind die richtigen Bauteile vorhanden und richtig verbunden? Beispiel: Fließt der Gärrest vom Fermenter in den Nachgärer und das Biogas zum Blockheizkraftwerk?
-
2. Maße
Stimmen die Größen und Werte – etwa Volumen, Temperatur oder die Leistung des Blockheizkraftwerks? Geprüft wird mit einem Toleranzbereich, kleine Abweichungen sind also erlaubt.
-
3. Lücken
Ist die KI mit fehlenden Angaben richtig umgegangen? Hat sie nachgefragt oder plausibel ergänzt, statt einfach einen falschen Wert zu erfinden?
Was zählt – und was nicht¶
Damit die Bewertung fair und aussagekräftig bleibt, werden einige Dinge bewusst nicht mitgewertet:
- Namen sind egal: Die KI darf Bauteile anders benennen. Verglichen wird nach
Art des Bauteils (Fermenter, Pumpe …), nicht nach dem Namen. - Substrate werden nicht bewertet: Welche Stoffe gefüttert werden, fließt nicht
in die Wertung ein, es geht allein um den Aufbau der Anlage. - Schwerster Fehler: Einen unplausiblen Wert still zu erfinden, statt
nachzufragen, wird am stärksten abgewertet.
Hinweis zu Skizzen-Aufgaben¶
Aufgaben mit Skizze (Bild) können nur von KI-Modellen gelöst werden, die Bilder verstehen. Ein reines Text-Modell kann eine Skizze nicht „sehen" und würde solche Aufgaben zwangsläufig mit 0 % bewertet bekommen.