Bewertung & Ablauf¶

Diese Seite erklärt, wie ein Test abläuft und wie die Bewertung entsteht.

Der Ablauf eines Tests¶

flowchart TB
    A["📝 Die KI erhält die<br>Beschreibung der Anlage"] --> B{Fehlen Angaben?}
    B -- "ja" --> C["❓ KI fragt nach<br> Das Oracle antwortet"]
    B -- "nein" --> D["🏗️ KI baut die Anlage"]
    C --> D
    D --> E["🔍 Die gebaute Anlage wird<br>mit der Referenz verglichen"]
    E --> F["📊 Drei Bewertungen<br>in Prozent"]

Schritt für Schritt:

Aufgabe lesen: Die KI erhält die Beschreibung (Text oder Skizze).
Nachfragen (nur bei unvollständigen Aufgaben): Fehlt etwas, darf die KI das
Oracle fragen.
Anlage bauen: Die KI generiert den Python-Code, mit dem PyADM1ODE die Anlage aufbaut.
Vergleichen: Die so gebaute Anlage wird mit der Referenz (der richtigen
Anlage) verglichen.
Bewerten: Daraus entstehen drei Bewertungen in Prozent.

Die drei Bewertungen¶

Das Ergebnis wird aus drei Blickwinkeln betrachtet. Jede Bewertung ist ein Prozentwert zwischen 0 % und 100 %.

1. Struktur

Sind die richtigen Bauteile vorhanden und richtig verbunden? Beispiel: Fließt der Gärrest vom Fermenter in den Nachgärer und das Biogas zum Blockheizkraftwerk?
2. Maße

Stimmen die Größen und Werte – etwa Volumen, Temperatur oder die Leistung des Blockheizkraftwerks? Geprüft wird mit einem Toleranzbereich, kleine Abweichungen sind also erlaubt.
3. Lücken

Ist die KI mit fehlenden Angaben richtig umgegangen? Hat sie nachgefragt oder plausibel ergänzt, statt einfach einen falschen Wert zu erfinden?

Was zählt – und was nicht¶

Damit die Bewertung fair und aussagekräftig bleibt, werden einige Dinge bewusst nicht mitgewertet:

Namen sind egal: Die KI darf Bauteile anders benennen. Verglichen wird nach
Art des Bauteils (Fermenter, Pumpe …), nicht nach dem Namen.
Substrate werden nicht bewertet: Welche Stoffe gefüttert werden, fließt nicht
in die Wertung ein, es geht allein um den Aufbau der Anlage.
Schwerster Fehler: Einen unplausiblen Wert still zu erfinden, statt
nachzufragen, wird am stärksten abgewertet.

Hinweis zu Skizzen-Aufgaben¶

Aufgaben mit Skizze (Bild) können nur von KI-Modellen gelöst werden, die Bilder verstehen. Ein reines Text-Modell kann eine Skizze nicht „sehen" und würde solche Aufgaben zwangsläufig mit 0 % bewertet bekommen.