heise+ | Large Language Models testen mit EVALs – Qualität messbar machen (Heise Online)
Warum das Testen von LLMs schwer ist: Sie sind nicht deterministisch. Gleicher Input kann unterschiedliche, teils faktisch falsche Outputs erzeugen. Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output,