KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update – ein heise-Podcast - En podkast av Isabel Grünewald, heise online

Prøv Podimo gratis i hele 60! dager!

I Podimo finner du eksklusive podkaster og bestselgende lydbøker tilpasset dine ører

Kategorier:

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind. heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

Visit the podcast's native language site