BenCzechMark är den första och mest omfattande utvärderingssviten för att bedöma stora språkmodellers (LLM) förmågor inom det tjeckiska språket. Den testar modellernas förmåga att resonera och utföra komplexa uppgifter på tjeckiska, generera grammatiskt och semantiskt korrekt tjeckiska, extrahera information och lagra kunskap genom att svara på frågor om tjeckisk kultur och tjeckiskrelaterade fakta. BenCzechMark innehåller 50 uppgifter inom 9 kategorier, där 90% av uppgifterna har inhemskt, icke-översatt innehåll. En unik poängräkningsmetod introduceras där modellerna "duellerar" mot varandra för att beräkna en slutgiltig poäng baserad på statistisk signifikans. Leaderboarden presenteras där Llama-405B tar förstapriset, men andra modeller utmärker sig inom specifika kategorier.