Uma coletânea curada dos benchmarks mais significativos para comparar LLMs, visão, áudio e capacidades de agentes.