Основной контент книги Podlodka #433 – Как оцениваются LLM
Podkast

Buraxılış müddəti 1 s. 27 dəq.

2025 il

12+

Podkast haqqında

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт. Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Евгений Кателла, Егор Толстой Полезные ссылки: Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.co/datasets/allenai/winogrande https://huggingface.co/datasets/Idavidrein/gpqa https://lastexam.ai/ https://www.swebench.com/ https://arcprize.org/arc-agi https://github.com/t3dotgg/SnitchBench Арена https://lmarena.ai/ Фреймворк для эвалов https://github.com/EleutherAI/lm-evaluation-harness Бумаги https://arxiv.org/abs/2504.07825 https://arxiv.org/abs/2311.12022 https://arxiv.org/abs/2406.12045 Тех репорты с таблицами https://www.anthropic.com/news/claude-4 https://ai.meta.com/blog/llama-4-multimodal-intelligence/ https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro https://openai.com/index/introducing-o3-and-o4-mini/

Son yeniləmə:
15 iyul 2025
Podkast nədir?
Audio
Средний рейтинг 4,1 на основе 1104 оценок
Audio
Средний рейтинг 4,8 на основе 140 оценок
Mətn, audio format mövcuddur
Средний рейтинг 4,1 на основе 169 оценок
Mətn, audio format mövcuddur
Средний рейтинг 4,8 на основе 1476 оценок
Mətn
Средний рейтинг 4,9 на основе 1682 оценок
Mətn, audio format mövcuddur
Средний рейтинг 4,7 на основе 515 оценок
Mətn, audio format mövcuddur
Средний рейтинг 4,8 на основе 1697 оценок
18+
Mətn
Средний рейтинг 4,9 на основе 146 оценок
Audio
Средний рейтинг 4,9 на основе 33 оценок
Mətn, audio format mövcuddur
Средний рейтинг 4,7 на основе 433 оценок
Daxil olun, kitabı qiymətləndirmək və rəy bildirmək üçün
Yaş həddi:
12+
Litresdə buraxılış tarixi:
15 iyul 2025
Yazılma tarixi:
15 iyul 2025
Müddət:
1 s. 27 dəq. 44 san.
Hüquq müəllifləri:
Автор, Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Yükləmə formatı:
1x