Основной контент книги #74 Как работает Search Engine под капотом: ранжирование и релевантность | Рауф Алиев
Podkast

Buraxılış müddəti 1 s. 37 dəq.

2026 il

16+

#74 Как работает Search Engine под капотом: ранжирование и релевантность | Рауф Алиев

Podkast haqqında

Сегодня у меня в гостях Рауф Алиев — человек, который варится в поиске уже четверть века. Он начинал с самописного inverted index в начале 2000-х, когда всё приходилось изобретать руками, и дошёл до современных гибридных систем — с векторным поиском, трансформерами и рекомендациями поверх всего этого.

Мы обсудили, как вообще устроен полнотекстовый поиск: что такое inverted index на практике, зачем нужен BM25, почему важно учитывать длину документа, что дают proximity и exact match. Отдельно разобрали, почему фасеты — это не совсем «поиск», как работают стемминг и лемматизация, зачем иногда хранить и нормализованный, и оригинальный текст, и почему работа с разными языками — это отдельная инженерная боль.

Потом ушли в гибридные модели: как смешиваются ключевые слова, query expansion, синонимы и векторные представления. Поговорили о том, почему векторный поиск лучше понимает смысл, но хуже объясняет свои решения, и как LLM можно использовать не для болтовни в чате, а как инструмент, который превращает человеческий запрос в понятные системе фильтры.

Ну и, конечно, обсудили качество. Что такое precision, recall, NDCG на практике, как собрать свой ground truth и как сравнивать конфигурации поиска без мучительных A/B-экспериментов на пользователях. И почему почти всегда, улучшая одну метрику, ты неизбежно просаживаешь другую — и с этим просто приходится жить.

Полезные ссылки:
https://testmysearch.com/my-books.html

Подписывайтесь на канал «Организованное программирование» в Telegram: https://ttttt.me/orgprog
– Список подкаст-платформ (Apple Podcast, Google Podcast, Spotify, Яндекс.Музыка и другие): https://podcast.ru/1734325321

Telegram-канал Организованного Программирования: https://t.me/orgprog
Хекслет Клуб в Telegram https://t.me/HexletClubBot
Курсы по программированию — начни учиться уже сегодня: https://ru.hexlet.io/courses

#программирование #разработка  #кириллмокевнин  #подкаст  #организованноепрограммирование #поисковыесистемы #invertedindex #векторныйпоиск

Как работает Search Engine под капотом: ранжирование и релевантность

(00:00) - Введение. Поиск сложнее, чем вы думаете - 25 лет опыта за 2 часа (01:07) - От Сфинкса до Elastic: как менялся рынок поисковых систем (06:00) - Теория или практика? Как правильно входить в сложные системы (14:42) - Как SEO и маркетплейсы ломают алгоритмы (19:55) - SEO началось с манипуляций: как PageRank всё изменил (31:12) - Архив за 100 лет и гибридный поиск на практике (44:05) - Гибридный поиск — будущее индустрии (01:01:04) - Транслитерация и языковые ловушки (01:13:53) - Как искать Go или C и не сломать поиск (01:21:54) - LLM как ревизор поисковой системы (01:28:19) - Локальные поисковики против Google (01:32:21) - Китайский без пробелов и другие языковые боли (01:36:45) - Заключение. Поиск — это компромисс между математикой и бизнесом ★ Support this podcast ★
Son yeniləmə:
15 fevral 2026
Podkast nədir?
Daxil olun, kitabı qiymətləndirmək və rəy bildirmək üçün
Yaş həddi:
16+
Litresdə buraxılış tarixi:
15 fevral 2026
Yazılma tarixi:
15 fevral 2026
Müddət:
1 s. 37 dəq. 07 san.
Naşir:
Кирилл Мокевнин
Hüquq müəllifləri:
Автор, Кирилл Мокевнин
Yükləmə formatı:
1x