Технологии

Дата публикации: 12.06.2025 12:00

Яндекс выпустил Yambda: крупнейший в мире открытый датасет для развития AI-рекомендаций

Российский технологический гигант Яндекс совершил значительный шаг в развитии искусственного интеллекта, представив миру беспрецедентный набор данных для совершенствования рекомендательных систем. Датасет под названием Yambda (Yandex Music Billion-Interactions Dataset) содержит почти 5 миллиардов обезличенных взаимодействий пользователей со стриминговым сервисом Яндекс Музыка и теперь доступен мировому сообществу разработчиков.

Почему это важно для развития искусственного интеллекта

Несмотря на стремительное развитие больших языковых моделей, прогресс в области рекомендательных систем значительно замедлен из-за отсутствия доступа к масштабным массивам данных. Существующие наборы данных, такие как Million Playlists от Spotify или Netflix Prize, имеют серьезные ограничения по объему и структуре, что не позволяет создавать по-настоящему эффективные алгоритмы, работающие в реальных условиях.

“Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которыми коммерческие платформы редко делятся с исследовательским сообществом”, — отмечается в сообщении Яндекса. Именно этот разрыв призван устранить Yambda.

Что содержит крупнейший в мире датасет для рекомендаций

Датасет Yambda представляет собой настоящую сокровищницу для исследователей и разработчиков:

  • 4,79 миллиарда обезличенных пользовательских взаимодействий, собранных за 10 месяцев
  • Данные от 1 миллиона пользователей, взаимодействующих с 9,39 миллионами треков
  • Два типа обратной связи: неявная (прослушивания) и явная (лайки, дизлайки)
  • Векторные представления треков (эмбеддинги), созданные с помощью свёрточных нейронных сетей
  • Уникальный флаг is_organic, позволяющий различать действия, инициированные пользователем, и действия, предложенные рекомендательной системой
  • Точные временные метки всех событий для анализа поведенческой динамики

Особенно ценным является наличие флага is_organic, который позволяет разделять действия пользователей на органические (когда пользователь сам находит контент) и те, что были вызваны работой рекомендательной системы. Эта особенность открывает новые возможности для исследования эффективности алгоритмов рекомендаций.

Универсальный инструмент для разных областей

Хотя датасет основан на данных музыкального сервиса, его значение выходит далеко за рамки музыкальной индустрии. Согласно заявлению Яндекса, Yambda может стать “универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео”.

Датасет доступен в трёх вариантах — полном (около 5 миллиардов событий), среднем (500 миллионов) и малом (50 миллионов), что делает его пригодным для использования на различных вычислительных мощностях и для разных исследовательских задач.

Инновационный подход к оценке алгоритмов

Помимо самих данных, Яндекс предлагает методологию Global Temporal Split (GTS) для оценки качества алгоритмов. В отличие от традиционного подхода Leave-One-Out, GTS предполагает разбивку данных по времени, что позволяет сохранить естественную последовательность событий и обеспечивает более реалистичное тестирование моделей.

Для сравнения новых подходов Яндекс предоставил бейзлайны, полученные при тестировании популярных алгоритмов рекомендаций: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Оценка производилась по стандартным метрикам, включая качество ранжирования (NDCG@k), способность генерировать релевантные рекомендации (Recall@k) и разнообразие контента (Coverage@k).

Кому выгоден выпуск Yambda

Датасет представляет ценность для различных категорий пользователей:

  • Исследователи смогут разрабатывать и тестировать новые алгоритмы рекомендаций в условиях, максимально приближенных к реальным
  • Стартапы с ограниченными собственными данными получат возможность масштабировать свои системы и протестировать их на большом объеме реальных взаимодействий
  • Компании смогут совершенствовать собственные рекомендательные системы, ориентируясь на высокие стандарты эффективности

Выпуск датасета Yambda знаменует новый этап в развитии технологий рекомендаций и демонстрирует лидерство Яндекса в области открытых исследований искусственного интеллекта. Датасет уже доступен на платформе Hugging Face, что делает его доступным для мирового сообщества исследователей и разработчиков.

По мере того как всё больше сервисов и платформ внедряют персонализированные рекомендации, значение таких открытых инициатив будет только возрастать, способствуя появлению более точных, разнообразных и этичных алгоритмов рекомендаций.

Писали по этой теме

Rage bait признан словом года Оксфордским словарём: что это значит для соцсетей

Оксфордский словарь признал словом года rage bait — термин о манипуляциях в сетях.

2.12.2025 00:57

QazCode и MeetKai запустят локализованные AI-сервисы для стран VEON

QazCode привлекла MeetKai к локализации AI-моделей для стран VEON

27.11.2025 08:15

Слова года 2025: как нейросети и мемы меняют русский язык

В шорт-лист слов 2025 года вошли термины о нейросетях, мемах и психологии.

27.11.2025 05:13

Выставку в Иране с «роботами» разоблачили: актёры вместо технологий

Участников выставки в Иране выдали за роботов, что вызвало скепсис гостей.

27.11.2025 03:02

Starlink начал оказывать услуги спутникового интернета в Казахстане

Starlink начал оказывать услуги спутникового интернета в Казахстане

26.11.2025 08:44

Dreame Matrix10 Ultra: новый робот-пылесос с автоматической сменой швабр в Казахстане

Dreame Matrix10 Ultra дебютировал в Казахстане с автоматической сменой швабр.

26.11.2025 04:58

ИИ в Казахстане: кто и зачем использует цифровые сервисы

Большинство молодых казахстанцев используют ИИ для учебы, работы с текстами и поиска информации.

24.11.2025 07:26

Борьба с «белыми пятнами» связи: опыт Beeline и акиматов в городах РК

Beeline и акиматы объединяют усилия для ликвидации «белых пятен» мобильной связи в Казахстане.

24.11.2025 06:55

В Казахстане разрешили полностью автономные системы искусственного интеллекта

Полностью автономные системы ИИ теперь разрешены в Казахстане — меняется регулирование рынка.

20.11.2025 10:42

OpenAI устранила проблему с длинными тире в ChatGPT

OpenAI устранила проблему с частым использованием длинных тире в ChatGPT

17.11.2025 10:23

ТОП-7 умных городов мира по версии Smart City Index 2025

ТОП-7 умных городов мира по рейтингу Smart City Index 2025: лучшие стратегии развития

16.11.2025 03:29

Жительница Японии вышла замуж за ИИ-бота: как устроена виртуальная свадьба

Жительница Токио заключила символический брак с ИИ-ботом, созданным с помощью ChatGPT.

11.11.2025 12:14