Пн-Пт 9:30-18:00

Новый алгоритм от Яндекса – «ПАЛЕХ»

Новый алгоритм «Палех» от Яндекса, используя нейронные сети, помогает программе лучше понимать, о чем спрашивают люди, и находить необходимые веб-страницы.

Каждый, кто хоть раз пользовался поисковиком, сталкивался с проблемой отсутствия нужной информации. Иногда это происходит из-за того, что сама система не понимает, что от неё хотят.

Ежедневно Яндекс отвечает на миллионы запросов. Частотное распределение можно представить в виде птицы. «Клюв» - это самые популярные запросы пользователей. Средней частоты - «Туловище». И запросы, которые встречаются достаточно редко, но совместно образуют один громадный поток — это «Хвост». Из-за своей масштабности, поток напоминает хвост Жар-птицы, который часто изображен на Палехской миниатюре. Собственно, название из этого и возникло.

В свою очередь, всех людей-пользователей можно разделить на несколько групп:

  • те, у кого четко поставлен вопрос (напр., «Купить дом Воронеж недорого»);
  • те, кто общается с поисковиком, как с человеком ( напр., «Подскажите, в какой книжный клуб записаться, чтобы интересно было?»);
  • те, кто точно не знает, что ему нужно, но пытается объяснить (напр., ищет фильм/книгу описывая сюжет).

И этот «каждый» мечтал о том, чтобы его поняли. Новый алгоритм, как раз таки, позволяет лучше находить информацию по запросу вне зависимости от группы принадлежности человека-пользователя.

Поисковик, используя нейронные сети, лучше находит нужную информацию, которая соответствует запросам не только по ключевым словам, но и по смыслу.

Нейронные сети — это один из методов машинного обучения. Проще говоря, благодаря им, система научилась распознавать нужную веб-страницу с необходимом контентом, картинкой, звуком.

Как это работает?

Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Таким образом, каждое число — это определённая координата по одной из двух осей, а каждая веб-страница просто соответствует точке на данной координатной плоскости.Такой способ обработки называется семантическим вектором. Представляя веб-страницу в трёхсотмерном пространстве и используя данный вектор, система способна находить необходимый запрос.

Но это еще не придел возможностей и есть над чем работать.

Основная цель разработчиков - создание моделей, способных «понимать» соответствие запросов и документов, сравнимых с уровнем человека.