Ваша мышка проехала метров
До скидки 5% осталось м
Ваш промокод на скидку

Новый фактор ранжирования Яндекс: нейротехнология YATI

09.12.2020

Сравнительно недавно компания Яндекс официально заявила о внедрении в алгоритм работы своей поисковой системы новой нейросетевой архитектуры, которая будет оказывать прямое влияние на процесс ранжирование сайтов. Это обновление можно с уверенностью назвать ключевым событием этого года, а сама компания Яндекс анонсирует его, как наиболее важный апдейт за последние 10 лет.

Что же изменилось в привычном для многих поисковом алгоритме и как провести изменения своего ресурса? Сегодня мы детально остановимся на новом факторе ранжирования под названием Yet Another Transformer with Improvements. Более того, мы рассмотрим не только основные принципы работу алгоритма, но и расскажем, как подготовить свой сайт к предстоящему нововведению и не сделать ошибок в процессе внутренней оптимизации.

YATI – уникальная технология анализа текста

Произошло то, к чему компания Яндекс шла долгие годы. Компания официально внедрила в поисковый алгоритм нейросетевую архитектуру под названием Yet Another Transformer with Improvements, которая принимает прямое участие в ранжировании сайтов. Технология подобного типа обеспечивает лучшую оценку поисковой системы смысловой связи между запросом пользователя и предлагаемым ему документом, точнее его содержимым.

Специалисты компании Яндекс утверждают, что изменения стали крайне существенным. Более того, алгоритм по их мнению стал новым прорывом, который можно сравнить разве что с запуском Матрикснета. Сразу стоит сказать, что технология получилась дорогой. Чтобы реализовать все на практике, требуется использование огромного количества GPU карточек, которые связаны между собой на физическом уровне в одну плату при использовании для этого шины. Размещение сервером также должно быть друг возле друга, а шина используется обязательно большой толщины. Связь между серверами обеспечивается сетью.

Сначала мы кратко постараемся описать принцип работы нововведения, а после рассмотрим все части более детально. Поисковые запросы и соответственно открываемые пользователи по данным запросам подаются в трансформеры. Поисковая система Яндекс использует в своей работе понятие эталонного документа, который появился благодаря анализу текстов со стороны асессоров. Данный анализ включал в себя оценку релевантности текста на предмет интента пользователя, руководствуясь при этом определенной шкалой оценивания. В результате документы, которые прошли экспертную разметку получили статус эталонных. Данные эталонные документы используются в качестве исходных данных для обучения трансформеров.

После этого инженеры поисковой системы обучили трансформер угадывать оценку асессоров. Это обеспечивает дополнительное обучение трансформеров ранжированию страниц по любым ключевым словам. В качестве завершения обучения проводится анализ относительно качества получаемого поиска. Исходя из проведенных исследований удалось определить, что внедрение данной технологии в тестовом режиме позволило вывести поисковую выдачу на новый уровень качества. Теперь, когда мы определились с общими принципами работы нового алгоритма, стоит более детально рассмотреть детали.

Работа поиска до внедрения YATI и после

Для начала стоит определить, что основная задача поисковой системы заключается в оценке смысла поискового запроса пользователя и в последующей выдачи ему релевантного его запросу документа из индекса. Чтобы решить подобную задачу поисковый алгоритм проводит математические вычисления ключевых слов запроса, сопоставляя их с контентом на странице. Аналогичный принцип работы отмечается и при учете поведенческих факторов, которые поисковый робот берет из своего индекса. Получаемое большое количество кликов на страницу уведомляет поисковую систему о релевантности документа относительно определенного поискового запроса.

Также поисковая система предполагает использование множества эвристических алгоритмов. На практике количество данных алгоритмов крайне большое, ведь даже для банального подсчета количества общих слов в документе используется несколько десятков алгоритмов. Именно благодаря таким алгоритмам удается расширить исходный поисковый подход, для чего был использован следующий подход:

  1. Слова, которые присутствуют в поисковом запросе, могут отличаться между собой написанием, но при этом сходится по смысловой нагрузке;
  2. Вместо первоначального запроса можно учитывать запрос, который был написан иначе, но при этом отражает первоначальный смысл.

Поисковая система находит подобные схожие по смыслу запросы самыми разными методами, среди которых стоит отметить использование логов запросов. Нейросети-трансформеры Основную роль в нейросетях нового поколения от поисковой системы Яндекс играют трансформеры, которые анализируют текст страницы следующим образом: Обработка каждого блока текста; Представление текстовой составляющей отдельным вектором.

Таким образом можно сделать простой вывод, что новый механизм оценки текста может выделить среди множества символов отдельный блок, в котором присутствует нужная пользователю информация относительно его первоначального поискового запроса. Остальной контент, который присутствует на конкретной странице, полностью сохраняет за собой влияние на выдачу, но степень его влияния будет снижена. Процесс обучения сети YATI осуществляется по следующему основному алгоритму:

  • Первый этап обучения предполагает работу сети с текстом, который оказывает влияние на ранжирование сайта;
  • Следующим этапом является дополнительное обучение, для чего используются более простые толокерские оценки релевантности;
  • После этого идут оценки асессоров, которые являются более авторитетными, сложными и дорогими;
  • Завершающим этапом является обучение на итоговой метрике, что позволяет также оценивать качество выдачи.

Важно отметить, что обучение свойств языка позволяет в полной мере решить задачу Masked Language Model.

Подготовка сайта к алгоритму YATI

Первоначально стоит отметить, что внедрение YATI в систему поискового ранжирования предполагает плавное перераспределение трафика. Преимущественно трафик плавно будет переходить к более крупным сайтам, которые одновременно являются более авторитетными источниками в глазах поисковых систем. Как уже упоминалось ранее, ранжирование сайтов при использовании трансформеров обеспечивает новый уровень качества. Это обеспечивает извлечение полезной информации из любых текстов. Логика подразумевает необходимость делать упор на качестве при создании страницы, а не делать акцент на количество посадочных.

Среди основных рекомендаций можно отметить следующие пункты:

  1. Расширение семантического ядра;
  2. Добавление в текст документа релевантных фраз, которые берутся из поисковых подсказок;
  3. Проверка внутреннего поиска, после чего полученные ключевые слова необходимо добавить в структуру страницы.

Важно отметить важность добавления НЧ и СЧ фраз при оптимизации контента на странице. Это обеспечивает существенный прирост трафика на страницу и повышает ее видимость в поисковых системах. В качестве дополнительного инструмента можно использовать сервисы аналитики, из которых собираются трафиковые ключевые слова и грамотно внедряются в текст сайта.

Заключение

В качестве итога стоит отметить, что новая система Яндекса окажет существенное влияние на поисковую выдачу ближайшие годы. Основная задача нового фактора ранжирования заключается в детальном анализе соответствие поискового запроса и текста относительно их смысловой нагрузки. Новый алгоритм способен:

  • Проводить анализ не только короткого содержания, но и достаточно длинных текстов на странице;
  • Определять наиболее важные части текстовой составляющей;
  • Учитывать не только порядок слов, но и контекст.

Использование метода обучения трансформеров позволяет улучшить смысловую связь между интентом пользователя и содержанием документа, что на практике существенно улучшает качество поисковой выдачи. В целом можно выделить необходимость продолжать улучшать свой сайт и более внимательно подойти к теме контента. При создании контента уделите больше внимания сегментации контента, разделяя его на блоки.

Создание семантического ядра должно осуществляться максимально глубоко, то есть необходимо учитывать похожие запросы, а также уделять внимание так называемым LSI словам. Мы рекомендуем начинать анализ контента своих сайтов уже сегодня, отслеживая при этом степень внедрения алгоритма в структуру ранжирование. Следуя рекомендациям Яндекс можно подготовить свой сайт к данному нововведению, не теряя трафик.