В современном интернете более 630 миллионов сайтов, но лишь 6% из них содержат русскоязычный контент. Языковой барьер — главная проблема распространения знаний между пользователями сети, и мы верим, что решать её нужно не только обучением иностранным языкам, но и с помощью автоматического машинного перевода в браузере. И сегодня мы расскажем о двух важных изменениях в Яндекс.Браузере, которые привели к значительному росту качества перевода веб-страниц.
Гибридный переводчик слов и фраз
Яндекс.Браузер — единственный популярный браузер, который умеет переводить не только страницы целиком, но и отдельные слова и фразы. Эта функция особенно удобна для тех пользователей, кто достаточно хорошо владеет иностранным языком, но сталкивается с незнакомыми словами.
Раньше переводчик Яндекс.Браузера использовал исключительно статистический метод перевода слов и фраз. Это значит, что переводчик самостоятельно обучался на большом количестве статей и их переводов. Но этот метод не учитывает природу слов и связи между ними, из-за чего результат перевода мог выглядеть неестественно. Обычно эту проблему решают с помощью нейронных сетей, которые помогают учитывать взаимосвязи между словами. Но и у них есть недостаток — с переводом редких слов нейросети могут не справиться. Поэтому новый переводчик Яндекс.Браузера объединяет достоинства обоих методов и использует гибридную модель перевода.
Когда Браузер получает от пользователя текст, он отдаёт его на перевод обеим системам — и нейронной сети, и статистическому переводчику. Затем специальный алгоритм оценивает, какой перевод лучше. Перевод, признанный лучшим, показывается пользователю.
Нейросетевой переводчик веб-страниц
У иностранных публикаций в сети много особенностей. Например, в английских заголовках большинство слов пишется с большой буквы. Кроме того, английские заголовки часто представляют собой длинные фразы с упрощённой грамматикой, в которых некоторые слова опущены, а у некоторых не очевидна часть речи. Например, Game of Thrones prequel announced. Для их перевода не подходит переводчик, обученный на обычных текстах.
Другой тип текста на веб-страницах — навигационные элементы. Они выполняют служебные функции: открывают меню, возвращают пользователя на предыдущий экран или добавляют товар в корзину. Эти надписи также следует переводить с учётом их расположения. Например, слово «back» на кнопке сайта следует переводить как «назад», а не «отступать» или «спина».
Чтобы учесть эти особенности, мы взяли нейросетевую модель перевода, которая используется в Яндекс.Переводчике и уже обучена на огромном массиве текстов разных форматов, и дополнительно обучили её на веб-страницах. Теперь Браузер смотрит, где расположен текст и как он оформлен, определяет его тип — навигационный элемент, заголовок или основной текст — и учитывает это при переводе.
Как это повлияло на качество?
Для оценки качества перевода мы используем общепризнанный в индустрии алгоритм BLEU*, который сравнивает переводы, выполненные машиной и профессиональным переводчиком, и оценивает качество машинного перевода по шкале от 0 до 100%. Чем ближе машинный перевод к человеческому, тем выше процент. Согласно этому алгоритму, новый Яндекс.Браузер переводит в 1,7 раза лучше, чем раньше.
Новая технология перевода в Яндекс.Браузере 18.6.0 работает не только точнее, но и быстрее, так как переводится не вся страница целиком, а только та часть, которую сейчас видит пользователь.
Более подробно о новой технологии мы рассказываем на Хабре: https://habr.com/company/yandex/blog/415637/