Новости Яндекс.Браузера

Яндекс.Браузер применил искусственный интеллект для перевода веб-страниц

Пост в архиве.

В современном интернете более 630 миллионов сайтов, но лишь 6% из них содержат русскоязычный контент. Языковой барьер — главная проблема распространения знаний между пользователями сети, и мы верим, что решать её нужно не только обучением иностранным языкам, но и с помощью автоматического машинного перевода в браузере. И сегодня мы расскажем о двух важных изменениях в Яндекс.Браузере, которые привели к значительному росту качества перевода веб-страниц.

Гибридный переводчик слов и фраз

Яндекс.Браузер — единственный популярный браузер, который умеет переводить не только страницы целиком, но и отдельные слова и фразы. Эта функция особенно удобна для тех пользователей, кто достаточно хорошо владеет иностранным языком, но сталкивается с незнакомыми словами.

Раньше переводчик Яндекс.Браузера использовал исключительно статистический метод перевода слов и фраз. Это значит, что переводчик самостоятельно обучался на большом количестве статей и их переводов. Но этот метод не учитывает природу слов и связи между ними, из-за чего результат перевода мог выглядеть неестественно. Обычно эту проблему решают с помощью нейронных сетей, которые помогают учитывать взаимосвязи между словами. Но и у них есть недостаток — с переводом редких слов нейросети могут не справиться. Поэтому новый переводчик Яндекс.Браузера объединяет достоинства обоих методов и использует гибридную модель перевода.

Когда Браузер получает от пользователя текст, он отдаёт его на перевод обеим системам — и нейронной сети, и статистическому переводчику. Затем специальный алгоритм оценивает, какой перевод лучше. Перевод, признанный лучшим, показывается пользователю.

Нейросетевой переводчик веб-страниц

У иностранных публикаций в сети много особенностей. Например, в английских заголовках большинство слов пишется с большой буквы. Кроме того, английские заголовки часто представляют собой длинные фразы с упрощённой грамматикой, в которых некоторые слова опущены, а у некоторых не очевидна часть речи. Например, Game of Thrones prequel announced. Для их перевода не подходит переводчик, обученный на обычных текстах.

Другой тип текста на веб-страницах — навигационные элементы. Они выполняют служебные функции: открывают меню, возвращают пользователя на предыдущий экран или добавляют товар в корзину. Эти надписи также следует переводить с учётом их расположения. Например, слово «back» на кнопке сайта следует переводить как «назад», а не «отступать» или «спина».

Чтобы учесть эти особенности, мы взяли нейросетевую модель перевода, которая используется в Яндекс.Переводчике и уже обучена на огромном массиве текстов разных форматов, и дополнительно обучили её на веб-страницах. Теперь Браузер смотрит, где расположен текст и как он оформлен, определяет его тип — навигационный элемент, заголовок или основной текст — и учитывает это при переводе.

Как это повлияло на качество?

Для оценки качества перевода мы используем общепризнанный в индустрии алгоритм BLEU*, который сравнивает переводы, выполненные машиной и профессиональным переводчиком, и оценивает качество машинного перевода по шкале от 0 до 100%. Чем ближе машинный перевод к человеческому, тем выше процент. Согласно этому алгоритму, новый Яндекс.Браузер переводит в 1,7 раза лучше, чем раньше.

Новая технология перевода в Яндекс.Браузере 18.6.0 работает не только точнее, но и быстрее, так как переводится не вся страница целиком, а только та часть, которую сейчас видит пользователь.

Более подробно о новой технологии мы рассказываем на Хабре: https://habr.com/company/yandex/blog/415637/

78 комментариев
stanishevskysemyon
3 июля 2018, 11:19
Здравствуй Дорогой Яндекс! Когда будут большие изменения в браузере и появится новая бета 18.6.2 или что-то другое типо этого??
stanishevskysemyon,


Что вы подразумеваете под большими измерениями?
У Яндекс браузера и так самые большие изменения среди всех браузеров на рынке.
Ни у кого нет такого количества изменений
Dickinson,
 По какому критерию оценка? По доступным чейнжлогам у Firefox изменений куда больше. Другой вопрос, что значительная их часть связана не с новым функционалом, а с улучшением работы того, что есть, повышением безопасности итд.


Я все еще жду когда Яндекс темную тему сделает...
Евгений Осипов
3 июля 2018, 15:51
v1nx,
хмм, не задумывался об этом раньше, а было бы здорово!
Обновлено 3 июля 2018, 15:51
stanishevskysemyon
3 июля 2018, 20:54
Dickinson,
А вы прочтите ещё раз, большие изменения это есть и большие изменения, как к примеру ночной режим чтобы ночью сидеть. Не вам ли объяснять это? Неужели вы не поняли этого сразу?
Удалённый пользователь
4 июля 2018, 05:39
v1nx,
да-да, тёмной темы капец как не хватает
Тимур
Сотрудник Яндекса4 июля 2018, 12:12
stanishevskysemyon,
обновление переводчика – куда бОльшее изменение, чем ночной режим. 
stanishevskysemyon
4 июля 2018, 13:33
Тимур,
Допустим я с вами соглашусь,только с одной поправкой. Почему когда вышел релиз яб 18.6.0 (или была бета не столь важно) об этой новости не было ни слова ??Что можете сказать об этом?
Тимур
Сотрудник Яндекса5 июля 2018, 11:16
stanishevskysemyon,
потому что в момент релиза новый переводчик ещё был выключен – мы его удаленно включили для этой версии. 
stanishevskysemyon
8 июля 2018, 07:07
Тимур,
Почему вы его выключали? И неужели нельзя было его оставить включенным?
Тимур
Сотрудник Яндекса11 июля 2018, 09:29
stanishevskysemyon,
кого его? Мы же его и включили. 
А когда можно попробовать ? 
Тимур
Сотрудник Яндекса4 июля 2018, 12:20
Oleg Odolsky,
уже работает. 
А пользовательские переводы на что-то влияют? Вообще, это как-то учитывается или только машинное обучение?
Тимур
Сотрудник Яндекса4 июля 2018, 12:18
Андрей,
влияют. 
Хорошая новость. Скажите, а есть шанс что в боте-переводчика тоже появится искусственный интеллект?
Тимофей Х
3 июля 2018, 12:00
В вашем встроенном переводчике есть несколько минусов:
Во-первых, в нём нельзя отменить перевод страницы, пока она будет переведена до конца. Эта проблема тратит время и интернет пользователя.
Во-вторых, когда нажимаешь "показать оригинал", иногда ничего не изменяется. Приходится снова переводить и отменять.
В-третьих, получается очень неудобно, когда читаешь материал по программированию, а браузер переводит сам код. Сделайте, например, чтобы он не переводил текст, написанный моноширинным шрифтом.
И, в-четвертых, он переводит текст, который набирает сам пользователь. При этом, например, вместо "hi " он напишет "привет " и поставит курсор между "и" и "в". Это очень неудобно.
Надеюсь, вы как можно скорее устраните эти недочёты.
Обновлено 3 июля 2018, 12:00
Тимофей Х
3 июля 2018, 12:05
А ещё он при переводе, например, с английского может заменить "English" на "Русский"
Тимур
Сотрудник Яндекса4 июля 2018, 12:17
Тимофей Х,
спасибо, будем улучшать. 
Ютуб, Инстаграм, Фейсбук, Твиттер, магазин расширений и еще пол интернета не переводится.
Тимур
Сотрудник Яндекса3 июля 2018, 12:22
Ярослав,
в каком смысле? 
Ярослав,
Полагаю, это из-за того, что  в этих сайтах стоит защита от кликджекинга, которая не позволяет загружать сайт в iframe, в котором должен отображаться перевод. этот недостаток есть и у Google Переводчика.
Обновлено 3 июля 2018, 13:09
Тимур,
Нажимаешь "Перевести на русский" и ничего не происходит.
Хром переводит всё.
Тимур,
я имел ввиду не интерфейс сайта, а комментарии, посты, описания расширений и пр. 
Тимур
Сотрудник Яндекса4 июля 2018, 12:15
Ярослав,
да, с такими сайтами чуть сложнее из-за того, что контент на странице может быть из разных языков. Будем улучшать. 
Данил Батин
3 июля 2018, 12:41
Когда ИИ научится делать тёмную тему и другие важные вещи - тогда и поговорим
Ernest Karapetyan
3 июля 2018, 12:55
А почему больше не подсвечивается сайт, котоый ты посещал?
Тимур
Сотрудник Яндекса3 июля 2018, 13:46
Ernest Karapetyan,
это где такое? :) 
Ярослав Янович
3 июля 2018, 13:26
Это относится только к переводчику в браузере или вообще сайту яндекс переводчика. Я просто использую его API для перевода сайтов ?
Тимур
Сотрудник Яндекса3 июля 2018, 14:22
Ярослав Янович,
через API это пока недоступно. 
Здравствуйте. Появится ли лайт версия яндекс браузера для iOS и Desktop?
Тимур
Сотрудник Яндекса4 июля 2018, 12:16
kolenval77,
пока не решили. 
Тимур,
Очень хотелось бы, чтобы решили, потому что на iPhone Яндекс Браузер жрёт батарею нещадно.
Удалённый пользователь
10 июля 2018, 05:42
kolenval77,
дико плюсую, достал этот мусор (протект, алиса)
Андрей Ишутин
3 июля 2018, 14:16
Не по теме, но по работе браузера.)
На сайте с сериалами, который в Огненной Лисичке воспроизводит видео, браузер Вашей копании показывает только "файл не найден".

Manjaro Linux актуальная версия. Браузер 18.6.0.2253_1-2 из AUR + ffmpeg codecs. ЯБ чистый, только установленный, без переноса данных из Огнелиса и каких-либо настроек. Огнелис с расширениями и многомесячным использованием.

Что с Вашим браузером не так?
Тимур
Сотрудник Яндекса3 июля 2018, 14:34
Андрей Ишутин,
может сайт отдает нашему браузеру не то? Напишите, пожалуйста, в поддержку. Посмотрим. 
Алексей Лозовягин
3 июля 2018, 15:07
на Linux будет сборка браузера?
Алексей Лозовягин
3 июля 2018, 15:16
Алексей Лозовягин,
просто сейчас последняя версия для linux это 18.6.0.2253-1 там нет алисы, экономии заряда и прочих фич
Тимур
Сотрудник Яндекса3 июля 2018, 15:21
Алексей Лозовягин,
но переводчик уже есть :) 
Антон Валерьевич
3 июля 2018, 15:17
Почему по разному переводятся одни и те же предложения в режиме полностраничного перевода и перевода выделенных фраз?
Вот пример: https://blog.torproject.org/egypt-internet-censorship
Просто ткнул пальцем в небо и на тебе, в первом е предложении "The report uncovers anomalies on Egyptian networks, including censorship and the hijacking of unencrypted HTTP connections for advertising." если переводить страницу целиком получается "Доклад раскрывает аномалии на египетских сетей, в том числе цензуры и угон незашифрованные http-соединения для рекламы.", а если выделить курсором то переводит нормально, "В докладе раскрываются аномалии в египетских сетях, включая цензуру и угон незашифрованных HTTP-соединений для рекламы."
Обновлено 3 июля 2018, 15:21
Тимур
Сотрудник Яндекса4 июля 2018, 12:14
Антон Валерьевич,
разные модели перевода. 
Антон Валерьевич
4 июля 2018, 14:44
Тимур,
а почему так? Один продукт, а модели разные. Это всегда так будет, или поправят?
Тимур
Сотрудник Яндекса5 июля 2018, 11:15
Антон Валерьевич,
постраничный переводчик учитывает структуру страниц, а пословный нет. Поэтому и результаты могут быть разные. 
Поработайте над переводчиком. Он переводит выражение How-to как "Как-к",хотя помоему это обозначает "инструкцию". Сам сайт, переводчик очень хорошо переводит, особенно в начале, под конец страницы он уже переводит слегка коряво... Но вы молодцы, стало намного лучше!
Обновлено 3 июля 2018, 15:38
Ночной Странник
3 июля 2018, 21:56
vetrov,
Может переводчик у яндекса не идеальный но всяко лучше гугловского...
Тимур
Сотрудник Яндекса4 июля 2018, 12:13
vetrov,
спасибо, передал коллегам. 
Ernest Karapetyan
3 июля 2018, 20:32
Почему вы еще не на уовне гугл пееводчика? Вот он пееводит куда более понятнее. Когда от Яндекса дать такоже? Сколько он будет обучаться?
Удалённый пользователь
4 июля 2018, 05:36
Ernest Karapetyan,
когда вы научитесь писать правильно?
Ernest Karapetyan
4 июля 2018, 06:36
заедает клавиатуа. Не все буквы аботают. И почему когда?

Ernest Karapetyan
4 июля 2018, 09:45
Тимур,
я часто сижу на иностанных сайтах, гугл пееводчик лучше и понятнее пееводит.
Ernest Karapetyan
4 июля 2018, 09:48
Тимур,
http://www.tacklewarehouse.com/Shimano_Bantam_MGL_Casting_Reel/descpage-CBAN.html - вот гугловским попобуйте и яндексом.
Тимур
Сотрудник Яндекса4 июля 2018, 12:11
Ernest Karapetyan,
 можно найти примеры в пользу любого переводчика :) Конечно же, мы регулярно сравниваем своё качество с другими сервисами. В среднем мы не хуже. 


Обратите внимание, что новый переводчик мы выкатили только что, поэтому прежний опыт учитывать не стоит.
Ночной Странник
6 июля 2018, 13:16
Тимур,
Интересно а сотрудники яндекса писали тотальный диктант  по русскому языку ? =))
https://www.ghisler.com/ страница не переводится.
Тимур
Сотрудник Яндекса4 июля 2018, 11:55
kolenval77,
у меня перевелась. Напишите нам, пожалуйста, через поддержку
А есть надежда, что переводчик когда-нибудь научится и синтаксис переводить? Чтобы у нас не "Игра Престолов приквел объявил" получилось, а "Объявлен приквел Игры Престолов".

Тимур
Сотрудник Яндекса5 июля 2018, 11:17
Андрей,
но ведь оно уже так. 
А зачем изменили размер шрифтов в панели закладок и во вкладках?
теперь все огромное и несуразное....
Как-то можно эти шрифты вернуть к прошлому виду?
когда то был переводчик встроенный в адр. строку, по мне так удобней.
https://yadi.sk/i/Yntyi7C33YmNBp
Владимир З.
4 июля 2018, 20:52
Яндекс Браузер всё лучше и лучше. А доля всё падает и падает (судя по Яндекс Радару). Странно и обидно :(
 почему у меня нету буквs А (переводчика) в адресной строке?
Тимур
Сотрудник Яндекса6 июля 2018, 08:50
Егор Б.,
а переводчик предлагает перевести страницы? 
Не знаю баг или нет, при просмотре на ютубе видео в отдельном окне, установив громкость на одном уровне (отличном от 100%), при автоматическом переходе на следующее видео (в плейлисте) меняется громкость на 100%, что при просмотре в наушниках не очень приятно. А главное эта проблема или фича с тех пор, как появилась возможность просматривать видео в отдельном окне. Это исправить возможно?
Вчера удалил бету, т.к. изменений в ней не происходит, по этому смысла в ней не вижу.
Установил стабильную, версия 18.6.1.757 - изменений куча)


Сайты на табло синхронизировались не полностью, в результате эти закладки просто пропали.


Следующие настройки (были отключены) также небыли синхронизированы:


- Отображать адреса страниц в Умной строке в виде домен - заголовок
- Показывать Дзен
- Выделять цветом вкладку
- Информер матчей чмпф
- Открывать найденные в Яндексе сайты в одной вкладке с результатами поиска
- Показывать на новой вкладке иконку голосового помощника Алиса
- Настройки содержимого - Уведомления
- Улучшать точность Дзена и качество рекламы..
Тимур
Сотрудник Яндекса11 июля 2018, 09:30
Виталий,
это в бете-то нет изменений? Очень смешно :) 
Тимур,
Тоже поржал, когда поставил стабильную сборку и увидел новые пункты в настройках, которые в бете отсутствовали. Если бы бета обновлялась, то и смеху было бы меньше.
А на счёт остального нечего сказать? - Ну да ладно уже триханул техподдержку:)
Евгений Тарасов
7 июля 2018, 20:24
Молодцы, что тут ещё сказать, так держать!
Здравствуйте. Данные изменения в переводчике очень понравились, перевод и правда стал лучше, спасибо. Думаю, мы не будем ограничиваться этими 43,7% и обязательно когда-нибудь настигнем 100%. Удачи вам в дальнейших исправлениях и улучшений переводчика, да и Яндекс.Браузера в целом :)
Обновлено 9 июля 2018, 20:44
еще бы сделали возможность менять цвет серой панели вкладок и адресной строки, цены бы не было. Серый скучный.
Обновлено 11 июля 2018, 10:41
Добрый день, можно ли переводить лишь отдельные слова. Было бы очень удобно иметь такой функционал как у популярных extentions переводчиках. выделяешь слово и всплывает предложение перевода его

shooshpanov,
Можно и уже давно. По ссылке скриншот и там показано.

https://yadi.sk/i/l9s6egO43Z7cNP
Обновлено 13 июля 2018, 00:53
Александр
17 июля 2018, 18:08
Как писали уже некоторые сайты сразу не определяет, что нужен перевод, например твиттер. Тогда для перевода нужно открыть меню, затем дополнительно, затем перевести на русский, затем так как ничего не произошло выбрать в меню переводчика перевести с другого языка, выбрать скажем английский и только тогда увидеть перевод .
А не нельзя ли добавить эту кнопку переводчика принудительно в умную строку или рядом, чтобы она там появлялась не только когда браузер посчитал, что язык другой. Это было бы удобнее.  
эта технология работает на странице translate.yandex.ru или она вшита только в браузер?
Владислав
29 июля 2018, 13:53
helowey,
не так давно эта технология появилась только на translate.yandex.ru, теперь и в браузере.
Витя Такашов
16 августа 2018, 09:52
Здравствуй Яндекс добавьте пожалуйста просмотрщик двух сайтов одновременно.