Думаю, каждый знает, что советский гражданин Петр Петрович Смирнов–Троянский еще в 1933 году сделал заявку на свое изобретение — «машину для автоматического производства нуждающихся только в литературной обработке готовых печатных переводов с одного языка одновременно на ряд других языков». Одновременно с ним другой французский армянин разработал схему «Механического мозга» для перевода произвольного слова на другой язык, а чуть позже, в 1937 году, даже показал какой–то прототип системы. Понятно, как оно тогда работало, но начало же было положено. И вот уже 2014 год на дворе, а мы все еще смеемся над результатами машинного перевода. Почему?

 

Казалось бы, все просто: грамматику мы в школе учили, раз–раз и поместим все правила в компьютер. На практике оказалось, что правила, которым учат в школе, неполно и нечётко описывают многообразие того, что приходится переводить. И вот все желающие заняться автоматическим переводом, вооруженные большим теплым ламповым компьютером, натолкнулись на необходимость додумывать за лингвистов всякие правила. Со временем появились добровольцы, которые принялись моделировать процессы понимания и порождения речи, но процесс слегка затянулся, ибо там моделировать и моделировать.

То, что получалось, делали приблизительно так: брали входной текст, разбирали, строили какое–то дерево зависимостей, отображали в такое же дерево другого языка, превращали дерево в текст.

То, что получалось, делали приблизительно так: брали входной текст, разбирали, строили какое–то дерево зависимостей, отображали в такое же дерево другого языка, превращали дерево в текст.

Тем временем, компьютеры становились быстрее, в память умещалось больше данных, и инженерным умам начало казаться, что лингвисты не нужны. Дух того времени передает фраза, приписываемая одному чеху из той же компании IBM: «каждый раз, когда я увольняю лингвиста, качество распознавания речи улучшается» (хотя он, конечно, потом много лет от неё отнекивался).

Приблизительно в то же время стрельнуло другое направление автоматизации работы переводчика — переводческая память. Для тех, кто не знает, переводческая память — это такая база данных уже переведенных предложений. При переводе нового предложения переводчику предлагается подставить из этой базы данных перевод идентичного или очень похожего предложения. Идея была так хороша, что использование переводческой памяти все еще является стандартом де факто в техническом переводе и задало такой высокий порог скорости работы технического переводчика, что большинству переводческих агентств даже сейчас вкладываться в освоение технического машинного перевода просто экономически бессмысленно.

Картинка, хоть и не имеет отношения к переводу, во многом отражает сложность предложений, на которых показывали качество работы тех, теплых ламповых, систем, ибо над каждой системой трудилась сотня–другая лингвистов, стоило это все немало, и приходилось как–то отчитываться о результатах.

Такой машинный перевод называется переводом по правилам, и стоит упомянуть, что такие системы работали и работают довольно четко на предложениях, грамматика и лексика которых им известна. То есть лучше всего применять такие системы там, где можно влиять как на используемую грамматику, так и на лексику, а именно для технического перевода.

Еще надо было быть терпеливым: в отчетах конференции ARPA за 1992 год можно прочитать, что система перевода компании IMB переводила со скоростью 25 слов в час.

 

Тем временем, компьютеры становились быстрее, в память умещалось больше данных, и инженерным умам начало казаться, что лингвисты не нужны. Дух того времени передает фраза, приписываемая одному чеху из той же компании IBM: «каждый раз, когда я увольняю лингвиста, качество распознавания речи улучшается» (хотя он, конечно, потом много лет от неё отнекивался). 

Приблизительно в то же время стрельнуло другое направление автоматизации работы переводчика — переводческая память. Для тех, кто не знает, переводческая память — это такая база данных уже переведенных предложений. При переводе нового предложения переводчику предлагается подставить из этой базы данных перевод идентичного или очень похожего предложения. Идея была так хороша, что использование переводческой памяти все еще является стандартом де факто в техническом переводе и задало такой высокий порог скорости работы технического переводчика, что большинству переводческих агентств даже сейчас вкладываться в освоение технического машинного перевода просто экономически бессмысленно.

 

Короче, тяжело стало тому машинному переводу на границе столетий. Однако умы из других научных кругов все больше стали смотреть на эту проблему слегка по–другому: посчитаем–ка для каждого предложения на языке B вероятность того, что оно является переводом вот этого предложения на языке A, а потом возьмем предложение с наибольшей вероятностью — оно–то и будет переводом предложения на языке A. Хм, здорово–то как, и миллион лингвистов не нужен — считай себе вероятности. Дело за малым — насобирать где–то статистических данных для перевода. Тоже не беда: берем два текста на разных языках, которые являются переводами друг друга, бьем на параллельные предложения и смотрим, какие словоформы из языка B часто встречаются напротив словоформ из языка А.


Вот так бесхитростно. Никакого вам тут морфологического анализа, тупо запишем в табличку какие слова сколько раз ходят напротив слов в другом предложении — получим какую–то статистику. Теперь для каждого слова из языка A возьмем наиболее вероятные соответствия из этой таблички — вот вам и перевод на язык B. Перевод, конечно, получается не очень, но есть куда развиваться. Важно тут то, что практически любой студент технического вуза может за пару вечеров написать такой выравниватель по словам и вычислитель вероятности для нескольких гипотез (декодер) и получить работающую систему. В общем, так и происходит: в данный момент есть пяток отличных открытых выравнивателей и пяток отличных открытых декодеров, вокруг них кипит сообщество — играй, сколько хочешь. Единственная проблема — таблица переводов (она же модель перевода) получается уж больно неполная, а чтобы её хорошенько наполнить надо где–то данных набрать, а с данными–то туго, ибо своими переводами мало кто делится с миром.

Теперь посмотрим, кому и зачем вообще нужен машинный перевод. Отметим три направления надобности: 1) для публикации, 2) чтобы был понятен смысл, 3) чтобы было понятно, о чем вообще речь. Первое направление — это профессиональный перевод, а там, как мы помним, оборону заняла переводческая память. Третье направление — это не совсем перевод, а больше похоже на извлечение фактов (грубо говоря, просто ищем интересные нам слова). А вот про второе направление стоит сказать чуть больше слов.

Возьмем, к примеру, Европейскую комиссию. Директорат по переводу при Европейской комиссии ежедневно переводит всякие документы на 24 языка Евросоюза, а за год они там выдают по полтора миллиона страниц. Большинство документов не требуют абсолютной точности перевода — фактически нужны только тезисы. Не удивительно, что основным спонсором развития статистического машинного перевода является именно Еврокомиссия. Надо сказать, что Еврокомиссия заодно охотно делится своими параллельными данными, правда эти данные слабо пригождаются для перевода чего–то, кроме документов самой же Еврокомиссии. 

Другое популярное направление — это перевод UGC (то есть контент, порождаемый пользователями). Тут имеются в виду всякие агрегаторы мнений про гостиницы и товары, форумы поддержки и т.д. Почти никому в здравом уме не придет в голову переводить в переводческом агентстве общение пользователей на каком–то форуме.


Проблема только в том, что, во–первых, не существует параллельных данных для такого перевода, а во–вторых, сами понимаете, насколько нормативно в среднем общаются между собой пользователи, чтобы строить по этому статистику. Тем не менее, это, пожалуй, наиболее востребованный сегмент для статистического перевода.

Ну и напоследок, есть еще несколько компаний, которые по другим причинам выкачали себе по пол–интернета, ну и имеют ресурсы, чтобы играючи построить себе модели перевода по тому, что они насобирали. По понятным причинам, машинный перевод — это непрофильное занятие этих компаний, зато как приятно порадовать пользователя возможностью перевести произвольную страничку прямо в их браузере.

 

То есть неоткуда пока взяться хорошему машинному переводу, однако что я хочу вам сказать. Ежегодно то в Америке, то в Европе проводится саммит по машинному переводу, куда съезжаются много причастных к проблеме. И последний такой саммит в 2013 году был в некотором смысле переломным: впервые больше половины участников было от профессионального перевода и от потребителей перевода, а не от создателей самих систем машинного перевода. Всемирная ассоциация локализаторов, наконец, взглянула на все свои стандарты оценки перевода, свела их к чему–то общему и выделила часть, которая актуальна для машинного перевода. Профессиональный перевод принял, наконец, участие в подготовке ежегодного состязания по машинному переводу. Жизнь налаживается. Я верю, что в ближайшее время мы увидим очередной рывок.

GD Star Rating
loading...
Машинный перевод, 10.0 out of 10 based on 1 rating

Добавить комментарий