Машинный перевод

Category: лингвистика

История машинного перевода

машинный перевод

машинный перевод

В конце 1950-х гг., исследователи из Соединенных Штатов, СССР и Восточной Европы были уверены, что высококачественный машинный перевод (МП) научных и технических документов будет возможен уже в ближайшие несколько лет. После того, как все поняли, что ожидание затянулось, Национальная Академия Наук Соединенных Штатов опубликовала часто цитируемый, но мало кем читаемый отчет Консультативного Комитета об автоматической обработке лингвистической информации. Этот отчет давал рекомендации по затрачиваемым на МП ресурсам. Прежде чем разрабатывать машинный перевод необходимо разобраться в более фундаментальных вопросах обработки лингвистической информации, а не стремиться решить немедленные практические проблемы. Количество лабораторий, работавших в этой сфере, резко сократилось по всему миру, и лишь некоторые из них смогли найти средства, чтобы инвестировать их в долгосрочные исследовательские программы, что привело к появлению компьютерной лингвистики.

Интерес к машинному переводу возродился в 1980-х гг., и хотя разрабатываемые методы немного отличались от тех, что использовались в 1960-х гг., многие усилия, особенно в Японии, стали давать результат. Похоже эти результаты мало зависели от успехов в области лингвистики и программирования или от размеров и скорости компьютеров. Скорее результат дала лучшая оценка ситуаций, когда изобретательность могла привести к ограниченному успеху в развитии начального МП. Самым выдающимся примером была  METEO система, разработанная университетом Монреаля, которая предлагала перевод на французский язык метеосводок для авиалиний, судоходных компаний и др. Некоторые производители машинного оборудования установили возможность автоматического перевода руководств по техническому обслуживанию, применяемых внутри своих организаций (но не клиентами). Для этого техническими составителями подбирались лишь определенные термины, которые могли использоваться очень аккуратно и так как указано.

Почему машинный перевод так труден?

Многие факторы влияют на машинный перевод, делая этот процесс достаточно трудоемким. Это и слова с их многочисленными выражениями, предложениями и грамматическими конструкциями, и проблема соотнесения местоимения, а также другие проблемы грамматики. Но решение двух общих спорных вопросов могут сделать перевод легче, чем он кажется. Первый: перевод — это не только лингвистическая операция, второе: перевод — это не операция по сохранению значения.

Есть известный пример, поясняющий первый спорный вопрос. Прочитайте предложение:

«Полиция отказала студентам в пропуске, так как опасалась хулиганских действий»/ (на англ. «The police refused the students a permit because they feared violence»).

Предположим это предложение должно быть переведено на французский язык, в котором слово «police” женского рода. Предположим, что местоимение для слова “она/they” — тоже  женского рода. Теперь заменим слово «боялись» словом «пропагандировали». В этом случае, вдруг, обнаруживается, что «они» относится к студентам, а не к полиции, а если слово студент мужского рода (во французском языке), то следовательно нужен другой перевод. Чтобы сделать такое заключение, совсем не нужно иметь какие-то лингвистические знания. Скорее нужны знания повседневной жизни, фактов о студентах, полиции, хулиганских действиях и разного рода взаимоотношениях между ними.

Второй вопрос также близок к первому. Рассмотрим следующий вопрос на французском языке: «Ou voulez-vous que je me mette?» Буквально это звучит как: “Куда вы хотите чтобы я посадил себя”,  для английского языка вполне естественно использование данной конструкции во многих случаях: «Где мне сесть/встать/поставить подпись/припарковаться/ привязать лодку?» В большинстве ситуаций приемлема английская конструкция: «Where do you want me?». Это естественно, когда добавляется или убирается информация для того, чтобы бегло переводить. Но иногда информацию опустить нельзя, потому что есть языки, как например, французский, в котором местоимения указывают число и род, японский, в котором местоимения часто опускаются вовсе, русский, в котором нет артиклей, китайский, в котором существительные не склоняются по числам, а глаголы не имеют настоящего и прошедшего времени, немецкий, в котором склонение слова показывает на то, где подлежащее, а где дополнение и т.д.

Структура систем машинного перевода

Поскольку вариантом систем ПМ было много, большинство этих систем, и конечно же те из них, которые нашли практическое применение, состоят из частей, которые могут быть названы в соответствии с разделами учебника по лингвистике. В них есть лексические, морфологические, синтаксические и возможно семантические компоненты, по одному на каждый из двух языков, для управления простыми и сложными словами, предложениями и значениями слов. Один вводится в следующий до тех пор, пока не появится очень абстрактное представление предложения в последней цепочке.

Есть также «передающий» компонент, единственный который приспособлен для конкретной пары языков, который преобразовывает наиболее абстрактное представление исходного языка в соответствующее абстрактное представление языка-перевода. Полученное предложение создается фактически с помощью изменения направления процесса анализа. В некоторых системах используется так называемый «язык-посредник», в котором этап передачи состоит из двух шагов: перевод предложения языка-источника на промежуточный язык и перевод результата в абстрактное представление на языке-перевода.

Автор: Мартин Кэй