Автоматическое исправление документов, переведенных Google.

У нас есть переведенные Google документы, которые почти не содержат ошибок и требуют лишь незначительных (около 10%) исправлений, и даже эти исправления являются излишними, которые могут быть изучены с помощью интеллектуального программного обеспечения для машинного обучения.

Что было бы неплохо, так это иметь систему обучения с низкой степенью детализации, которая может распознавать и исправлять мелкие ошибки в тексте.

Пример:

Google перевел на английский язык (с ошибками) : убедитесь, что функции дорожных изменений в Word / OpenOffice.org отключены.

Хороший английский\исправленный текст : убедитесь, что функция отслеживания изменений в Word/OpenOffice.org отключена.

Итак, мы видим исправления в 3-х словах: дорога, особенности, отключение.

Как мы видим, исправления тривиальны, избыточны, связаны с пользовательской терминологией и легко изучаются в наших настройках. Более того, они написаны на относительно непопулярном целевом языке. Здесь я привел примеры только на английском, а не на целевом языке.

Есть ли программный инструмент или плагин, который будет изучать и исправлять эти ошибки, используя память переводов в текстовом процессоре.

Вам не кажется, что если бы такая система существовала, Google бы уже интегрировал ее в свой Translate?
Как мы видим, исправления тривиальны, избыточны, связаны с пользовательской терминологией и легко изучаются в наших настройках, тем более что они сделаны на относительно непопулярном целевом языке, я привел только примеры на английском, а не на целевом языке.
Я могу заверить вас, что они тривиальны для человека, но чрезвычайно сложны с точки зрения программирования. Обработка и генерация естественного языка — одна из самых сложных и слаборазвитых областей исследований ИИ.
Переводчик, так как вы отредактировали свой комментарий в вопросе, вы можете удалить свой комментарий.
Если вы добавите ошибки в своем комментарии (пробелы перед запятыми, "еще раз" вместо "более того", "я" вместо "я" и обтекаемые предложения) в свой список исправимых ошибок, думаю, станет понятно вам, что нетривиально исправлять простые ошибки.
Это действительно тривиально, если ошибки повторяются.
Я немного не понимаю, что вы ищете. Готовое решение? Библиотека подпрограмм перевода, которую вы можете использовать для развертывания собственного решения? Что-то другое?
На самом деле, все они могут быть оценены
Проблема в том, что если это вопрос поиска инструмента, то здесь все в порядке; если речь идет о создании инструмента, это баланс между тем, что здесь по теме, и тем, что нет. Вы также с большей вероятностью получите ответы о создании решения для кодирования на Stack Overflow и, возможно, о сборке решения из компонентов в SuperUser. (Я проверил, рекомендации по программному обеспечению на последнем сайте не по теме.) Готовы ли вы отредактировать это, чтобы это было скорее рекомендацией по инструменту? Если нет, мы пока закроем это.
@translator, добро пожаловать на Writers.SE, и мне жаль, что это вас расстраивает. Как сказал Нил, мы хотим убедиться, что ваш вопрос относится к теме, а если нет, то помочь вам найти более подходящее место, чтобы задать его.
Хорошо, я отредактировал это как вопрос об инструменте
Спасибо за редактирование! Я надеюсь, что кто-то здесь может помочь вам найти такой инструмент.
Пропустите текст через Grammarly и на этом закончите.

Ответы (2)

По моему мнению, как компьютерному специалисту, это невозможно, по крайней мере, за пределами строго технического языка... И даже в этом случае я не думаю, что вы можете ожидать, что это будет безошибочно.

Переводчик Google далек от точности, по крайней мере, из того, что я вижу, когда общаюсь с людьми, которые зависят от него, чтобы говорить по-английски. Он может перевести что-то в понятной форме, но никогда в совершенстве. Особенно потому, что есть некоторые локализованные употребления слов, которые не будут иметь смысла для простого переводчика.

Кое-что, по крайней мере в это время, все еще должно быть сделано людьми.

Иногда я использую Google Translator, так как я не являюсь носителем английского языка, но никогда не использую его как инструмент для перевода, просто чтобы помочь мне с некоторыми словами. Что я делаю, так это получаю переводчик и просматриваю его, исправляя то, что не так.

Конечно, должны быть инструменты получше, чем переводчик Google, но они наверняка будут обширными. Кроме того, они никогда не будут безошибочными, поскольку сделать такой сложный алгоритм IA довольно сложно.

Наконец, но не в последнюю очередь, есть предложения, которые нам, людям, трудно понять на нашем родном языке. Теперь представьте себе программное обеспечение, имеющее дело с этим.

Я считаю, что это может хорошо работать при переводе нелитературных, стандартизированных документов, например, технической документации, медицинских отчетов и т.п. Чем больше стандартизирован формат и язык (термины), тем лучше это будет работать.

Подготовка

Вы должны писать с учетом автоматического перевода . Всегда используйте одни и те же слова и фразы с одинаковым значением и синтаксической структурой. Например, не используйте слово «дорога» для обозначения как твердой плоской поверхности, по которой могут двигаться транспортные средства, люди и животные, так и процесса или образа действий, ведущих к определенному результату. Если вы используете «дорога» в обоих значениях, есть вероятность, что эти значения выражены двумя разными словами на вашем целевом языке, и программа перевода должна принять решение, для которого она не приспособлена.

Если вы сохраните отчетливое значение и простую грамматическую структуру, ошибки автоматического перевода всегда будут вызваны одним и тем же явлением, которое вы затем сможете исправить автоматически.

Автокоррекция

Если вам всегда нужно заменить «дорогу» на «трек», просто выполните поиск и замените. Вы можете сделать это вручную в любом текстовом редакторе или написать скрипт на любом языке программирования.

Если вы используете сценарий, создайте матрицу или два массива, один с ошибками, которые нужно заменить, другой с правильными заменами, и позвольте встроенной функции, такой как замена строки или замена регулярного выражения, отсканировать документ для вас.

Как я уже сказал, это, конечно, работает только в том случае, если нет экземпляров «дороги», которые нужно сохранить или которые нужно заменить чем-то другим.

Человеческий контроль

Всегда позволяйте человеку, знакомому со значением, которое вы хотите передать, прочитать ваш документ и исправить окончательные ошибки (или добавить новые слова в два массива).