Новый сервис на сайте

Пару месяцев назад я опубликовал статью «Переводим английский текст в транскрипцию», которая в течение этого времени стабильно привлекала половину интернет-трафика на сайте. Оказалось, что транскрипция всего текста, а не отдельных слов, нужна многим. Я решил написать такой сервис, чем и был занят последний месяц.

Теперь сервис опубликован (тут), и, надеюсь, окажется полезным. В начальном словаре порядка 40000 слов, плюс сервис распознает множественное число, прошедшее время и другие основные грамматические конструкции (к сегодняшнему дню их список существенно расширен). Слова, не найденные в словаре я буду постепенно добавлять, при этом сервис мне подскажет какие из них наиболее популярны, т.е. какие добавлять в первую очередь.

За основу словаря я взял словарь Мюллера с транскрипцией, добавленной Сергеем Старостиным. Основная часть времени ушла как раз на приведение словаря к формату, с которым можно работать автоматически. Словарь отражает британский вариант произношения. Хотя в сети есть пара открытых, внушительных по объёму словарей с американским произношением, мне показалось важным использовать именно британский вариант, от которого отталкивается российская (или, во всяком случае, советская) система преподавания английского языка. Иначе, американская транскрипция даже у меня вызывает когнитивный диссонанс, не говоря уже о путанице, которую её использование может вызвать у начинающего изучать язык. Вполне вероятно, я добавлю американское произношение позже.

(Update 10.06.2014: Американская транскрипция добавлена, но обе версии сервис берёт пока из двух независимых словарей, т.е. слово может быть в одном и отсутствовать в другом. За основу американской версии взят открытый словарь Carnegie Mellon University (CMU).)

Возможно, вы обращали внимание, что одни и те же фонемы в разных источниках могут записываться разными символами международного фонетического алфавита (например, «bed» может записываться и как [bɛd], и как [bed]). Здесь для отображения транскрипции взят набор символов Гимсона с одним небольшим исключением для [ɛ] вместо [e]. Если вы подписаны на мой курс произношения, то и в нём я использую тот же набор.

Слова могут транскрибироваться не только в своей словарной форме, но и с учётом слабой позиции в предложении (подробнее об ударной и безударной позиции). Исключение сделано только артиклям «a/an/the», для которых позиция в предложении учитывается всегда — уж больно они дико и непривычно смотрятся в своей полной форме — [eɪ], [æn] и [ðiː]. Вот тоже не понятно, почему в школе произношение артиклей дают сразу и только в безударной позиции, при этом про само это понятие ни слова.

Для меня это долгосрочный проект, который я планирую активно развивать. В работе сейчас следующий (уже изрядно поредевший) список усовершенствований:

  • транскрипция чисел (пока непонятно, как учитывать множество числовых форматов, т.е. отличать, скажем, год от номера телефона).

Готово:

  • совершенствование грамматического разбора, т.е. по сути — расширение словаря; (28.04.2013: добавлено ещё несколько конструкций; 28.07.2013: расширена поддержка, исправлены ошибки; 28.09.2013: добавлена поддержка множественных суффиксов, дополнены существующие сценарии словообразования; 01.12.2013: добавлена поддержка нескольких приставок)
  • Кроме общеупотребительных слов словарная база пополнена транскрипцией огромного количества географических названий (среди которых названия стран, их столиц, штатов США, графств Англии), а так же национальностей и наиболее популярных имён; (28.04.2013, 28.07.2013, 10.10.2013: массивное добавление в базу повторяющихся в запросах ненайденных слов, географических названий и имён)
  • транскрипция аббревиатур; (28.04.2013: готово)
  • отображение транскрипции русскими буквами (да, это ужасно неправильно, но есть люди, которым по-другому и не надо); (функция добавлена 30.07.2013)
  • выбор из нескольких вариантов транскрипции (если слово может произноситься по-разному); (функция добавлена 03.08.2013)
  • вывод транскрипции параллельно с оригиналом, чтобы легче было читать длинные тексты и сверяться с оригиналом (функция добавлена 07.08.2013); так же, с подачи пользователей сервиса (спасибо за идею!) добавлена возможность отображать транскрипцию подстрочником к исходному тексту (функция добавлена 25.03.2014);
  • возможность отправки текста по комбинации клавиш Ctrl+Enter вместо нажатия на кнопку «Показать транскрипцию»; (добавлено 12.10.2013)
  • для тех, кто не владеет русским языком, добавлена мультиязычная копия сервиса. (16.12.2013)
  • возможность транскрипции с учётом ударной/безударной позиции слова в предложении; (19.02.2014)
  • американский вариант произношения; (10.06.2014; подробнее об американском варианте выше)
  • по просьбе пользователей добавлены пользовательские скобки (функция добавлена 20.11.2014);
  • синтаксический анализ текста, где это возможно. Нужен для того, например, чтобы показывать правильный вариант произношения, где он определяется частью речи, в роли которой выступает слово. Скажем, глагол «present» и существительное или прилагательное «present» произносятся по-разному, и т.п.;
  • для браузеров с поддержкой синтеза речи добавлена функция прослушивания транскрибируемого текста (09.12.2015). Подробности по ссылке;
  • Переводчик можно установить себе на iPhone, iPad или iPod touch (21.01.2014) и устройства Андроид (19.08.2014)

Свои предложения по улучшению сервиса, отзывы и замеченные ошибки можно оставить в комментариях ниже. Они обязательно будут учтены.

23 thoughts on “Новый сервис на сайте

  1. Предлагаю сделать систему, как у гугл (если будет не трудно), когда слова ещё не до конца ввел, уже система начинает работать

  2. молодца, просто не ожидал найти такую вещь очень-очень помог я английский плохо понимаю , но ты просто выручил , красава!продолжай желаю удачи и попытайся на андроид если не сложно)

  3. Вот уже 3 месяца занимаюсь английским с Вашим сайтом. Очень помогает. Спасибо.

  4. Супер программа/сайт, очень долго искала переводчик с транскрипцией, очень помогли, пользуюсь и радуюсь! Желаю дальнейшего развития, и со временем добавлять языки) например немецкий)

  5. Было бы удобней ориентироваться, если бы транскрипция так же начиналась с заглавной буквы

    • Объясните, пожалуйста, для чего. Регистр в МФА не предусмотрен, насколько я понимаю, но если понять зачем вам это, то наверняка можно придумать другое решение. Спасибо.

  6. Почему не существует словарей транскрипции ?
    Если я путешествую и слышу незнакомое слово, то я ведь слышу транскрипцию(произношение) а не написание, которое существенно отличается. Следовательно, по транскрипции я найду слово в словаре а по написанию(которое существенно отличается от произношения) я никогда не найду слово в словаре. Хочу словарь транскрипций!!!

    • Да, действительно. Словари для языков с иероглифической письменностью позволяют находить слово по чтению, почему английские словари не дают такой возможности? Спасибо за идею.

  7. Для моего мобильного приложения необходим веб-сервис (с простым API) для выполнения запроса из мобильного приложения. Функционал подобный переводчику Гугла или Яндекса. Есть ли у вас такая возможность? Из мобильного Арр будет отправляться JSON-строка с запросом, а в ответ — тоже JSON-строка с транскрипцией.

  8. Хорошая программа!!! Было бы очень круто, если аудио-озвучку можно бы скачивать)))

Добавить комментарий