История систем распознавания речи

В девяностых годах прошлого столетия очень популярным был фильм «Назад в будущее», так вот во второй части была сцена, в которой Мартин МакФлай входит в комнату, включает телевизор и переключает каналы используя только свой голос и ничего более. Когда то такие манипуляции казались людям чем-то фантастическим и несбыточным. Однако в наше время это достаточно обыденные вещи. Но развитие этой отрасли было весьма не простым. На это понадобилось десятки лет, и сотни тысяч долларов инвестиций. Данная статья как раз и посвящена истории развития систем распознавания речи.

1952 год можно официально считать годом рождения систем распознавания речи. Причина тому – американская компания Bell Laboratories, крупный исследователь в области компьютерных и электронных систем. В этом году эта организация представила свое детище, систему названую Audrey. Откровенно говоря, Audrey даже не обладала словарным запасам в привычном для нас понимании, она оперировала только цифрами. Но и это еще не все. Система обладала рядом ограничений, невыполнение которых снижало точность Audrey до 60-70 процентов. Если все было сделано по требованиям, точность составляла порядка 90%.

Основные ограничения на работу Audrey:

  • Диктующий человек должен был быть мужчиной
  • Это человек должен был уже ранее работать с системой
  • Пауза между словами должна была составлять около 350 миллисекунд

В современных реалиях это совсем не показатель. Однако был сделан большой шаг на пути понимания голоса человека машиной.

В 1962 году произошла очередная знаменательная дата в развитии систем распознавания речи. Произошло это в Сиэтле на Всемирной выставке. Фирмой IBM был представлен компьютер Shoebox. Эта машина могла распознать шестнадцать слов на английском языке. Не трудно заметить, что на переход от цифры к слову понадобилось целых десять лет.

Работа за компьютером IBM Shoebox

Работа за компьютером IBM Shoebox

Во второй половине шестидесятых годов в лабораториях США, Великобритании, Японии, СССР ведутся опыты по разработке систем распознавания речи способных распознавать отдельно произнесенные звуки. Медленно, но уверенно технологии постепенно совершенствовались.

В 1971 году перспективная технология обратила на себя внимание военных США. Министерством обороны были выделены средства на исследования и разработку систем распознавания речи. Конечный продукт в итоге должен был распознавать не менее тысячи слов, и понимать связную речь, т. е. речь без четко определенных пауз между словами.

В 1972 году появилось первое программное обеспечение систем распознавания речи поставленное на коммерческую основу. Это была программа Vip-100, она могла распознавать несколько сот слов, правда не было поддержки связной речи. Да и те же проблемы что и в предыдущих подобных продуктах, предварительная «тренировка системы», то есть надиктовка слов.

К 1976 году было разработано шесть систем, которые в той или иной степени, соответствовали необходимым критериям. Самой удачной, пожалуй,  была «гарпия», разработанная исследовательским центром при Университете Карнеги-Мелона. Четыре секунды предложения, обработанные, за пять минут, плюс все ту же «тренировка», нельзя назвать хорошим результатом. Зато она обладала словарным запасом в 1011 слов, понимала связную речь и обладала эффективным алгоритмом поиска правильных конструкций. Все эти качества оставляли далеко позади всех её предшественников, и делали эту программу одной из лучших в свое время.

В 80-е годы идет бурное развитие систем распознавания речи. Флагманом выступают американские компании Bell Laboratories и IBM. Внедряя новые подходы и технологии в развитие данных систем, удалось увеличить их словарный запас до нескольких тысяч слов. Фирма IBM направила свою деятельность на исследования в направлении N-грамм (непрерывных последовательностей из N элементов заданного текста или речи), и спикерозависимых, другими словами тренируемых, систем. В то время как Bell Laboratories занималась разработкой систем способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок.

Одну из главных ролей в развитии этих систем в 80-ых годах сыграл, так называемый, статистический метод. Сутью этого метода было распознание неизвестных параметров, на основании заданных. Проще говоря, системы распознавания речи учили распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п.

В этот период огромным провалом закончилась попытка использовать искусственные нейронные сети для распознавания речи. Выходят коммерческие предложения на подобие Kurzweil text-to-speech. Но все они были весьма неудобными в работе и поддерживали только надиктовку.

В 1987 году в свет выходит первый коммерческий продукт для широкой общественности с функцией распознавания речи. Это была кукла с функцией распознавания детской речи на основе тренировки. В дополнение к этому она могла реагировать на простые события, происходящие с ней, будь то попадание на свет или темноту, и даже «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках.

Первый коммерческий продукт умеющий распознавать речь – кукла Julie Talking Doll

Первый коммерческий продукт умеющий распознавать речь – кукла Julie Talking Doll

В 1990 году выходит программа Dragon Dictate – первая в своем роде коммерческая программа для обычных пользователей. За весьма скромные качества, все еще присутствующую надиктовку и не лучшие удобства работы, рядовой пользователь должен был выложить девять тысяч долларов, прямо скажем сумма весьма внушительна не только для того времени, но и для нашего тоже.

В 1996 году появился VAL от BellSouth – первый голосовой портал. Эта система была призвана обрабатывать телефонные справочные запросы, информационные стенды в крупных торговых центрах и т. п. Она занималась поиском информации для покупателей и абонентов по заданным запросам, услугам, торговым маркам.

В 1997 году вышла новая, улучшенная версия программы Dragon – NaturallySpeaking. Эта программа уже была способна распознавать нормальную речь. Приблизительно сто слов в минуту. Да и ценна, снизилась до 695 долларов, что не могло не радовать!

Логотип программы Dragon – NaturallySpeaking

Логотип программы Dragon – NaturallySpeaking

В 2001 году Microsoft выпускает свою систему распознавания речи. Работала она с Office XP, на тот момент передовой версией пакета офисных программ. Несмотря на свои несовершенства (наличие «тренировки», перенастройки с сменной рабочего помещения или нечеткости произношения) данная программа стала поистине массовой.

В 2002 году Google запускает, правда в тестовом режиме, Voice Search, предназначенного для голосового поиска в сети интернет. Но данную разработку пришлось сразу свернуть. Дело в том что, что бы выполнять данный поиск, требовалось звонить на специальный номер, что было весьма неудобно. Но Google не опустил рук, и продолжал разработки в этом направлении.

В 2005 году выходит первая операционная система с функцией распознания речи. Первооткрывателем была Mac OS X Tiger. Однако следует упомянуть, что подобные наработки были и у Windows 95, но там была скорее тестовая версия, чем полноценный продукт. VoiceOver была способна не только на распознание речи, в дополнение к этому она являлась её синтезатором. Эта программа могла прочитать содержимое текстовых документов, почтовых и веб-страниц. Большим плюсом было то, что она являлась спикеронезависимой, и даже работала с несколькими пользователями одновременно.

Интерфейс программы VoiceOver

Интерфейс программы VoiceOver

В 2006 году не желая отставать от своего извечного конкурента Apple, Microsoft выпускает операционную систему с полноценной поддержкой функции распознания речи Windows Vista.

В 2009 году выходит приложение Voice Search от Google для iPhone. Работа данного приложения опирается на заоблачные вычисления своих суперкомпьютеров. Эти вычисления позволили провести крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами. Эта процедура способствовала быстрому росту и совершенствованию системы.

Voice Search постепенно закрепляет за собой славу самого популярного приложения от Google для мобильных устройств. Появляется версия для Android.

Voice Search в смартфонах iPhone

Voice Search в смартфонах iPhone

В 2011 году Google учел ошибки прошлых лет, результатом чего явилась функция распознавания голоса в браузере Chrome. Были устранены ненужные звонки и прочие неудобства. На сегодняшний день в базе насчитывается около 230 миллиардов слов на многих языках мира.

Впервые Siri появилась на смартфонах iPhone 4S

Впервые Siri появилась на смартфонах iPhone 4S

И на конец, без преуменьшения поворотная и эпохальная дата в истории развития систем распознавания речи. 14 октября 2011 года Apple начинает массовую продажу своих iPhone 4S с установленной программой Siri. Это программа не просто распознает речь, она выступает в качестве персонального виртуального помощника, способного обрабатывать естественную речь, отвечать на заданные вопросы и предоставлять рекомендации. Примечательно в ней то, что она не использует стандартные программы, а идет живое общение между пользователем и аппаратом. Она даже может отвечать шутками на курьезные либо глупые вопросы. На сегодняшний день данная программа поддерживает английский, французский и немецкий языки.

Буду очень благодарен, если вы поделитесь с друзьями этой статьёй в социальных сетях и блогах, это будет здорово помогать моему блогу развиваться:

0

Хотите получать обновления блога? Подписывайтесь на рассылку и внесите свои данные: Имя и е-мейл

Написать комментарий

Top