none
Главный недостаток всех систем человек - машина! RRS feed

  • Вопрос

  •     То, что я хочу спросить (ведь только в форме вопроса может быть начат этот диалог?), относится к коренным проблемам интерфейса: человек - машина.
        Когда будет осуществлен нормальный голосовой интерфейс между машиной и человеком, и что в этом направлении делает огромный коллектив разработчиков Майкрософта и делает ли, вообще, что-нибудь в этом направлении?
      
    Ведь сейчас огромные силы тратятся на графику (я не говорю, что графика не нужна!), но чтобы, например, найти какую-то информацию в Интернете, я должен  сесть перед экраном и печатать, как машинистка, целую кучу всяких слов, прежде чем получу то, что мне надо. А ведь я мог бы просто спросить у машины, просто поговорить с ней и получить требуемый результат. Причем, я мог бы сделать это по телефону, вообще, находясь в другой точке планеты!
        Наконец, я мог бы надиктовать машине текст своей статьи (пусть потом я буду его визуально править!) и велеть ей распечатать надиктованное и (или) переслать его по электронной почте нужному (-ым) адресату (-ам).
        Вообще, отсутствие голосового интерфейса - это ужасно! Да, в этом есть элементы искусственного интеллекта, но я же не говорю о философских диспутах с ЭВМ. Пусть она пока понимает простейшие голосовые команды - остальное придет со временем.
        Главное, чтобы машина РАСПОЗНАВАЛА устную речь!
       
    Мне 71 год, по образованию я математик (Мехмат МГУ). До 1981 года занимался программированием. Снова вернулся к нему два года назад - хотел сделать систему управления т.н. "Умным домом" через компьютер. Написал комплекс программ на языке C# и, увы, уперся в указанную выше проблему. То-есть, я могу приказать машине что-то сделать: (Зажечь свет, закрыть окно, наполнить ванну и т.п.), но для этого я ДОЛЖЕН СЕСТЬ ЗА КЛАВИАТУРУ И НАПЕЧАТАТЬ ПРИКАЗ, КОТОРЫЙ ДОЛЖЕН БЫЛ ОТДАТЬ ГОЛОСОМ!
                                                                                         Alfred Levin

Все ответы

  • 1. Голосовое управление частично реализовано в Vista и некоторых продуктах серии Unified Communications.

    2. По непосредственно вопросам программирования - www.gotdotnet.ru, здесь форум IT Pro, не разработчиков.

    3. Распознавание речи - задача вообще до сих пор не имеющая адекватного решения - только в лаборатории (поправьте меня, если я ошибаюсь).

    В виду отсутствия именно предложений по улучшению - переношу в "Разное"

    Модератор
  • Смотря что понимать под распознаванием речи. Если просто интерпретация в простые структуры, например для ведения диалогов, то распознавание работает достаточно хорошо для промышленного и коммерческого применения.

    Сложнее с синтезом естественного человеческого голоса. Но уже есть хорошие разработки, например у AT&T - английский почти идельно звучит.

    А русский язык это отдельная песня, и  она в данном случае без слов и музыки В смыле российских разработок.

     

    Мировой лидер исторически http://www.nuance.com/ Хотя есть и другие. Есть даже исследовательский проект http://www.speech.cs.cmu.edu/festival/

    Модератор
  • Значит отстал. То есть есть системы, которым можно диктовать текст (пусть будет ангийский)???
    Модератор
  • Конечно, например Exchange Server Smile

    Я могу полноценно работать со своей электронной почтой откуда угодно со своего телефона (используя Outlook Voice Access, OVA) или КПК (используя Exchange ActiveSync). Могу слушать и отвечать (диктовать) e-mail'ы, могу отменять и переносить собрания, могу слушать и отправлять voice-mail'ы и много чего еще. Все, что мне нужно, это connectivity (в первом случае доступ к телефонной или сотовой сети, во втором - доступ к Интернет по HTTP).

     

    Что касается обсуждаемых философских проблем, то, имхо, автор исходного поста слишком много хочет. Количество языков и акцентов на планете слишком велико, чтобы распознавать любое корявое произношение. Даже Voice Assistant на моем сотовом телефоне часто ошибается и звонит жене, когда я прошу его позвонить любовнице. Smile

  • Что касается распознавания произношения, актента, помех и прочих искажений, то как раз для систем распознавания голоса ASR это не проблема! В документации на одну из систем ASR я встречал прямое объяснение этому: по сути ASR это фильтр речи, который на выходе выдает результат фильтрации, поэтому искажения речи любой природы отсеиваются, и если система теоретически способна распознать фразу, то она это сделает при любом акценте!

     

    Ныне можно приобрести систему распознавания речи за доступные деньги и приемлемого качества. Например в некоторых офисах их используют в составе телефонного секретаря: в ответ на голосовое приглашение называешь фамилию или отдел и тебя автоматически соединяют. Хуже дело обстоит с синтезом речи, особенно русской. Вот это пока проблема.

    Модератор
  •  sie написано:

    Например в некоторых офисах их используют в составе телефонного секретаря: в ответ на голосовое приглашение называешь фамилию или отдел и тебя автоматически соединяют.

    И это Exchange 2007 тоже умеет Smile

  • Когда аппаратные ресурсы позволят распознавать разговорную устную речь, да ещё такого "Великого и Могучего" языка как русский, то разработчики обязательно сделаю то, о чём Вы мечтаете :-).
  •  Jоker написано:
     sie написано:

    Например в некоторых офисах их используют в составе телефонного секретаря: в ответ на голосовое приглашение называешь фамилию или отдел и тебя автоматически соединяют.

    И это Exchange 2007 тоже умеет Smile

     

    Ну да -  по-басурмански!

    Нам-то нужен русский язык!

    Модератор
  •  lepricon написано:
    Когда аппаратные ресурсы позволят распознавать разговорную устную речь, да ещё такого "Великого и Могучего" языка как русский, то разработчики обязательно сделаю то, о чём Вы мечтаете :-).

     

    Вот это как раз не проблема: даже персоналка сейчас десяток параллельных процессов распознавания потянет.

    Модератор
  • Сделают, я думаю, и на русском. Технология есть, а переделать базовый язык - фуфел, а не задача =) Конечно, будут свои сложности с распознаванием всякой там семантики и иже с ним, но это уже почти чисто инженерные проблемы, наверное...
    Модератор
  • Вот меня и интересует вопрос: будет ли Russian Language Pack для Speech Server 2007 сделан и включен в релиз? Есть его бета и можно ли принять участие в тестировании или разработке?
    Модератор
  • Сама MSFT его разрабатывать не будет, а готовый купить не у кого.
    Модератор
  •  sie написано:
     Ну да -  по-басурмански!

    Нам-то нужен русский язык!

    Меня английский вполне устраивает Smile

  •  Igor Leyko написано:
    Сама MSFT его разрабатывать не будет, а готовый купить не у кого.

     

    Это означает, что ни Speech Server 2007, ни UM Exchange 2007 в России не будет. Довольно странно, если обратить внимание, что есть целый официальный русский портал  посвященный бете OCS 2007 http://www.microsoft.com/emea/technet/beta/russia/ocs/resources.mspx

     

    Модератор
  •  sie написано:
     Это означает, что ни Speech Server 2007, ни UM Exchange 2007 в России не будет. Довольно странно, если обратить внимание, что есть целый официальный русский портал  посвященный бете OCS 2007 http://www.microsoft.com/emea/technet/beta/russia/ocs/resources.mspx 

    Ничего странного. Портал переводится на русский,  раз есть английская версия - только и всего.

    Модератор
  • Ничего странного? Зачем переводить, если не планируется продавать продукт?
    Модератор
  •  sie написано:
    Ничего странного? Зачем переводить, если не планируется продавать продукт?

    У вас есть информация, что это продукт не планируется продавать в России?  Мне казалось, что не планируется делать раскознавание русской речи. Да, это здорово ограничивает спрос, но я знаю не одну фирму, активно работающую с западным рынком.

    Модератор
  • Может повлияем на процесс?
    Модератор