Что вводит в компьютер звук
Если у вас возникли проблемы со звуком, воспользуйтесь следующими рекомендациями. Советы перечислены в определенном порядке — начните с первого, проверьте, помог ли он, и переходите к следующему.
Если доступно несколько устройств вывода звука, убедитесь в том, что выбрано нужное. Для этого выполните следующие действия.
Щелкните значок " Докладчики" на панели задач.
После этого щелкните стрелку , чтобы открыть список звуковых устройств, подключенных к компьютеру.
Убедитесь в том, что звук воспроизводится на предпочитаемом вами звуковом устройстве, таком как динамик или наушники.
Если это не помогло, переходите к следующему совету..
Возможно, это средство устранит проблемы со звуком автоматически.
Для запуска средства устранения неполадок выполните следующие действия.
В поле поиска на панели задач введите средство устранения неполадок со звуком, а затем из списка результатов выберите Поиск и устранение неполадок при воспроизведении звука и нажмите Далее.
Выберите устройство, проблему с которым требуется устранить, и продолжите работу со средством устранения неполадок.
Если запуск средства устранения неполадок не помог, переходите к следующему совету.
Проверка наличия обновлений
Выполните одно из следующих действий.
Если указано состояние "Устройство обновлено", перейдите к следующему совету.
Если указано состояние "Доступны обновления", выберите Установить сейчас.
Выберите обновления, которые необходимо установить, а затем нажмите кнопку Установить.
Перезагрузите компьютер и проверьте, правильно ли работает звук.
Если это не решило проблему, переходите к следующему совету.
Проверьте надежность подключения динамиков и наушников к разъемам. Убедитесь, что все кабели подключены.
При наличии нескольких разъемов 5 мм для подключения, особенно в системе объемного звука, убедитесь, что все кабели подключены к правильному разъему.
Если не ясно, к какому разъему необходимо подключить тот или иной кабель, обратитесь к изготовителю оборудования или попытайтесь по очереди найти наиболее очевидные выходные разъемы и проверьте, работают ли они.
Примечание. В некоторых системах для вывода данных используется зеленый разъем, а для ввода микрофона — розовый, а в других — "наушники" или "микрофон".
Убедитесь, что питание включено, и проверьте уровень громкости.
Убедитесь, что не включен параметр "Выключить звук", и попробуйте установить более высокий уровень громкости с помощью всех регуляторов.
Помните, что некоторые динамики и приложения имеют собственные регуляторы громкости. Обязательно проверьте их все.
Попробуйте подключить динамик и наушники к другому USB-порту.
Возможно, что динамики не будут работать, когда подключены наушники. Отключите наушники и посмотрите, помогло ли это.
Если с кабелями и громкостью все в порядке, дополнительные инструкции по устранению неполадок см. в следующих разделах.
Проверьте, не отключен ли звук для звуковых устройств и не отключены ли эти устройства.
Щелкните правой кнопкой мыши значок "Динамики" на панели задач, а затем выберите Открыть микшер громкости.
Вы увидите набор элементов управления громкостью для ваших устройств. Убедитесь, что ни на одном из них не отключен звук. Если звук отключен, то рядом с элементом управления громкостью появится красный круг с линией. В этом случае выберите регулятор громкости для включения звука.
Проверьте свойства устройства и убедитесь, что устройства не были отключены по ошибке. Выберите Пуск > Параметры > Система > Звук .
Выберите звуковое устройство, а затем Свойства устройства. Убедитесь, что выбраны Свойства устройства для всех устройств ввода и вывода.
Убедитесь, что для устройств ввода и вывода снят флажок Отключить.
Если это не решило проблему, переходите к следующему совету.
Аппаратные проблемы могут быть вызваны устаревшими или неработоспособными драйверами. Убедитесь, что аудиодрайвер обновлен, и при необходимости обновите его. Если это не сработает, попробуйте удалить аудиодрайвер (он будет переустановлен автоматически). Если это не поможет устранить проблему, попробуйте воспользоваться универсальным аудиодрайвером, который поставляется вместе c Windows. Если у вас возникли проблемы со звуком после установки обновлений, попробуйте выполнить откат драйвера звукового устройства.
Для автоматического обновления аудиодрайвера выполните следующие действия.
В поле поиска на панели задач введите диспетчер устройств, а затем выберите его в списке результатов.
Нажмите стрелку рядом с разделом Звуковые, игровые и видеоустройства, чтобы развернуть его.
Щелкните правой кнопкой мыши элемент звуковой платы или звукового устройства, например наушников или динамиков, выберите пункт Обновить драйвер, а затем выберите Автоматический поиск обновленных драйверов. Следуйте инструкциям на экране, чтобы завершить обновление.
Если Windows не находит новый драйвер, найдите его на веб-сайте изготовителя устройства и выполните сопутствующие указания. Если это не поможет устранить проблему, попробуйте удалить аудиодрайвер.
Чтобы удалить аудиодрайвер, выполните следующие действия.
В поле поиска на панели задач введите диспетчер устройств, а затем выберите его в списке результатов.
Нажмите стрелку рядом с разделом Звуковые, игровые и видеоустройства, чтобы развернуть его.
Щелкните правой кнопкой мыши элемент звуковой платы или звукового устройства, а затем выберите Удалить устройство, поставьте флажок напротив пункта Удалить ПО драйвера для этого устройства и нажмите кнопку Удалить.
Примечание. Перед перезапуском обязательно сохраните документы и другие текущие данные.
При перезапуске автоматически появится запрос на переустановку звукового драйвера на компьютере.
Чтобы перезапустить компьютер, выберите Пуск > Завершение работы > Перезагрузка .
Если это не поможет устранить проблему, попробуйте воспользоваться универсальным аудиодрайвером, который поставляется вместе c Windows.
Чтобы воспользоваться универсальным аудиодрайвером, который поставляется вместе c Windows, выполните следующие действия.
В поле поиска на панели задач введите диспетчер устройств, а затем выберите его в списке результатов.
Нажмите стрелку рядом с разделом Звуковые, игровые и видеоустройства, чтобы развернуть его.
Щелкните правой кнопкой мыши элемент звуковой платы или звукового устройства, а затем выберите Обновить драйвер > Выполнить поиск драйверов на этом компьютере > Выбрать драйвер из списка уже установленных драйверов.
Выберите звуковое устройство, драйвер которого требуется обновить, нажмите кнопку Далее, а затем следуйте инструкциям по его установке.
Если эти действия не устранили проблему со звуком, перейдите на веб-сайт изготовителя устройства и установите самые последние аудиодрайверы для вашего устройства. Ниже приведен пример страницы скачивания драйвера от производителя звукового устройства.
Если после установки обновлений возникли проблемы со звуком
Если звук работал до запуска Центра обновления Windows, а теперь не работает, попробуйте выполнить откат аудиодрайвера.
Чтобы выполнить откат аудиодрайвера
В поле поиска на панели задач введите диспетчер устройств, а затем выберите его в списке результатов.
Нажмите стрелку рядом с разделом Звуковые, игровые и видеоустройства, чтобы развернуть его.
Щелкните правой кнопкой профиль звуковой платы или звукового устройства, а затем выберите пункт Свойства.
Перейдите на вкладку Драйвер и выберите Откатить.
Прочтите и выполните инструкции, а затем нажмите Да, если требуется выполнить откат аудиодрайвера.
Если откат звукового драйвера не помог или оказался невозможен, вы можете попытаться восстановить компьютер из точки восстановления системы.
Восстановление компьютера из точки восстановления системы
При установке обновлений Майкрософт в системе мы создаем точку восстановления системы на случай возникновения проблем. Попробуйте восстановить систему до этой точки и проверьте, помогло ли это устранить проблемы со звуком. Дополнительные сведения см. в разделе "Восстановление из точки восстановления системы" статьи Параметры восстановления в Windows 10.
Если вы подключаетесь к звуковому устройству, такому как наушники или динамики, с помощью USB или HDMI, возможно, вам потребуется задать это звуковое устройство как используемое по умолчанию. Если вы используете внешний монитор без встроенных динамиков, убедитесь, что монитор еще не выбран в качестве выходного устройства по умолчанию. Если это так, у вас не будет звука. Это можно проверить при задании устройства вывода звука по умолчанию. Вот как это сделать.
Введите панель управления в поле поиска на панели задач, а затем в списке результатов выберите "Панель управления".
В разделе "Панель управления" выберите Оборудование и звук > Звук.
На вкладке Воспроизведение щелкните правой кнопкой мыши профиль звукового устройства, выберите Использовать по умолчанию, а затем нажмите кнопку ОК.
Если настройка звукового устройства по умолчанию не дала результатов, дополнительные советы по устранению неполадок см. в следующих разделах.
Иногда наличие дополнительных средств звука может привести к проблемам со звуком. Их отключение может помочь устранить проблему.
Введите панель управления в поле поиска на панели задач, а затем в списке результатов выберите "Панель управления".
В разделе "Панель управления" выберите Оборудование и звук > Звук.
На вкладке Воспроизведение щелкните правой кнопкой мыши Устройство по умолчанию и выберите Свойства.
На вкладке Дополнительные параметры установите флажок Отключить все дополнительные параметры или Отключить все звуковые эффекты (в зависимости от того, какой параметр отображается), нажмите кнопку ОК и попробуйте воспроизвести звук на звуковом устройстве.
Если это не сработает, на вкладке Воспроизведение выберите другое устройство по умолчанию (если таковое имеется), установите флажок Отключить все дополнительные параметры или Отключить все звуковые эффекты, нажмите кнопку ОК и снова попытайтесь воспроизвести звук. Выполните это для каждого стандартного устройства.
Если выключение дополнительных средств звука не дало результатов, дополнительные инструкции по устранению неполадок см. в следующих разделах.
Введите службы в поле поиска на панели задач, а затем в списке результатов выберите "Службы".
Выберите каждую из следующих служб, щелкните ее правой кнопкой мыши и нажмите кнопку Перезапустить.
Средство построения конечных точек Windows Audio
Удаленный вызов процедуры (RPC)
Если перезапуск этих служб не решит проблему, дополнительные инструкции по устранению неполадок см. в следующих разделах.
Введите панель управления в поле поиска на панели задач, а затем в списке результатов выберите "Панель управления".
В разделе "Панель управления" выберите Оборудование и звук > Звук.
На вкладке Воспроизведение щелкните правой кнопкой мыши (или нажмите и удерживайте) элемент Устройство по умолчанию и выберите пункт Свойства.
На вкладке Дополнительно в разделе Формат по умолчанию измените параметр, нажмите ОК,и еще раз проверьте звуковое устройство. Если это не помогло, попробуйте еще раз изменить данный параметр.
Если использование других форматов аудио не дало результатов, дополнительные инструкции по устранению неполадок см. в следующих разделах.
После установки ряда обновлений необходимо перезапустить устройство.
Чтобы проверить наличие установленных обновлений, ожидающих перезагрузки, выполните следующие действия.
Сохраните документы и закройте все приложения.
Выберите один из параметров перезагрузки, чтобы применить обновления.
Требуется справка по Центру обновления Windows? См. статью Узнайте, как устранить проблемы с обновлениями Windows 10.
Если перезапуск не дал результатов, дополнительные инструкции по устранению неполадок см. в следующем разделе.
Примечание: Не все системы имеют аудиокодек IDT High Definition Audio.
Чтобы проверить, есть ли у вас этот кодек, и обновить драйвер вручную, выполните следующие действия
В поле поиска на панели задач введите диспетчер устройств, а затем выберите его в списке результатов.
Нажмите стрелку рядом с разделом Звуковые, игровые и видеоустройства, чтобы развернуть его.
Найдите аудиокодек IDT High Definition Audio. Если он есть в списке, щелкните его правой кнопкой мыши и нажмите Обновить драйвер,а затем выберите пункты Выполнить поиск драйверов на этом компьютере > Выбрать драйвер из списка уже установленных драйверов.
Вы увидите список предустановленных драйверов. Выберите Устройство с поддержкой High Definition Audio и нажмите кнопку Далее.
13. Если у вас есть проблемы с микрофоном, убедитесь, что параметры конфиденциальности настроены правильно
В разделе Разрешить доступ к микрофону на этом устройстве выберите Изменить. Убедитесь, что переключатель установлен в положение Вкл..
Если у вас возникла эта проблема с конкретным приложением, прокрутите список вниз до пункта Выбрать приложения Microsoft Store, которые могут получать доступ к микрофону и убедитесь, что переключатель рядом с этим приложением также переведен в положение Вкл..
Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию. С помощью специальных программных средств (редакторов звукозаписей) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи, что, в результате, даёт возможность управлять компьютером с помощью голоса. На этом уроке учащиеся узнают, как в компьютере представляется звук, то есть какое устройство в компьютере производит оцифровку вводимого звукового сигнала, от чего зависит качество цифрового звука и какие виды кодирования звуковых файлов существуют.
В данный момент вы не можете посмотреть или раздать видеоурок ученикам
Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобретя в каталоге.
Яндекс.Клавиатура и GBoard (Google Клавиатура)
Если вы большую часть времени работаете со смартфона и хотите использовать возможность голосового ввода текста, воспользуйтесь функционалом голосового ввода, который есть в клавиатурах от Google и Яндекс:
- GBoard — клавиатура от Google. Для Android и iOS;
- Яндекс.Клавиатура. Для Android и iOS.
Так вы сможете надиктовывать текст в любом приложении, которое вы обычно используете для организации личных и рабочих заметок, задач и подобного (Google Keep, Notion, Trello и т. д.).
Воспользоваться голосовым вводом просто:
- Откройте нужное приложение (например, Google Keep) и создайте заметку;
- Откройте клавиатуру и нажмите на значок микрофона (ниже пример, как это сделать в GBoard);
- Начните диктовать заметку. Система распознает речь и преобразует ее в текст.
Голосовой ввод на GBoard (клавиатуре от Google)
Рекомендации, которые помогут улучшить качество распознавания текста
Все сервисы, которые мы привели в подборке, достаточно хорошо распознают русский язык, однако иногда качество распознанного текста может быть посредственным. Чтобы такого не происходило, следуйте нескольким базовым рекомендациям.
Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.
5. TalkTyper
Простой онлайн-сервис для голосового ввода с поддержкой 37 языков.
В этом сервисе минимум функций, однако с распознаванием русского языка он справляется вполне неплохо. Для начала распознавания речи необходимо нажать на значок микрофона, разрешить его использование в браузере и начать диктовку текста.
Если сервис распознал фразу неправильно, нажмите на значок «Варианты»:
Часть I. Программа для управления компьютером при помощи голоса
Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.
Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:
Это одному мне режет глаз?
Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.
Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).
По образу и подобию была написана новая программа (месяца за три).
Собственно, посмотреть, как она работает, можно здесь:
Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):
Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.
Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.
Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).
Google Docs
Тем, кто много работает с Google Документами, пригодится встроенная функция голосового ввода (поддерживает русский язык).
Если вы еще не знали о ней, вот как ее включить: «Инструменты» → «Голосовой ввод».
Слева появится всплывающее окошко с выпадающим списком для выбора языка речи и кнопкой с иконкой микрофона.
Выберите нужный язык, нажмите на кнопку и начните диктовать текст.
Дополнительные инструменты для голосового ввода текста
Задача №3. Проверка того, что произносится один из 6 запомненных звуков
В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.
Давайте посмотрим, насколько оправдано применение нейронной сети здесь.
Вспомним, что делают нейроны в искусственных нейронных сетях.
Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.
Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.
Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.
Итого, на выходе нейрона (обозначим его за Y) получаем:
(опустим пока тонкости про сигмоидальные функции)
Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y
Проиллюстрируем сказанное конкретными числами.
Пусть W1=1, W2=1, C=-5;
Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.
Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.
Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).
А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):
И тут уж без третьего слоя не обойтись:
А третий слой – это уже почти Deep Learning…
Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.
Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:
Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.
Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):
Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:
Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:
— Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
— А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?
Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».
Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:
Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?
А есть одна маленькая, но очень существенная деталь.
Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.
Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.
Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном — тем более.
А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.
Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.
Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?
Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.
Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?
Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.
Далее, представим, что звука три. В этом случае проведём границы между каждой парой звуков.
И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:
На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):
Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.
Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.
Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.
Никакая нейронная сеть не сможет более правильно отделить один звук от другого.
Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.
Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).
Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.
Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.
Компьютеру, как и человеку, необходимы свои «глаза и уши», с помощью которых он мог бы воспринимать информацию извне. В настоящее время имеются разнообразные устройства, выполняющие эти функции в составе компьютера. Они называются устройствами ввода , так как обеспечивают ввод в компьютер данных в различных формах: чисел, текстов, изображений, звуков.
Устройства ввода преобразуют эту информацию из формы, понятной человеку, в цифровую форму, воспринимаемую компьютером.
Современные компьютеры могут обрабатывать числовую, текстовую, графическую, звуковую и видеоинформацию .
Клавиатура — компьютерное устройство, которое располагается перед экраном дисплея и служит для набора текстов и управления компьютером с помощью клавиш, находящихся на клавиатуре.
Клавиатура позволяет вводить в компьютер числовую и текстовую информацию , а также различные команды и данные.
Сканер используется для оптического ввода в компьютер и преобразования в компьютерную форму изображений (фотографий, рисунков, чертежей).
Сканеры используются и для бесклавиатурного ввода текста. Всякую информацию сканер воспринимает как графическую. Если это был текст, который в другом случае пришлось бы набирать вновь, то после работы сканера специальная программа распознавания текста, позволяющая выделить в считанном изображении отдельные символы и сопоставить с ними соответствующие коды символов, преобразовывает его в пригодный для обработки текст.
Веб-камера — малоразмерная цифровая видео- или фотокамера, способная в реальном времени фиксировать видеоизображения, предназначенные для дальнейшей передачи по компьютерной сети.
Цифровые камеры позволяют получать видеоизображение и фотоснимки в цифровом (компьютерном) формате. Позволяют вводить в компьютер графическую информацию.
Сенсорный экран — устройство ввода информации, представляющее собой экран, реагирующий на прикосновения к нему.
Графический планшет (дигитайзер). Графический планшет (со световым пером) — это устройство для ввода рисунков от руки и рукописного текста непосредственно в компьютер.
Также к компьютеру можно подключать специальные датчики . Это могут быть датчики измерения различных показателей воздуха, используемых на метеостанциях. А могут быть датчики, используемые в робототехнике: датчики контроля движения, ультразвуковые датчики расстояния, датчики цвета, датчики угла поворота и т.п.
Устройства речевого ввода. Средства речевого ввода позволяют пользователю вместо клавиатуры, мыши и других устройств использовать речевые команды (или проговаривать текст, который должен быть заранее занесён в память компьютера). Возможности таких устройств пока довольно ограничены.
Указательные (координатные) устройства ввода информации осуществляют непосредственный ввод информации, указывая курсором на экране монитора команду или место ввода данных. Данные устройства позволяют перемещать курсор или другие объекты соответствующих программ по двухмерному пространству экрана монитора с целью облегчения взаимодействия пользователя с компьютером при вводе информации.
Мышь . При её перемещении по коврику на экране перемещается указатель мыши, при помощи которого можно указывать на объекты и/или выбирать их.
Джойстик — устройство ввода информации, которое представляет собой вертикальную ручку на подставке и предназначено для управления в двух плоскостях.
Джойстик входит в необходимый игровой набор для компьютера, применяют его и в различных программах-тренажёрах и обучающих симуляторах (наряду с виртуальными шлемами, рулями и т. п.).
Сенсорный экран — устройство, предназначенное для ввода и вывода информации с помощью прикосновений к этому экрану.
Тачпад служит для перемещения курсора в зависимости от движений пальца пользователя и используется для замены мыши в ноутбуках. Для перемещения курсора на весь экран достаточно небольшого перемещения пальца по поверхности тачпада.
Световое перо внешне имеет вид шариковой ручки или карандаша, соединённого проводом с одним из портов компьютера.
Световое перо даёт возможность управлять несенсорным экраном. С помощью светового пера можно рисовать, используя специальные драйверы.
5 бесплатных онлайн-сервисов для голосового ввода
3. Voice Notepad
Еще один сервис для голосового ввода текста. Как и остальные сервисы, работает только в браузере Google Chrome.
У сервиса простой интерфейс. Здесь есть:
- возможность выбрать язык распознавания (сервис работает на основе движка Google Speech Recognition и может распознавать речь на более чем 100 языках);
- текстовое поле — здесь будет появляться распознанный текст, который можно отформатировать: выделить полужирным, курсивом или подчеркиванием, оформить списки, добавить или убрать отступы, задать выравнивание;
- кнопки управления — кнопка Start активирует распознавание речи. С помощью остальных кнопок можно копировать текст, сохранять в txt-файл, публиковать и совершать другие действия.
Сервис поддерживает голосовые команды. Например, с помощью команды можно перевести текст на новую строку, поставить тире или другие знаки препинания, спецсимволы и т. д.
Полный список поддерживаемых команд для русского языка — здесь.
Бесплатный онлайн-сервис для распознавания речи. Достаточно неплохо распознает русский язык. Всего поддерживает более 60 языков.
У SpeechTexter есть веб-версия (работает только в Google Chrome) и мобильное приложение для Android.
Для начала работы с сервисом необходимо выбрать язык распознавания и нажать кнопку Start (предоставив доступ к микрофону).
В текстовом поле есть несколько полезных функций:
- счетчик слов, распознанных системой;
- инструменты редактирования текста: выделение полужирным, курсивом, подчеркиванием, выравнивание текста, изменение размера шрифта. Также можно менять цвет текста, создавать нумерованные и ненумерованные списки;
- можно включить ночной режим — полезно, если вы используете сервис вечером или ночью.
В правой части интерфейса размещен блок со стандартными голосовыми командами для добавления знаков препинания и нового абзаца:
На вкладке Custom можно создать свои команды, например для добавления кавычек.
После завершения диктовки текст можно отредактировать и сохранить в файле:
- в txt-файле;
- документом Microsoft Word.
Получите невероятные возможности
Задача №2. Получение 13 кепстральных коэффициентов
Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.
И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» — набора признаков, которые бы однозначно классифицировали звуковую волну.
Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).
Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).
Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.
Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.
Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.
Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).
Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.
В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:
Шаг | Функция sphinxbase | Суть операции |
---|---|---|
1 | fe_pre_emphasis | Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты. |
2 | fe_hamming_window | Окно Хемминга – вносит затухание в начале и конце кадра |
3 | fe_fft_real | Быстрое преобразование Фурье |
4 | fe_spec2magnitude | Из обычного спектра получаем спектр мощности, теряя фазу |
5 | fe_mel_spec | Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты |
6 | fe_mel_cep | Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага. Оставляем первые 13 значений результата. Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит. |
В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.
Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:
Шаг | Функция sphinxbase | Переделка |
---|---|---|
1 | fe_pre_emphasis | cas_pre_emphasis (через frame[i] -= frame[i — 1] * pre_emphasis_alpha;) |
2 | fe_hamming_window | for(i=0;i |
3 | fe_fft_real | ippsDFTFwd_RToCCS_32f |
4 | fe_spec2magnitude | for(i=0;i buf_ipp[i]=buf_ipp[i*2]*buf_ipp[i*2]+buf_ipp[i*2+1]*buf_ipp[i*2+1]; |
5 | fe_mel_spec | cas_mel_spec (через предрасчитанную таблицу) |
6 | fe_mel_cep | CS_mel_cep (через логарифм + ippsDCTFwd_32f_I) |
Что же дальше? У нас есть вектор 13-мерного пространства. Как определить, к какому звуку он относится?
Часть II. Как это устроено?
Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:
- Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
- Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
- Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
- Воплощение найденных звуков в движение/щелчки мыши
Последняя задача просто реализуется при помощи функции SendInput.
Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.
1. SpeechPad
Speechpad — бесплатный сервис для голосового ввода текста. Доступен в трех форматах:
- онлайн-сервис;
- браузерное расширение — с его помощью можно вводить текст в любое поле для ввода;
- мобильное приложение для Android и iOS.
У сервиса также есть платные функции. Их два вида:
- дополнительные (расширенные). Включают в себя голосовой ввод в режиме интеграции с OS Linux и Windows, а также транскрибирование аудиофайлов длиной более 15 минут;
- премиум. Пакетное транскрибирование аудио и видео (больше двух файлов).
Онлайн-сервис
Интерфейс сервиса выглядит так:
Здесь есть несколько настроек, кнопки управления и поле, в котором отображается распознаваемый текст.
Что можно сделать сделать:
- настроить язык голосового ввода. Базово с списке доступно 14 языков (среди них русский, украинский, английский, немецкий). Если нужен другой язык, необходимо зарегистрироваться в сервисе. После этого в личном кабинете появится возможность добавить этот язык (если для него поддерживается распознавание речи);
- активировать опцию «Включить команды». Если вы авторизованы в личном кабинете, вы можете добавлять голосовые команды и использовать их при надиктовке текста. Например, удалить последний распознанный фрагмент текста;
- отключить управление заглавными буквами Google. По умолчанию в речи распознается начало предложений и автоматически проставляются заглавные буквы. Вы можете отключить эту опцию и самостоятельно редактировать предложения.
Обратите внимание! Онлайн-сервис Speechpad корректно работает только в браузере Google Chrome. Можно запускать его и в Яндекс.Браузере, но все же для корректной работы рекомендуется использовать именно Chrome.
Для начала распознавания текста нажмите кнопку «Включить запись» и предоставьте доступ к микрофону.
Затем надиктовывайте текст. Сначала распознанные слова появятся в поле справа от кнопки «Включить запись». После небольшой паузы они попадут в поле ниже (результирующее поле).
Над результирующем полем есть кнопки со знаками пунктуации. По ходу диктовки вы можете добавлять их вручную.
После того как вы закончили диктовку, просмотрите текст, исправьте ошибки (если есть). Затем скопируйте текст или скачайте в виде txt-файла.
Транскрибация
Также с помощью Speechpad можно переводить аудиозаписи разговоров в текст с помощью опции «Транскрибация».
Здесь можно будет загрузить аудио- или видеофайл, а также добавить ссылку на видео с Youtube.
После нажатия на кнопку «Включить запись» файл начнет проигрываться и система переведет речь в текст.
Расширение SpeechPad
Установите расширение из магазина расширений Google Chrome. После установки в контекстном меню в браузере (при клике правой кнопкой мыши на любой области экрана) появится пункт «SpeechPad».
Кликните правой кнопкой мыши по любому полю для ввода текста и выберите расширение из контекстного меню. Поле подсветится, и вы сможете голосом произнести фразу, которую нужно ввести в поле. Расширение распознает ее и отобразит в виде текста.
Мобильное приложение
Доступно две версии: для Android и iOS.
Приложение может работать в автономном режиме (без подключения к интернету). Так выглядит интерфейс приложения на Android:
В настройках можно управлять голосовыми командами (для расстановки знаков препинания и спецсимволов с помощью голоса):
2. VoiceNote
Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.
Как пользоваться сервисом
Откройте редактор и выберите язык, на котором нужно распознавать речь. Для этого кликните по иконке земного шара и укажите нужный язык.
Затем кликните по значку микрофона и предоставьте сервису доступ к микрофону вашего компьютера или ноутбука.
После этого система начнет запись и вы сможете надиктовывать текст. Распознанный текст появится в редакторе. Возможности:
- можно проговаривать знаки препинания словами;
- голосовой командой можно перевести текст на новую строчку;
- с помощью панели инструментов можно вручную добавлять знаки препинания и спецсимволы прямо во время диктовки;
- готовый текст можно отредактировать и сохранить в txt-файле.
Конспект урока "Представление звука в компьютере"
· оцифровка вводимого звукового сигнала;
· качество цифрового звука;
· виды кодирования звуковых файлов.
С начала 90-ых годов персональные компьютеры получили возможность работать со звуковой информацией.
Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.
С помощью специальных программных средств (редакторов звукозаписей) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи и, в результате, появляется возможность управления компьютером при помощи голоса.
А как же представляется звук в компьютере?
Вообще звук – это процесс колебания воздуха или любой другой среды, в которой он распространяется. Звук характеризуется амплитудой (силой) и частотой (количеством колебаний в секунду).
Под звукозаписью понимают процесс сохранения звуковой информации на каком-либо носителе с помощью специальных устройств.
Ввод звука в компьютер производится с помощью звукового устройства, микрофона или радио, выход которого подключается к порту звуковой карты.
Рассмотрим подробнее процесс ввода звука в компьютер.
Звуковые сигналы непрерывны. С помощью микрофона звуковой сигнал превращается в непрерывный электрический сигнал. Но, как вы помните компьютер может работать только с цифровой информацией, поэтому если нам нужно обработать звук на компьютере, то его необходимо дискретизировать – то есть превратить в прерывистую, состоящую из отдельных частей, последовательность нулей и единиц.
Процессом преобразования звука из непрерывной формы в дискретную при записи и из дискретной в непрерывную при воспроизведении занимается звуковая карта или аудио адаптер.
Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. То есть задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.
Промежуток времени между двумя измерениями называется периодом измерений — обозначается буквой Т и измеряется в секундах.
Обратная величина называется частотой дискретизации. Она обозначается буквой ν. Ровна 1/Т и измеряется в герцах.
Таким образом на качество преобразования звука влияет несколько условий:
• Частота дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.
• Разрядность дискретизации – количество битов, выделяемых для записи каждого результата измерений.
Результаты таких измерений представляются целыми положительными числами с конечным количеством разрядов. Как мы уже говорили, в таком случае получается дискретное конечное множество значений в ограниченном диапазоне.
Размер этого диапазона зависит от разрядности ячейки — регистра памяти звуковой карты.
То есть обратите внимание, снова работает главная формула информатики:
здесь i — это разрядность регистра. Также число i называют разрядностью дискретизации. Записанные данные сохраняются в файлах специальных звуковых форматов.
Две минуты записи цифрового аудиофайла занимают на диске 5,1 Мб. Частота дискретизации ровна 22050 Герц. Нужно найти разрядность аудиоадаптера.
При воспроизведении звукового файла цифровые данные преобразуются в электрический аналог звука. К звуковой карте подключаются наушники или звуковые колонки. С их помощью электрические колебания преобразуются в механические звуковые волны, которые воспринимают наши уши.
Таким образом, чем больше разрядность и частота дискретизации, тем точнее представляется звук в цифровой форме и тем больше размер файла, хранящего его.
Рассмотрим такой пример: Нужно определить качество звука (то есть какое это качество радиотрансляции или качество аудио-CD) если известно, что объём моноаудиофайла длительностью звучания в 10 секунд равен 940 Кб. Разрядность аудиоадаптера ровна 16 бит.
Рассмотрим ещё один пример. Аналоговый звуковой сигнал был дискретизирован сначала с использованием 256 уровней интенсивности сигнала (качество звучания радиотрансляции), а затем с использованием 65536 уровней интенсивности сигнала (качество звучания аудио-CD). Нужно найти во сколько раз различаются информационные объёмы оцифрованного звука?
Для работы со звуковой информацией на компьютере используются различные программы. Одни из них позволяют записать звук на цифровой носитель, другие — воспроизвести. Существуют программы, которые выполняют более сложную обработку звука. Такие программы называются редакторы звука. Например, можно вырезать фрагмент музыкального произведения или речи, объединить фрагменты, изменить тембр звучания, длительность воспроизведения создавать различные музыкальные эффекты, очищать звук от шумов, согласовывать с изображениями для создания мультимедийных продуктов и так далее.
При хранении оцифрованного звука приходится решать проблему уменьшения объёма звуковых файлов. Существует два способа кодирования звука: кодирования данных без потерь, позволяющего осуществлять стопроцентное восстановление данных из сжатого потока. А также кодирование данных с потерями. Позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных. Здесь используются различные алгоритмы, сжимающие оригинальный сигнал путём выкидывания из него слабо слышимых элементов.
Существует множество различных аудио форматов. Наиболее часто используются такие форматы как WAV и MP3. Тип формата обычно определяется расширением файла (то, что идёт после точки в имени файла mp3, wav, ogg, wma)
WAV – один из первых аудио-форматов. Обычно используется для хранения несжатых аудиозаписей, идентичных по качеству звука записям на компакт-дисках. В среднем одна минута звука в формате wav занимает около 10 Мб.
MP3 – наиболее распространённый в мире звуковой формат. MP3, как и многие другие форматы кодирует звук с потерей качества, то есть урезает звук, который не слышится человеческим ухом, тем самым уменьшая размер файла.
На текущий момент mp3 не является лучшим форматом по соотношению размера файла к качеству звучания, но в силу своей распространённости и поддерживаемости большинством устройств, многие хранят свои записи именно в нём.
Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. Задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.
Качество оцифрованного звука зависит от:
• Частоты дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.
• и Разрядности дискретизации – то есть от количества битов, выделяемых для записи каждого результата измерений.
Существует два способа кодирования звука:
• кодирования данных без потерь, здесь осуществляется стопроцентное восстановление данных из сжатого потока;
• кодирование данных с потерями. Это способ позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных.
Если вы работаете в digital-маркетинге, вам постоянно нужно взаимодействовать с текстом: записывать идеи, задачи, описывать концепции, писать статьи и многое другое. Иногда проще и быстрее надиктовать текст, чтобы не забыть важную мысль или задачу. Диктофон для этого подходит плохо: запись потом нужно будет расшифровывать и переводить в текст. А если оставлять голосовые заметки часто, то потом просто нереально быстро найти нужную информацию или бегло ее просмотреть.
Голосовой ввод текста помогает решить эту проблему. Вы диктуете — программа сразу переводит речь в текст, который вы можете сохранить как обычную заметку и дальше работать с ней спокойно работать.
В статье мы собрали подборку бесплатных сервисов голосового ввода, которые помогут вам:
- быстро и удобно делать заметки, когда нет возможности или времени записывать вручную;
- записывать голосом список задач;
- надиктовывать черновики статей и других текстов.
Берите на вооружение сервисы из подборки и тестируйте — все они бесплатные и неплохо распознают русский язык.
Читайте также: