Можно ли в будущем научить компьютер воспринимать мимику тембр и громкость голоса человека
За время пандемии работы у разработчиков Учи.ру только прибавилось: по данным SimilarWeb за апрель, платформа стала вторым по популярности образовательным сайтом в мире. А вот сконцентрироваться на ней из дома получается с переменным успехом. Мы проверили на себе самые разные лайфхаки и хотим поделиться результатами. Сегодня разбираемся с одним из самых многообещающих способов — музыкой.
Наверное, у каждого разработчика есть свой набор музыки на все случаи жизни: для учебы, спорта, работы. Причем для горящих дедлайнов выбираем что-то пожестче, для рутинных задач — ритмичное, но без акцентов. Для домашних дел сгодятся подкасты, для обеда — выпуск блогера на YouTube, под игру можно включить белый шум стрима на Twitch. Но мало у кого есть готовый плейлист, чтобы сосредоточиться.
При опросе коллег мнения разделились: примерно по 40% из них для лучшей концентрации выбирают тишину и любимую музыку. Еще у 15% есть специальные плейлисты или приложения именно на тот случай, когда необходима максимальная сфокусированность. Еще 4% и 3% соответственно слушают белый шум и звуки природы.
Интерес к влиянию музыки на концентрацию породил огромное количество исследований, мифов и коммерческих проектов. Миллионы людей ищут способ борьбы с прокрастинацией в аудио. Одно лишь приложение Endel, которое обещает генерировать звуки для концентрации внимания пользователя, скачали в общей сложности более 2 млн раз. А YouTube-канал ChilledCow с самыми популярными стримами лоу-фай хип-хопа насчитывает уже больше 7 млн подписчиков.
Приятный джаз или тяжелый рок?
Исследователи изучали влияние на продуктивность не только произведений великого австрийского композитора. Так какую же музыку выбрать? Есть ли универсальные рецепты?
Для начала стоит сузить круг поисков и рассматривать только приятные мелодии. Непривлекательная музыка, прослушанная до работы, снижает производительность. Некоторые эксперты предлагают слушать саундтреки из видеоигр. Ведь эти композиции составляют специально, чтобы помочь человеку сосредоточиться и погрузиться в процесс.
Тяжелая музыка помогает сбросить напряжение и настроиться на высокий темп работы. Австралийские исследователи провели эксперимент, в котором людям включали панк-рок, скрим и метал и задавали раздражающие вопросы. Во время прослушивания музыки испытуемые успокаивались быстрее. Уверены, что многие присоединятся к популярному мнению, что жесткий активный блэк-метал помогает разогнаться и сделать работу быстрее.
Такие разные виды музыки, как техно, классика и бразильский поп, могут оказывать похожий эффект. Дело в различимой речи: она способствует рассеянности внимания, а ее отсутствие может стать одним из критериев при выборе фона для продуктивного дня (конечно, если вы не знаете португальский язык).
Главный миф музыкальной терапии
Одна из самых популярных спекулятивных теорий в области использования музыки для повышения результатов умственной деятельности — так называемый эффект Моцарта. Утверждают, что музыка Моцарта — жизнерадостная и позитивная — помогает решать задачи и учиться.
Судя по всему, это мнение породило исследование, опубликованное в журнале Nature, в котором ученые анализировали влияние музыки разного темпа и тональности на состояние обучающихся. Проблема в том, что участникам эксперимента давали слушать одну и ту же сонату Моцарта в более быстром или более медленном темпе, в миноре или мажоре. Результаты показали, что быстрая и жизнерадостная музыка лучше способствует решению пространственных задач. Ну а выбор был: Моцарт или Моцарт. Так что победил Моцарт. Возможно, музыка великого композитора действительно позитивно влияет на состояние и помогает настроиться, однако метаанализ с говорящим названием «Эффект Моцарта — эффект Шмоцарта» полностью опровергает красивую теорию. Скорее всего, это просто влияние позитивной мажорной музыки. Например, к таким выводам пришли организаторы исследования 2017 года.
Что слушать
Если вы верите, что фоновая музыка помогает настроиться и сосредоточиться, или просто хотите проверить, так ли это лично для вас, мы приготовили небольшую подборку приложений, в которых можно послушать «специальную» музыку:
Endel — обещают, что приложение создаст персонализированный звуковой фон для любого занятия, в том числе для концентрации внимания. Синхронизируется с сердечным ритмом и учитывает уровень естественного света.
Noisli — генерирует фон из звуков природы, в том числе для повышения продуктивности. Можно настроить количество и комбинации из 16 видов шумов.
Coffitivity — синтезатор комфортных фоновых звуков кофейни. Это решение подойдет тем, кто считает небольшое кафе эталоном комфорта, кому нравятся звуки тихих разговоров людей, звон чайных ложек и фарфоровых чашек.
My Noise — универсальный генератор шумов. Один из генераторов Cafe Restaurant позволяет смешать звуки кухни, кафе или имитации разговоров за коктейлем прямо в браузере. В отличие от Coffitivity, здесь все делается прямо на первой странице сервиса, без загрузок и регистраций.
Brain.fm — создатели приложения заявляют об искусственном интеллекте, который генерирует музыку для концентрации внимания, сна и других приятных дел. Обещают, что эффект будет длиться 15 минут после прослушивания. Много это или мало, каждый решает сам.
Rainy Mood — в арсенале этого приложения около 400 разнообразных звуков дождя, призванных помочь расслабиться и улучшить концентрацию.
A Soft Murmur — еще одна система для индивидуального смешивания фоновых звуков. Можно настроить уменьшение звука до тишины к нужному времени.
Расскажите: вы слушаете музыку во время учебы или работы? Помогает ли это вам?
При коммуникации в условиях социума используются разные средства для передачи информации. Характер этих средств зависит от тех каналов, которые люди используют для передачи и приёма информации. Для любого человека каналами получения информации являются его чувства (зрение, слух, осязание, обоняние, вкус). Дополнительным информационным каналом является болевой канал. Через него мы получаем информацию об опасностях для жизни и здоровья.
Зрительный канал коммуникации. Самым информационно ёмким является зрительный канал коммуникации. Не зря говорят: лучше один раз увидеть, чем сто раз услышать. При непосредственной коммуникации людей зрительная информация передаётся средствами артикуляции, в частности движением губ. Зрительную информацию при общении людей несёт мимика. Положение тела или пантомимика — это тоже средство коммуникации при близком общении людей.
Перечисленные средства зрительной коммуникации могут дополняться предъявлением каких-либо натуральных объектов, их изображений, текстов и т. п.
Зрительная коммуникация может носить и дистанционный характер, опосредованный техническими средствами. Для этого могут быть использованы телевидение, компьютер, например Skype, видеотелефон.
Некоторую особенность составляет зрительная коммуникация посредством дополнительных изображений и текстов. Они могут создаваться в процессе коммуникации. Например, учитель на уроке выполняет для учеников рисунок или пишет на доске текст. И рисунок и текст могут быть подготовлены им заранее и предъявлены при общении.
С развитием 3D-принтеров окажется возможным осуществлять коммуникативную связь посредством отправления адресантом и предъявления на принтере адресата материального объекта.
Аудиальный (звуковой) канал общения. В процессе аудиальной коммуникации средством связи является устная речь, семантические (содержащие определённый смысл) звуковые сигналы и ритмические звуки.
Устная речь — это процесс предъявления информации в форме определённых последовательностей звуков, каждая из которых и их сочетание несут определённый смысл. К устной речи относится не только произнесение (говорение), но и понимание последовательностей звуков (слушание).
Например, можно придать совершенно разный смысл фразе: «Ты только попробуй». Сказанные человеку ласково, с мягким тембром, эти слова подталкивают и поощряют его к действию. Эта же фраза, произнесённая с тембром угрозы, «металлическим» голосом, несёт совершенно обратный смысл.
Семантические звуковые сигналы — это не строго заданная последовательность звуков, как это представлено в речи. Это могут быть гудки, свистки, звонки и т. п. Каждый такой сигнал может означать предупреждение, оповещение, напоминание и обозначения каких-то событий. Например, звонок в школе означает начало или конец урока. Клаксон автомобиля на дороге предупреждает об опасности при переходе улицы.
Примером ритмических звуков является музыка. При коммуникации музыка чаще всего направлена на чувства человека, создавая у него определённое настроение. Однако некоторые виды музыки могут нести и определённое смысловое содержание. Исполняемый на международных соревнованиях гимн России означает победу наших спортсменов.
Аудиальная коммуникация, как и визуальная (зрительная), может носить дистанционный характер. Используя технические средства, можно общаться друг с другом, даже не находясь в непосредственной близости друг к другу.
Простейшим средством аудиального дистанционного общения является рупор, которому на смену пришёл мегафон. Мегафон значительно усиливает громкость говорения, при этом нет необходимости громко кричать в микрофон мегафона.
Для коммуникации на очень больших расстояниях используются проводные телефоны и радиотелефоны. Для коммуникации с большими аудиториями используется проводная и беспроводная радиотрансляция.
В социальной коммуникации визуальная и аудиальная коммуникации обычно протекают в единстве, дополняя друг друга и расширяя объём, качество и точность передаваемой информации. В частности, в процессе разговора смысл слов дополняется не только тембром, громкостью, ритмом и паузами, но и мимикой и пантомимикой как адресанта, так и адресата. Такое сочетание двух видов коммуникации широко используется в работе артистов театра и кино. Хороший артист может передать смысл сцены, не произнеся ни слова: только своей позой и мимикой.
Тактильный канал общения. Тактильная коммуникация (общение посредством прикосновения друг к другу) в социальной сфере имеет не столь большое значение, как визуальная или аудиальная коммуникации. Однако в отдельных ситуациях такая коммуникация может играть ведущую роль для общения.
Самым распространённым средством такой коммуникации является рукопожатие. Им мы показываем невраждебное, дружеское расположение к тому, с кем вступаем в контакт. Рукопожатие говорит о тёплых отношениях адресанта и адресата.
Средством тактильной коммуникации служит и похлопывание по плечу или по спине. Такое похлопывание в зависимости от контекста коммуникации может выражать дружеское расположение, призывающее к доверительности при общении. Оно может показывать одобрение слов или поступков, поощрение к действию.
Ещё одним средством тактильной коммуникации являются объятия субъектов коммуникации. Они выражают дружеское расположение субъектов общения и даже любовь друг к другу. Объятия могут сопровождаться и похлопыванием.
Средством тактильной коммуникации является и болевое воздействие. Коммуникации посредством боли часто используют для того, чтобы подчинить себе кого-то. Драка или война — именно такая форма коммуникации.
Обонятельный и вкусовой каналы общения. Средствами коммуникации для обонятельного и вкусового каналов являются соответствующие материальные объекты, которые передаются или пересылаются адресату адресантом. Эти каналы и соответствующие средства не имеют большого распространения при социальной коммуникации. Например, юноша дарит девушке духи ко дню её рождения, выражая через их приятный запах своё расположение к ней. Родители покупают ребёнку сладкую конфету, показывая этим свою любовь к нему.
Вербальный и невербальный каналы общения. Социальные коммуникации можно разделить на две группы: вербальные и невербальные. Вербальными называются коммуникации при помощи речи. Речь — это форма общения людей посредством языковых конструкций, создаваемых на основе определённых правил. Языком называется система знаков, в которой каждому предмету, процессу или явлению в окружающем мире поставлен в соответствие определённый знак, задающий соответствующее понятие, его звучание и написание.
Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны — восприятие языковых конструкций и их понимание.
Ещё более «примитивно» компьютер воспринимает передаваемый ему образ какого-либо объекта, процесса или явления. Такой образ фиксируется ЭВМ как определённый набор точек и свободных мест. Компьютер не может «прочитать», что означает, например, та или иная поза человека или выражение его лица.
Образную информацию можно передать компьютеру посредством видеокамеры, сканера, планшета для рисования.
Информация от компьютера при коммуникации может быть представлена на экране в виде текста, статического или динамического образа. Она может быть передана через аудиальный канал как речь, музыка или другие звуки посредством динамиков. Компьютер может передать информацию с помощью принтера в форме текстов, картин, рисунков, фотографий или объёмных материальных объектов.
Компьютер чаще используется как техническое средство для коммуникации людей, а не как адресат или адресант. Все перечисленные выше функции компьютера позволяют качественно построить дистанционную коммуникацию людей. С его помощью может быть обеспечен обмен аудиальной, визуальной информацией и при использовании 3D-принтеров даже информацией в виде материальных объектов.
Словарь
вербальный канал общения; невербальный канал общения.
Проверьте себя:
1. Какой канал связи является для подавляющего большинства людей наиболее информационно ёмким?
2. Какой канал общения люди чаще всего называют коммуникацией?
3. Часто ли при коммуникациях используются обонятельный, вкусовой и тактильный каналы связи?
4. На какие группы по форме представления информации делятся коммуникации?
Как вы полагаете, можно ли в будущем научить компьютер восприни мать мимику, пантомимику, тембр и громкость голоса человека?
Компьютеры в ближайшем будущем смогут не только повиноваться голосу человека, но и слушаться его жестов и даже взглядов, вычисляя настроение хозяина. Технологии компьютерного зрения откроют доступ к общению для людей с ограниченными возможностями, помогут диагностировать состояние маленьких детей и станут «эмоциональными глазами» для страдающих аутизмом.
Современные «устройства ввода» — именно так называются компьютерная клавиатура, мышь, джойстик — прочно вошли в нашу жизнь и даже стали для многих пользователей компьютеров вторыми «руками». Действительно, управление мышью тривиальное, возможность печатать «вслепую», то есть глядя на экран, а не на клавиатуру, доводит почти до автоматизма обращение к компьютеру.
Однако тактильный, осязательный метод передачи информации, в принципе, не свойственен Homo Sapiens: в докомпьютерную эру люди использовали для этого взгляд, голос, частично жесты.
Ученые полагают, что общение с «компьютерами будущего» станет возможным именно при помощи традиционных человеческих «средств связи».
Лиджун Инь, профессор Бингемтонского университета и директор Лаборатории компьютерной графики и обработки изображений, занимается обучением компьютеров человеческому языку.
Инь и его коллеги разработали метод передачи информации от компьютера к человеку посредством взглядов, жестов или речи.
Чтобы машина могла воспринимать информацию, была разработана специальная технология «компьютерного зрения» — простая веб-камера становилась для компьютера человеческим глазом, отчасти обладая способностью интерпретировать объекты и явления реального мира и «понимать» желания пользователя.
«Наши исследования в области компьютерной графики и компьютерного зрения нацелены на то, чтобы сделать использование компьютеров проще. В идеале с компьютером можно взаимодействовать в формате «дружеской беседы». Такие машины смогут использовать и люди с ограниченными возможностями», — считает профессор Инь.
Разработка специального математического аппарата для анализа данных, получаемых веб-камерой, отчасти позволила компьютерам «видеть».
Один из аспирантов из лаборатории Иня сделал перед экспертами Военно-воздушных сил США презентацию с использованием Microsoft Power Point, управляя программой с помощью взгляда.
Из оборудования в его распоряжении были только ноутбук и веб-камера, и этого было достаточно, чтоб взглядом сообщить компьютеру, какой участок слайда в презентации нужно подчеркнуть или выделить.
Следующая стадия сверхточной обработки изображения с веб-камеры — научить компьютер оценивать настроение и психологическое состояние хозяина. Для облегчения задачи исследователи разбили всю гамму эмоций на шесть базовых состояний:
злость, отвращение, страх, радость, грусть и удивление;
и начали экспериментировать с автоматическим распознаванием этих эмоций. Они изучают важность анализа состояния отдельных частей лица — глаз, рта, лба — для выражения эмоций, а также оценивают точность оценки, если лицо видно лишь частично, например, в профиль.
«Компьютеры понимают только нули и единицы, вся задача стоит в путях кодировки»,
Компьютерное распознавание эмоций может оказать существенную помощь людям, которые лишены способностей либо понять их, либо, наоборот, выразить свое собственное состояние. Например, люди, страдающие аутизмом, часто не могут правильно интерпретировать эмоции окружающих, поэтому испытывают трудности в общении. Компьютер смог бы «переводить» для них внешний мир. Маленькие дети, наоборот, еще не обладают достаточным речевым аппаратом, чтобы передать свои собственные эмоции. Так, взрослый человек может пойти к врачу, если испытывает боль, а также точно указать ее место и характер. Младенцы способны лишь плакать, испытывая дискомфорт. Дать более точные данные они не могут, меж тем плач сам по себе не всегда означает боль. Анализ мимики с помощью компьютерной программы, возможно, поможет отличить, действительно больного ребенка от просто капризничающего или уставшего.
Когда-то для подделки лиц на фотографиях требовались высокий уровень мастерства и таланта, а также большое количество времени. Но более 15 лет назад у человечества появился такой инструмент, как Photoshop и изготовить фальшивку из исходника стало значительно проще. Казалось, что провернуть подобную махинацию на видео невозможно, но команда инженеров из США и Германии разработала программу «замены лиц» Face2Face, которая позволяет в режиме реального времени менять мимику и речь выступающего на желаемую.
Как заверяют разработчики, для мистификации требуется актёр (или кто-то иной), мимика которого будет накладываться на лицо "жертвы", стандартная RGB-камера, компьютер с процессором не хуже Intel Core i7 и видеокартой Nvidia GTX980. С помощью датчика глубины изображения программа создаёт по каждому участнику маску, в которой есть привязки к определённым мимическим точкам на лицах. После этого система на лету создаёт реалистичную видеоверсию лица и накладывает её поверх реального лица выступающего, при этом положение его головы в данный момент не играет роль. Возможности Face2Face можно оценить в прилагаемом видео, в нём разработчики воспользовались выступлениями известных мировых фигур (Джорджа Буша, Владимира Путина, Дональда Трампа и Барака Обама).
Данная технология не доступна за пределами исследовательской лаборатории, но только пока. Как видно из видеоролика, местами наложение выдаёт себя искусственной и "натянутой" мимикой. Программа находится на доработке, но создатели надеются на её коммерциализацию в недалёком будущем. Face2Face может найти применение при создании фильмов и реалистичных компьютерных игр, при дубляже видео на разные языки и так далее. Хотелось бы верить, что до политических подделок и профанаций дело не дойдёт.
На лице человека отображаются любые эмоции, как бы человек ни старался их скрыть. Обычные эмоции может распознать как человек, так и машина, но сейчас речь идет о микровыражениях, мимике лица, которая практически незаметна для окружающих. Сейчас разработан алгоритм, выявляющих эти мини-эмоции, и распознающий их.
Ранее это умели делать (и то не слишком хорошо) только тренированные профессионалы — полицейские, работники спецслужб, психологи. Теперь это же могут делать и машины, причем с большей точностью, чем люди. Автором проекта по изучению микровыражений и обучению компьютеров идентификации таких эмоций является Сяобаи Ли (Xiaobai Li) из Университета Оулу, Финляндия и несколько его коллег.
Команда смогла создать и проверить в работе первую систему, способную обнаружить и идентифицировать микровыражение, минимальную мимику лица человека. Причем машина выполняет эту задачу лучше, чем люди. Разработка подобной технологии стала возможной благодаря прогрессу в сфере искусственного интеллекта и когнитивного обучения. Сам алгоритм был бы бесполезен без большой базы данных, которая используется для обучения машин.
Так, первой задачей Ли и коллег была разработка базы данных видео с демонстрацией микровыражений лица человека в реальных условиях. Это сделать сложнее, чем сказать. Желание скрыть свои эмоции появляется у человека не так часто, а на камеру это сделать еще тяжелее. Но базу составлять нужно, поскольку микроэмоции значительно отличаются от обычной мимики.
Ли с коллегами решили попробовать такой метод: группу из 20 добровольцев попросили просмотреть несколько видео, которые обычно вызывают сильные эмоции у человека. При этом людям сказали, что они будут должны заполнить очень большой опросник, детально описывая каждую проявленную эмоцию. И большинство добровольцев скрывали свои чувства под маской безразличия.
Так поступили 16 из 20 человек, принявших участие в исследовании. Всего было зафиксировано 164 проявления микроэмоций, все это фиксировалось на камеру, сьемка велась со скоростью около 100 fps. Затем команда связала эмоции каждого человека с эмоциональным содержанием видео, разработав базу, которая и использовалась для обучения машин.
Для компьютерной системы задача распознавания микроэмоций делится на две части. Первая — определить изменение выражение лица человека и описать его, как микроэмоцию. Второе — идентифицировать микроэмоцию. Первая задача решилась путем сопоставления действительно безэмоционального выражения лица человека с изображениями микромимики. Любое изменение выражения лица определялось как микроэмоция.
Вторая задача, распознавание эмоций, была еще более сложной. Команда решила усилить микромимику путем фиксации движения частей лица во время изменения выражения. Основное внимание уделялось именно тем частям лица, которые определяют выражение эмоции, а не просто движутся. Затем алгоритм научили определять эмоции как позитивные, негативные или выражение удивления.
После того, как все было готово, разработчики решили сравнить, насколько хорошо люди справляются с задачей выявления и идентификации микроэмоций. После проведения ряда тестов разработчики убедились, что машины справляются с этим лучше, чем люди. Речь идет о превосходстве компьютеров как в выявлении микроэмоций, так и в их идентификации.
Где можно применить разработку? Здесь как раз особых вопросов нет — технология может использоваться в качестве детектора лжи, в правоохранительных органах, психотерапии, собеседованиях. Если уже фантазировать, то можно представить себе работу с таким алгоритмом, используя гаджет типа Google Glass.
Шум: проблема или решение
На некоторых белый шум действительно оказывает позитивное влияние. Например, одно из исследований показало, что фоновый шум в 60 дБ улучшил концентрацию у экстравертов. В другом эксперименте ученым удалось выяснить, что белый шум помогает сосредоточиться невнимательным детям, которые часто отвлекаются.
Однако эти исследования показывают и обратную сторону шума. Он снижает показатели интровертов в сравнении с работой в тишине и отвлекает внимательных детей.
Громкий продолжительный шум наносит вред организму — этот факт давно изучен и подтвержден опытами. Длительное воздействие шума негативно воздействует на вегетативную и центральную нервные системы: ухудшает психическое состояние и повышает тревожность. С громким шумом на фоне мы устаем быстрее на 15–25%, чем обычно. По данным Роспотребнадзора, уровень шума не должен превышать 68 дБ. Для сравнения: в жилых домах мы слышим примерно 40 дБ, в офисах, в которые вернемся нескоро, — 55–65 дБ. Поэтому так тяжело работать удаленно родителям младенцев: плач ребенка звучит на уровне 76–82 дБ.
Выход из этой ситуации — хорошие наушники. Правильно подобранные шумоподавляющие наушники могут обеспечить защиту от негативного влияния извне, которое мешает работать и учиться.
Читайте также: