Основные принципы визуализации компьютерной информации шуваев
Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.
Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.
Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.
Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.
Давайте ближе познакомимся с этими принципами.
5. Документируйте свои графики соответствующими метками, шкалами и источниками данных
Когда вы впервые смотрите на график, то сначала видите заголовок, а затем метки контекста графика. Без них график не рассказывает ничего. Хорошие отчёты/графики должным образом документируются, при этом каждому графику присваиваются соответствующие шкалы и метки. Источники данных, используемые для создания графиков, также имеют решающее значение. Таким образом, хорошая практика заключается в сохранении кода, который применялся для генерации данных и графиков: это позволяет воспроизводить данные. Это также добавляет достоверности вашим графикам. Более того, сохраняя код, вы можете редактировать график в случае необходимости.
1. Ясность данных
Люди смотрят на графики в отчетах, статьях, блогах, чтобы понять историю, которая за ними стоит. Данные — основа графика, и они должны быть на нем указаны. Но это не значит, что нужно разместить на графике сразу все имеющиеся у вас данные. Многие графики черезчур перегружены.
3. График и текст — единое целое
Отчеты часто страдают “эффектом слайд-шоу” — автор рассказывает о графиках в теле текста. Более эффективная модель такая — графики дополняют текст и в то же время в них достаточно информации, чтобы прочитать их как нечто самостоятельное. Небольшой пример — легенда, поясняющая значение линии, столбика, точки, часто размещается далеко от самого графика (справа) или под ним. Интегрированная легенда, которая находится сразу под названием, прямо на графике или в конце линии, намного более доступна читателю.
2. Визуальный шум
Ненужные и отвлекающие визуальные элементы сокращают эффективность визуализации. Визуальный шум может быть в виде темных или тяжелых линий сетки, излишних отметок, лейблов, лишнего текста, иконок или картинок; декоративных теней и градиента, объема. На графиках слишком часто используют текстуры и градиенты.
2. Причинно-следственная связь и объяснение
Далее следует объяснение, показывающее причинно-следственную связь в размышлениях над вопросом, на который вы пытаетесь ответить. Если вы показали, что в экспериментальной группе получен эффект, а в контрольной группе его нет, вы должны сформулировать гипотезу из доказательств, почему это так.
Возвращаясь к предыдущему примеру, допустим, что испытуемые из экспериментальной группы получили более высокие баллы по тесту, и это показывает, что тёмный шоколад улучшает концентрацию. Важный вопрос: почему это именно так?
Этот вопрос важен потому, что он помогает поднять другие вопросы, которые могут либо опровергнуть, либо подкрепить вашу гипотезу на протяжении всего исследования.
Чтобы показать причинно-следственную связь или механизм, вы можете измерить активность мозга контрольной и экспериментальной групп и построить графики результатов, показав их рядом. С помощью графика тестовых баллов и графика активности мозга вы увидите причину того, почему принимавшие шоколад испытуемые получили более высокие баллы, т. е. ответ на вопрос, как тёмный шоколад улучшает когнитивные функции.
ПРАВИЛО 3. ПРОСТОЙ ДИЗАЙН
Дизайн не должен препятствовать пониманию или искажать данные.
Ваш график не становится красивым и внушительным от того, что он нарисован объемным. Это могло удивить лет двадцать назад, на заре расцвета Excel, когда еще мало кто умел строить диаграммы. Более того, 3D–графики могут вызвать оптический обман.
Помните, если визуализация выполнена красиво, это еще не значит, что она выполнена качественно. Принципы хорошего дизайна: ясность, простота и минимализм.
ПРАВИЛО 6. НЕ ПЕРЕГРУЖАЙТЕ ИНФОРМАЦИЕЙ
Следите, чтобы не было визуальной загроможденности.
Не пытайтесь уместить на одну диаграмму всю имеющуюся у вас информацию ради того, чтобы ваш график казался умным и значительным. Визуальный ряд не должен быть перегружен сложными и многоярусными диаграммами.
Когда необходимо визуализировать много разных типов данных и категорий, целесообразнее разделять диаграмму на несколько частей. Например, если на линейном графике больше четырех-пяти линий или на столбиковой диаграмме больше двух категорий, не стоит умещать их на одном графике.
4. Предвнимательная обработка
Эффективная визуализация данных учитывает особенности восприятия информации мозгом (пре-обработку информации подсознанием). Наши глаза определяют ограниченное количество визуальных характеристик (таких как форма или контраст). Мы считываем несколько характеристик и достраиваем их в воображении до цельного образа. Предвнимательная обработка учитывает операции, которые мозг совершает до того, как читатель внимательно всмотрится в изображение. Другими словами, учитывает, что именно мы заметим сходу. Подробнее о законах воприятия и их применении читайте тут.
Когда автор популярного блога Visual Complexity Мануэль Лима общался со Стюартом Экклес из лондонского агентства Made by Many в августе 2009 года, ему в голову пришла идея сделать список соображений или требований к проектам визуализации информации, которые быстро приняли форму манифеста. Манифест проводит более чёткую границу между проектами визуализации информации и информационного искусства, у которых разные цели и аудитория (я писал об этом разделении в предыдущей статье).
Итак, 10 наставлений для любого проекта, в котором принципы визуализации информации должны доминировать:
1. Форма следует из функциональности
Форма не вытекает логически из данных. Данные непоследовательны по своей природе. Форма вытекает из цели, и в случае визуализации информации Форма следует из Открытия. Возьмите простейшую аналогию с деревянным стулом. Данные представляют собой все те различные деревянные детали (сиденье, спинка, ножки), которые затем собираются в соответствии с конечной целью «сидеть» в случае со стулом либо «обнаружить и раскрыть» в случае с визуализацией. Форма в обоих случаях возникает из сочетания различных структурных элементов, но никогда не соответствует им. Мы можем выяснить лишь из проблемной области, может ли одна компоновка быть более подходящей и легкой для понимания, чем другие. Независимо от предмета цель всегда должна фокусироваться на пояснении и раскрытии истинной сущности, что, в свою очередь, приводит к открытию и проникновению в суть.
2. Начинайте с вопроса
«Тот, кто стыдится задавать вопросы, боится учиться» — говорит известная датская пословица. Отличное качество любого человека, ведущего работу в сфере визуализации информации, — быть любознательным и пытливым. Каждый проект должен начинаться с вопроса. Это исследование, которое ведет Вас к открытию дальнейшей сути системы, а в процессе — к ответу на вопросы, которых в самом начале даже не было. Это исследование может возникнуть из личного поиска или конкретных потребностей клиента или аудитории, но у Вас всегда должен быть определен вопрос для продвижения работы.
3. Разгадка в интерактивности
Как обозначили это Бен Шнайдерман, Стюарт К. Кард и Джок Д. Маккинли, «визуализация информации — это использование интерактивных визуальных представлений абстрактных данных с использованием компьютера для расширения познания». Это широко известное высказывание подчеркивает, каким образом интерактивность является неотъемлемой частью сферы информационного и численного анализа. Любой проект по визуализации информации должен упрощать не только понимание, но и анализ данных в соответствии с конкретными примерами использования и обозначенными целями. Применяя интерактивные технологии, пользователи могут тщательно исследовать и переделать структуру, чтобы найти соответствующие ответы на свои вопросы. Эта возможность становится необходимой по мере возрастания степени сложности изображаемой системы. Визуализацию следует понимать как инструмент для открытий.
4. Цитируйте источник
Визуализация информации как любой другой способ передачи информации может обмануть, пропустить или быть намеренно необъективной. Чтобы избежать неверного понимания, всегда следует цитировать источник. Если Ваш исходный материал представляет собой общедоступные данные, результаты научного исследования или даже Ваши личные данные, всегда следует раскрывать, откуда они взяты, предоставлять ссылку на них и, если возможно, пояснять, что именно использовалось и как это было отобрано. Делая так, Вы позволите людям обратиться к первоначальному источнику и должным образом проверить его достоверность. Это также придаст убедительность и целостность Вашей работе. Этот принцип уже давно пропагандируется Эдвардом Тафти и должен широко применяться к любому проекту, в котором наглядно представляются сторонние данные.
6. Не восхваляйте эстетику
Эстетика — важное качество многих проектов визуализации информации и на первый взгляд опасный соблазн, но она всегда должна рассматриваться как следствие и никогда как конечная цель.
7. Ищите релевантность
Выведение релевантности в массиве данных — одна из самых сложных задач для любой машины. Именно в этом деле пригождаются природные способности человека, такие как распознавание моделей и параллельная обработка. Релевантность также сильно зависит от конечного пользователя и контекста взаимодействия. Если коэффициент релевантности высокий, он может увеличить возможность понимания, сопоставления и принятий решений.
8. Используйте время по максимуму
Время — одна из самых трудных для изображения переменных в любой системе. В то же время она одна из самых насыщенных. Если рассматривать социальную сеть, можно быстро понять, что фиксирование во времени сообщило бы нам лишь небольшую долю информации о сообществе. С другой стороны, если бы время было должным образом измерено и изображено, оно дало бы нам более детальное понимание меняющейся динамики этой социальной группы. Всегда следует учитывать время, когда на целевую систему влияет его ход.
9. Стремитесь к знаниям
Основная возможность визуализации информации — переводить информацию в знания. Она также нужна для упрощения понимания и содействия познанию. Каждый проект должен стремиться к тому, чтобы сделать систему более понятной и прозрачной либо найти в ней явно новое понимание или модель. Он всегда должен предоставлять собой отполированную жемчужину знаний. Как Жак Бертин красноречиво заметил в своем труде «Графическая семиология», впервые опубликованном в 1967 г., «своеобразная черта качественной графической расшифровки в том, что она сама по себе позволяет нам в полной мере оценить качество содержания информации».
10. Избегайте неоправданных визуализаций
«Информация аккуратно, но неустанно моросит невидимым, неощутимым электрическим дождем». Именно так физик Ханс Кристиан фон Бейер начинает свою книгу «Информация: новый язык науки». Визуализации информации вынуждена отвечать на растущие объемы общедоступных данных как когнитивный фильтр, как увеличительная линза понимания, и она никогда не должна добавлять еще шума к потоку. Не всякую визуализацию следует считать положительным шагом вперед. В контексте визуализации информации простая передача данных в визуальной форме, не проливающая свет на изображаемый предмет, или — что даже хуже — усложняющая его, может считаться только провалом.
Пояснения Мануэля Лима
Форма относится к конечному визуальному результату проекта: структуре, изображениям, тексту, цветам, но также вариантам и средствам управления интерфейсом. Данные — самая мелкая единица информации, и для простоты мы можем считать данные полями базы данных. По отдельности большинство полей базы данных (например, 4538) непонятны и несвязны. И только когда множество таких полей объединены с определенным намерением, может быть сформирована визуализация. Простой запрос в базу данных уже указывает на намерение. Поэтому мы можем сказать, что форма возникает из данных (как ее ключевой структурный элемент), но окончательный результат формирует цель или функция компонента. Это также единственный способ, при помощи которого мы можем оценить успешность проекта — рассматривая его намерение, его «проблемную область».
Данные принимают множество форм и размеров — от одного поля базы данных до огромных взаимозависимых массивов. Приведенный пример одного поля предназначался для повторного акцентирования внимания на его непонятной природе. Рассмотрите такую альтернативную аналогию. Я думаю о данных как о разворачивании недавно приобретенного предмета мебели IKEA. Глядя на все детали, разбросанные по полу, Вы не можете избавиться от чувства некоторого замешательства по поводу того, что делать дальше. Вы можете либо посмотреть в инструкцию, либо применить свою креативность по максимуму и создать альтернативный предмет. Но в обоих случаях внешний вид/форма/компоновка конечного предмета будут определяться Вашим намерением. Поэтому из этой точки зрения можно получить много производных: «Форма следует из намерения», «Форма следует из цели» и т.д. Я просто решил взять самое заезженное, но явное высказывание: «Форма следует из функциональности».
Если бы мы ставили своей целью получить наилучший сценарий, в нем обязательно было бы сбалансированное соотношение обоих миров — функциональности и эстетики — нацеленное на полезное, практичное, понятное, проницательное, открытое, задействующее и привлекательное исполнение. Однако такой тип эффективного результата не является нормой. Если бы было так, я бы не писал этот манифест. В последнее время, кажется, один конец спектра перетягивается гораздо сильнее, чем другой. Основной стимул для этого манифеста — восстановить этот баланс.Я ни в коем случае не против эстетики. Я хорошо осознаю ее преимущества. В контексте визуализации информации я против эстетики как единственной цели исполнения. Отсюда и название: «Не восхваляйте эстетику».
Хотите выделяться на фоне конкурентов? Чтобы ваши статьи, отчеты, презентации или посты в социальных сетях были профессиональными, интересными и доступными широкой аудитории? Используйте визуализацию данных!
Я более семи лет отработала в крупнейших медиакомпаниях и рекламных агентствах, на счету Афиша, Рамблер, РБК, создала сайт с наглядными обзорами рынков и собственный блог про визуализацию данных. Поэтому я очень хорошо понимаю то, о чем пойдет речь ниже.
Сегодня визуализация особенно важна, так как люди теряются в обилии окружающей информации и на ее восприятие тратится слишком много времени. Поэтому скучные непонятные тексты часто остаются без внимания. Читатель не будет тратить время, чтобы в них разобраться.
Визуально представленная информация в сравнении с обычным текстом и таблицами:
- привлекает намного больше аудитории;
- увеличивает вовлечение читателей;
- быстрее воспринимается;
- легче запоминается.
Зачем визуализировать данные?
Привлекать больше трафика на сайт. Люди лучше воспринимают и запоминают зрительную информацию. К тому же рассматривать картинки и искать взаимосвязи довольно увлекательно, а значит, так вы повысите время нахождения пользователей на сайте, и, следовательно, их вовлеченность и лояльность к вашей компании.
Анализировать большой набор данных и делать статистику/отчеты. Чаще всего визуализацию используют именно здесь. Например, чтобы посчитать прибыль компании за год. Гораздо проще прийти к логичному заключению, глядя на график, где один из столбцов находится выше всех остальных, чем пролистать несколько страниц статистики в Google Sheets или Excel.
Доступно объяснять сложные вещи и явления. С помощью визуализации спокойно заменить целые куски текста и выделять взаимосвязи. А еще это просто красиво, так что какая-нибудь инфографика станет прекрасным дополнением для вашего новостного или аналитического портала или блога.
Наглядный пример, как работает визуализация. Если попросить человека вспомнить названия материков, в голове сначала всплывает сначала эта карта, которая висела перед глазами на уроках географии в школе, а затем и названия.
Графики
Наверное, самый привычный для нас вид визуализации данных. Именно графики мы видим в учебниках в школе, с ними же первым делом знакомимся, когда начинаем осваивать Excel.
Графики строятся по осям X и Y и показывают зависимость данных друг от друга. Они, в свою очередь, делятся еще на несколько подвидов — подробнее о каждом по ссылкам ниже.
ПРАВИЛО 11. ЕДИНАЯ ЦВЕТОВАЯ ПАЛИТРА
Придерживайтесь одной цветовой гаммы.
Визуальные элементы (графики, диаграммы, схемы) на протяжении всего исследования или отчета должны быть выполнены в одной цветовой гамме.
Если же вы исследовательская компания, то цветовая палитра должна быть единой и во всех исследованиях, для соблюдения фирменного стиля. Если вы свой отчет дополняете графиками из других исследований, их необходимо перерисовывать, иначе они сильно врезаются в общую картину и портят восприятие. Во-первых, у них наверняка другая цветовая гамма, во-вторых, часто качество картинок не самое лучшее и это сразу бросается в глаза.
Перерисовать график в стиле компании займет всего 10–20 минут, а отчет будет смотреться более целостным и качественным. Таким образом, именно вы интуитивно будете восприниматься создателем информации и экспертом, даже если укажете другой источник данных, что, кстати говоря, также всегда необходимо делать.
Не игнорируйте эти простые, но очень важные правила визуализации. Берегите своих читателей. Никто не любит чувствовать себя глупо, рассматривая непонятные или нагроможденные графики и диаграммы.
А вы сами при виде странных диаграмм на конференциях или совещаниях, не задавались вопросом: «Это я один такой несообразительный, что ничего не понимаю?» Поверьте, вы не одиноки!
Информация усваивается лучше, если подать ее в виде красивых схем, графиков и диаграмм. Это называется визуализация данных — о ней и поговорим.
Сегодня она особенно важна — контента стало слишком много, люди в нем просто тонут. Визуально представленная информация более привычна и понятна человеческому глазу, с помощью нее можно быстро донести любые мысли и идеи.
2. Меньше визуального шума
Избегайте визуального шума — темных или тяжелых линий сетки, лишних иконок и меток, большого количества текста, теней и градиентов, чрезмерного объема.
3. Данные со многими переменными (более двух переменных)
Реальный мир сложен, и отношения между двумя событиями обычно нелинейны. Поэтому в исследованиях у вас есть атрибуты или переменные, которые вы можете измерить. Все эти переменные по-разному взаимодействуют друг с другом. Некоторые из них могут быть путающими, в то время как другие могут быть важными атрибутами, объясняющими взаимосвязь событий.
Как вы уже знаете, корреляция не подразумевает причинно-следственной связи. Поэтому не лучшее решение — ограничивать свое исследование только двумя переменными: это приводит к ошибочным выводам. Таким образом, вы должны показать как можно больше данных на своих графиках. Это может помочь вам выявить любую путаницу в ваших данных.
Возьмем парадокс Симпсона, парадокс в вероятностной статистике, когда «при объединении групп исчезает тенденция, возникающая в разных группах данных». Чтобы проиллюстрировать:
- Две переменные — отрицательная связь.
- Три переменные — положительная связь (x, y, z) (есть путающие переменные).
Характеристики, которые можно определить сразу
Информацию о мире мы узнаем и совершенно неосознанно. Чисто на подкорке остаются определенные визуальные характеристики (форма, контраст), которые мы можем заметить и определить сходу, не особо всматриваясь в изображение. Но круг этих характеристик ограничен — сначала наш мозг считывает то, что знает, а только потом достраивает полноценную картину. Это тоже нужно учитывать при работе с визуализацией.
Базовые принципы визуализации
Чтобы визуализация действительно работала, здесь, как и везде, нужно придерживаться правил.
Предлагаем вам познакомиться с четырьмя основными принципами визуализации, которые сформулировал экономист, специалист по визуализации данных и презентациям Джон Швебиш (Jon Schwabish).
ПРАВИЛО 7. ПОНЯТНЫЙ ФОРМАТ ЧИСЕЛ
Числа должны быть с разделителями разрядов и без лишних знаков после запятой.
В больших числах всегда разделяйте разряды: 10 000 000, а не 10000000, иначе цифры становятся нечитабельными.
Также не используйте знаки после запятой без осознанной необходимости. И следите, чтобы формат был единый. Если вы решили показать один знак после запятой, то сделайте так для всех подписей данных, а не выборочно: где-то два знака, где-то три, а где-то без единого знака.
1. Покажите сравнение (контрольная и экспериментальная группы)
Демонстрация сравнения — основа хорошего научного исследования. Доказательства гипотезы всегда связаны с чем-то другим. Возьмём пример: вы говорите: «Тёмный шоколад улучшает концентрацию внимания и способность к обучению». Важный вопрос в этом утверждении — «по сравнению с чем?» Без сравнения (относительная гипотеза) утверждение бесполезно.
Один из способов показать сравнение — контрольная и экспериментальная группы. Люди одной группы будут есть шоколад, люди во второй группе — не будут. Таким образом, вы сможете сравнить влияние шоколада на концентрацию и способность к обучению на основе результатов теста или путём измерения активности мозга.
4. Не позволяйте инструментам управлять анализом
Хороший рассказчик знает, как удержать внимание людей, рассказывая историю продуктивно. Рассказчик не ограничивается самой историей, но может уникальным образом выразить историю, сочетая различные виды восприятия и включая множество образов, что делает историю живой.
Аналогичным образом хороший визуализатор данных не ограничивается имеющимися под рукой инструментами для работы с визуализацией. Визуализирующий данные человек имеет возможность переключаться от одной формы выражения (например, линий или кругов) к использованию нескольких режимов представления.
ПРАВИЛО 8. НАЗВАНИЕ И ПОДПИСИ
У диаграммы должно быть название и полная легенда.
Следите, чтобы всегда у вашей диаграммы было полное понятное название и все необходимые подписи, иначе появляется риск неверного истолкования.
Всегда должен быть понятен период и единицы измерения. Не надейтесь, что пользователь вашего графика догадается об этом из контекста. Чтобы удостовериться, что данные будут верно интерпретированы, встаньте на место читателя, который видит вашу диаграмму впервые. Все должно быть предельно чётко, у читателя не должно остаться ни одного сомнения по поводу трактовки представленных данных.
Помните, что ваша задача при создании графиков и диаграмм — упростить восприятие данных, а не вызвать лишние вопросы.
3. График и текст — единое целое
Весьма распространен так называемый «эффект слайд-шоу», когда схема отдельно, текст отдельно. Но это не есть хорошо — надо, чтобы графики и текст дополняли друга друга. Поэтому легенду, поясняющую значение линии, столбика, точки, нужно размещать прямо на графике или в конце линии.
6. Содержание превыше всего
В конечном счёте, независимо от всех вышеперечисленных принципов, без контента, качественного, актуального и целостного, ваша графика будет бесполезна или она будет вводить в заблуждение. Другими словами, «мусор внутри, мусор снаружи». Прежде чем сообщать о каком-либо результате, убедитесь, что результат — это нечто интересное и важное. Независимо от того, насколько красива или наглядна ваша графика, бесполезные результаты никому не нужны. Нечто интересное — это личный опыт или что-то, навеянное Интернетом. В любом случае всегда задавайте вопросы: так идея становится реальностью.
ПРАВИЛО 9. ОБЩЕПРИНЯТЫЕ ЦВЕТОВЫЕ РЕШЕНИЯ
Не нарушайте общепринятое использование того или иного цвета.
Есть несколько основных категорий, которые у нас всегда ассоциируются с определенным цветом:
- положительные и отрицательные значения: зелёный и красный;
- да/нет, согласен/не согласен: зелёный и красный;
- мужчины и женщины: голубой и розовый;
- прочее/другое/остальное/нет ответа/затрудняюсь ответить — серый цвет.
Если показывать данные категории на диаграммах в ожидаемой цветовой гамме, то пользователю даже не надо смотреть на легенду, без этого ясно, какой цвет что обозначает. Не пренебрегайте этим правилом, оно очень простое и логичное, однако в интернете часто встречаются примеры его игнорирования.
Есть хороший прием использования цвета для сравнения показателей текущего года и прошедшего — делать прошедший год более бледным, а текущий более ярким. При этом оба года лучше показывать в оттенках одного цвета, потому что речь идет про один и тот же показатель.
Ресурсы и ссылки
Если вы хотите узнать больше о визуализации данных, посмотрите эти замечательные бесплатные книги:
Экономист, специалист по визуализации данных и презентациям Jon Schwabish поделился краткой памяткой по работе с визуализацией данных. Начнем знакомство с первых четырех принципов.
ПРАВИЛО 5. МИНИМУМ ЭЛЕМЕНТОВ
На диаграмме должны быть только необходимые элементы.
Убирайте с ваших графиков и диаграмм все неинформативные элементы, оставляйте только необходимые.
Загромождение ненужной информацией затрудняет восприятие.
Например, если есть подписи значений, то линии сетки и ось не нужны, так как это дублирование информации и является графическим «мусором». Основные и вспомогательные линии сетки, если они все же необходимы, должны быть простыми и не бросающимися в глаза. Акцент всегда должен быть на основной идее, а не на вспомогательных элементах. Если следовать этому совету, то нужная информация сразу выходит на первый план.
1. Ясность данных
За графиками в отчетах и статьях в блогах людям интересна прежде всего история. В графике она состоит из различных данных — цифр, дат, имен. Но это не значит, что нужно разместить на нем сразу все данные, которые у вас есть. Не стоит перегружать схемы лишней информацией — лучше пусть ее будет меньше, но данные будут проверенными и понятными.
Заключение
Визуализация данных — это невероятный навык. Вы можете взять данные и превратить их в красивую графику и сюжеты, рассказывающие людям историю. В эпоху, когда данные растут в геометрической прогрессии, всё большее значение приобретает умение рассказать историю с помощью данных. Это лучший момент, чтобы научиться новому. И резюме принципов:
- Покажите сравнение.
- Покажите причины.
- Покажите многомерные данные.
- Объедините как можно больше доказательств.
- Опишите и документируйте график.
- Убедись, что ваша история интересна.
Я оставляю цитату американского математика Джона Тьюки, который открыл новую эру статистики:
Для более глубокого понимания этих принципов я рекомендую обратиться к книге Роджера Д. Пенга «Exploratory Data Analysis in R» (ссылку на нее я оставлю чуть ниже).
ПРАВИЛО 10. МИНИМУМ ТИПОВ ДИАГРАММ
Используйте один вид диаграммы для однотипных данных.
Избегайте разнообразия ради разнообразия.
Это не всегда красиво, но всегда бесполезно. Для однотипных данных лучше выбирать один вид диаграммы.
Например, когда вы показываете последовательно ответы на вопросы исследования или динамику продаж по нескольким магазинам, не включайте фантазию, используйте графики одного типа. Читателю необходимо время, чтобы привыкнуть к каждому новому виду диаграммы и разобраться, что означает та или иная линия, кружок или столбик.
Основные способы визуализации
Перечисляем самые распространенные способы визуализации, с примерами.
ПРАВИЛО 2. ЛОГИЧЕСКИЙ ПОРЯДОК
Располагайте данные логично.
Обязательно располагайте данные в логическом порядке. Чаще всего это последовательно от большего к меньшему.
ПРАВИЛО 4. ЛЕГКОЕ СРАВНЕНИЕ ДАННЫХ
Визуализируйте данные так, чтобы их можно было легко сравнивать.
Одна из главных целей визуализации – удобное и наглядное сравнение двух и более показателей.
Поэтому, чтобы ваши диаграммы были ценными и полезными, показывайте соотношение между данными. Если разбить однотипную информацию на много отдельных графиков, визуализация становится бессмысленной.
Именно быстрое понимание самых высоких и самых низких значений, тенденций и корреляций является главным преимуществом визуализации в сравнении с обычной таблицей или текстом. Диаграммы должны гораздо быстрее и яснее передавать ваши идеи. Если это не так, меняйте тип графика.
ПРАВИЛО 1. ПРАВИЛЬНЫЙ ТИП ГРАФИКА
Используйте правильный тип и формат визуализации.
Главная цель визуализации — упростить и ускорить восприятие информации. Выбранный формат и тип графика должны этому способствовать, а не мешать.
Например, если в круговой диаграмме больше трех-пяти значений, график становится нечитабельным. Лучше в таком случае выбрать обычную линейчатую диаграмму.
Еще пример неудачного использования круговой диаграммы, когда сумма категорий не равна 100%. Это грубейшая ошибка, так как данные просто-напросто искажаются.
Не менее важно следить, чтобы не нарушались общепринятые стандарты. Временные оси (года, месяца, кварталы) всегда должны располагаться горизонтально слева направо, это интуитивно понятно. Если же их расположить вертикально сверху вниз, это будет сильно затруднять понимание.
Помните, что неудачно выбранный тип и формат визуализации сразу снижает доверие к представленной информации.
Читайте также: