Сколько переменных я могу представить графически, прежде чем потеряю ясность?

Давайте посмотрим, смогу ли я правильно объяснить этот вопрос о графической экономике , который у меня есть. Я новичок в этой области, и стоит отметить, что это чистое любопытство, а мои примеры, как вы скоро сможете убедиться, полностью выдуманы.

Сколько переменных я могу представить графически, прежде чем мой график потеряет качество связи? Предположим, моя аудитория — это, например, читатели воскресных газет.

Предположим, у меня есть этот набор: Вес (x) / Возраст (y) и два человека: Джейн, 10 лет, 30 кг; и Джо, 20 лет, 60 кг. Графическое представление может быть примерно таким:

введите описание изображения здесь введите описание изображения здесь

Теперь я знаю, что могу добавить еще одну переменную, используя размер кругов, поэтому, если я хочу добавить представление о том, сколько гамбургеров Джейн и Джо съедают в неделю (10 и 20 соответственно), я мог бы получить что-то вроде:

введите описание изображения здесь введите описание изображения здесь

И я даже могу использовать форму или цвет + размер, чтобы добавить четвертую переменную, например, если они едят больше чизбургеров, чем бургеров с говядиной (ограничение здесь в том, что тип бургера — логическое значение только с двумя возможными значениями), но в любом случае:

введите описание изображения здесь введите описание изображения здесь

И здесь, я думаю, начинается беспорядок. Добавление фигур в комбинацию для представления пятой переменной может поставить под угрозу «простоту понимания» графика. Когда я смотрю на график, мой (конкретный) мозг обрабатывает только 2 или 3 переменные, не более. Они едят комбо или только бургеры, например?:

введите описание изображения здесь введите описание изображения здесь

Я думал о 3-м измерении, но это выглядело бы просто ужасно. Я могу думать об этом совершенно неправильно, и есть вероятность, что я упускаю здесь что-то совершенно очевидное, что я не могу понять (например, если попытка представить более 3 или 4 переменных просто неверна на практике), но назад на мой вопрос(ы):

  • Является ли 4 (может быть, 5, если график очень простой, как у меня) разумным числом для максимального количества переменных, представленных одновременно на двухосевой диаграмме?

  • Существуют ли другие типы графиков, которые позволяют использовать больше переменных без потери ясности?

  • Есть ли хороший пример диаграммы, которая успешно представляет большое количество переменных?

Ответы (3)

Редактировать III: я нашел невероятно великолепный пример визуализации многомерных количественных данных и должен был добавить его. Вы найдете его под заголовком «Редактировать III (Нобелевские лауреаты)».

Редактировать II: произошло небольшое недопонимание, и я отредактировал, чтобы попытаться уточнить, как я интерпретирую предполагаемое использование данных. Я заменил два изображения и добавил раздел «Хотите с этим картошку фри?»


Графика раскрывает данные.

Эдвард Тафт:

Беспорядок и путаница — это недостатки дизайна, а не атрибуты информации. Беспорядок требует дизайнерского решения, а не сокращения контента. Довольно часто, чем интенсивнее детали, тем больше ясности и понимания, потому что значение и рассуждение неуклонно КОНТЕКСТНЫ. Меньше скучно.

Почему мы визуализируем данные?

  • Инструменты для мышления
  • Чтобы показать результат интенсивного видения
  • Понять проблему, принять решение
  • Показать сравнения, показать причинно-следственные связи
  • Дайте основания полагать

Как?

  • показать данные
  • заставить зрителя задуматься о содержании, а не о методологии, графическом дизайне, технологии графического производства или чем-то еще
  • избегайте искажения того, что должны сказать данные
  • представить много чисел в маленьком пространстве
  • сделать большие наборы данных согласованными
  • побуждать глаз сравнивать разные фрагменты данных
  • раскрывать данные на нескольких уровнях детализации, от общего обзора до тонкой структуры.
  • служить достаточно ясной цели: описание, исследование, составление таблиц или оформление.
  • быть тесно интегрированы со статистическими и словесными описаниями набора данных.

Несколько определений:

Данные:

обычно считается «материалом, который сортируется в базах данных». Конечно, это могут быть числа, изображения, звук, видео и т. д. Данные — это то, что можно собрать, часто количественные. В самой сырой форме он трудно переваривается; просто стены цифр. Тебе известно; Матрица . Вообще говоря, у нас нет массивных баз данных, состоящих из нулей, для всего того, чего у нас нет , даже если иногда то, чего у нас нет, является наиболее информативным . Итак, чтобы увидеть, чего у нас нет, нам нужно визуализировать то, что у нас есть.

Информация:

это то, что вы можете извлечь из данных . Каким-то образом отображая данные, мы можем собирать информацию . Один из примеров, который я часто использую, заключается в том, что если я дам вам список стран мира и скажу, что двух из них не хватает, маловероятно, что вы найдете их на основе этого списка. Однако, если я покажу это, раскрасив все страны, которые у меня есть на карте, вы сразу увидите, что я пропустил Центральноафриканскую Республику и Новую Каледонию. Это «уменьшение шума» и рассказ истории максимально эффективным способом.

Инфографика и визуализация данных:

Стесняюсь назвать ваш пример инфографикой. Я знаю, что это часто рассматривается как синонимы визуализации данных, информационного дизайна или информационной архитектуры, но я не согласен. Для меня инфографика — это серия графиков, диаграмм и иллюстраций , которые вполне могут содержать кучу предвзятых утверждений о том, как читать данные. Оно менее объективно, более склонно к пропуску данных, не отвечающих «интересам» создателя: вас ведут к выводу, который кто-то предопределил. Они имеют развлекательную ценность, и часто в них слишком много иллюстраций, что отвлекает внимание от данных. Это хорошо, но я думаю, что мы должны немного различаться.

Примеры

Большие данные:

Имейте в виду, что большие данные — это не то же самое, что сложные данные. Многие данные могут быть просто одинаковыми, как, например, эта карта LinkedIn: основные данные одинаковы, но есть фильтры (по тегам). Есть две переменные: география и какой-то тег, определяющий людей по профессиям/интересам/отношениям. Безумное количество данных; но только две переменные.

введите описание изображения здесь

Многовариантный:

Вот пример многомерной визуализации данных. Это диаграмма Шарля Минара 1869 года, показывающая количество мужчин в армии Наполеона в русской кампании 1812 года, их передвижения, а также температуру, с которой они столкнулись на обратном пути. Большая версия здесь. введите описание изображения здесь

Взлом кода занимает немного времени, но когда вы это делаете, это великолепно. Охватываемые переменные:

  • численность армии (количество живых/мертвых)
  • географическое положение
  • направление (восток - запад)
  • температура
  • время (даты)
  • причинно-следственная связь (умер в боях и от холода)

Это удивительное количество информации на простой двухцветной карте. Географическая часть стилизована, чтобы оставить место для других переменных, но у нас нет проблем с ее получением.

Вот более хитрый. Это будет намного легче читать, если вы знакомы с основными эволюционными визуализациями, кладограммами, филогенетикой и принципами биогеографии. Имейте в виду, что это сделано для людей, знакомых с этим, так что это специальная, научная таблица. Вот что он показывает: Филогеографическое изображение родословных ядовитых лягушек из Южной Америки. На картах слева показаны основные биогеографические регионы по мере их изменения во времени, а на изображении справа показаны родословные лягушек в контексте их биогеографического происхождения. (Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R и др. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], через Wikimedia Commons). Когда вы «взламываете код», это невероятно информативно.

введите описание изображения здесь

Малые кратные, спарклайны:

Я не могу не подчеркнуть этого в достаточной степени: никогда не недооценивайте ценность повторения информации или разделения ее на отдельные идентичные визуализации. Пока достаточно легко сравнивать один график с другим, это совершенно нормально. Мы — машины для поиска закономерностей. Это часто называют малыми кратными. У нас мало проблем с анализом этих изображений довольно быстро, и запихивать все в один большой график часто бессмысленно, когда десять маленьких будут работать еще лучше:

введите описание изображения здесь

Еще один:

введите описание изображения здесь

И тот, который использует другую, но повторяющуюся графику:

введите описание изображения здесь

Спарклайны — это термин, придуманный Эдвардом Тафти, который также превратился в полностью функционирующую, полностью настраиваемую библиотеку javascript. По сути, это крошечные диаграммы, которые можно вставлять в текст как часть текста, а не как «внешний» объект. Вот как выглядит по умолчанию:введите описание изображения здесь

Редактировать III (Нобелевские лауреаты)

Мне просто нужно было добавить эту визуализацию данных, которую я нашел, она просто слишком хороша: она показывает нобелевских лауреатов. Какой университет, какой факультет, предмет, год, возраст, родной город, был ли он общим, уровень степени. Действительно красивое свидетельство. Это все количественные данные. Подробнее здесь.

введите описание изображения здесь

введите описание изображения здесь

Ваши данные

Все вопросы, которые задает @Javi, чрезвычайно важны.

То, что вы пытаетесь сделать, это создать визуальный инструмент для мышления. Для этого необходимо извлечь наилучшее соотношение сигнал/шум. С чем вы боретесь, так это с тем, как соотнести данные , которые имеют разные переменные, с информацией . Вот вопрос: что должно быть примерно правильно и что должно быть точно правильно? Какова цель?

Я собираюсь предположить, что вы хотите отобразить данные без излишней предвзятости: вы хотите, чтобы читатель сам нашел корреляции, если они есть. Ваша цель состоит не в том, чтобы сказать людям, что гамбургеры вредны для них или что женщины едят меньше бургеров, чем мужчины, а в том, чтобы они «увидели» это, если это то, что содержится в данных (представьте, если бы эти три человека были семьей. Это было бы немного изменить наш взгляд на весь график поедания бургеров).

Ваш набор данных настолько крошечный, что вы можете просто поместить его все в таблицу, и все будет в порядке. Но это, конечно, об общей идее:

Небольшая деталь: время (возраст), как правило, является чем-то, что мы видим горизонтально слева направо (линии времени). Взвесьте что-то, что вверх-вниз, поэтому переключение x-y было бы хорошей идеей.

1. Что такое уникальные фиксированные сущности?

  • Имена

2. что такое (а..) переменные переменные?

  • Вес (кг)
  • Возраст (лет)
  • Количество бургеров (целое)
  • Тип бургеров (целое)

Примечание: ваши данные полностью состоят из единиц. Исчисляемы, исчисляемы каждый на отдельной ментальной шкале. Килограмм, возраст, вес и количество. И на языке баз данных их имена являются ключами. Когда вы начинаете визуализировать пространство-время, это становится настоящей головной болью. Представьте, что вам нужно добавить место рождения, текущий дом и т. д.

Единственные два здесь имеют корреляцию , это количество гамбургеров и независимо от того, является ли это комбо. Все остальные переменные независимы, и только одна фиксированная (имя). В какой-то момент, с большими наборами данных, даже имена становятся неинтересными и заменяются демографическими данными, возрастом, полом или чем-то подобным.

С этим крошечным набором данных вы можете получить все это на одном графике, например, так:введите описание изображения здесь

Или вы можете изменить ось и содержимое всплывающего окна:

Личное примечание: я думаю, что это лучший из двух, потому что x и y содержат «физические» свойства человека. Переменная в пузырьках здесь — это количество гамбургеров.

введите описание изображения здесь

Вы также можете добавить круговые диаграммы в дополнение к графику или даже иметь только круговые диаграммы. Лично я бы имел оба, как уже упоминалось о малых кратных:введите описание изображения здесь

Хотите картофель фри с этим?

Мое предположение заключалось в том, что мы также хотели узнать соотношение гамбургера и еды. Каждый прием пищи содержит бургер. Не все блюда являются комбикормами.

  1. мы только хотим знать, ест ли человек иногда комбикорм?
  2. или мы хотим знать, сколько блюд из гамбургеров также являются комбикормами?

Если 1., подойдет логическое значение, примененное к имени/ключу/идентификатору.

Джейн иногда ест комбикорм? Верно/ложно.

Если 2., мы могли бы применить логическое значение к каждому приему пищи:

1 чизбургер, комбинированный = правда

1 чизбургер, комбинированный = правда

1 чизбургер, комбинированный = ложь

1 чизбургер, комбинированный = ложь

1 чизбургер, комбинированный = ложь

1 чизбургер, комбинированный = ложь

1 чизбургер, комбинированный = ложь

1 бифбургер, комбинированный = правда

1 бифбургер, комбинированный = правда

1 бифбургер, комбинированный = ложь

Это очень утомительно, поэтому мы могли бы разбить его на:

Джейн съела 10 бургеров. Из них три комбо («хотите с этим картошку фри?»).

Одним из комбикормов является бифбургер-меню.

Два комбикорма - это меню чизбургеров.

Остальные - одиночные бургеры. 5 сыр, два говядина.

Эта круговая диаграмма была попыткой визуализировать это. В этой версии я сохранил кусочки пирога, чтобы было понятнее. Дело в том, что было бы несложно начать применять большие наборы данных и %:введите описание изображения здесь

Но я думаю, что лучший способ - это переосмыслить.

Другой способ взглянуть на это — сделать это действительно очень просто. Здесь легче увидеть, какие возрастные группы, какие весовые группы и все данные , которых у вас нет, могут нам рассказать. Данные, которые у вас есть, не связаны с космосом, это только единицы (кг, годы, числа + ключ/идентификатор/имя):

(Редактировать: Яйцо на моем лице: я заменил эти изображения более правильными, что касается «все блюда - гамбургеры, не все блюда - комбо»)

введите описание изображения здесьЭто было бы довольно легко расширить с большим количеством людей:

введите описание изображения здесьИли, что еще лучше, если вы сравните возрастные группы 10, 20 и 30 лет, вы можете сделать довольно простую для чтения статистическую визуализацию:

введите описание изображения здесь

..И просто чтобы быть как можно более ясным; вот пример такого мышления. На этой диаграмме показаны выжившие с Титаника, соотношение экипажа, класса, мужчин и женщин.введите описание изображения здесь

Будет множество других решений, это всего лишь несколько мыслей.

Я мог бы продолжать и продолжать, но теперь я исчерпал себя и, вероятно, всех остальных.

Инструменты для игры:

гефи

Gapminder Посмотрите феноменальную презентацию Ганса Рослинга на TED — обожаю этого парня

Google диаграммы

сомвис

Рафаэль

Выставка Массачусетского технологического института (ранее называвшаяся Similie)

d3

Highcharts

Дальнейшее чтение:

Пи Джей Онори; В защиту жесткого

Эдвард Тафт: прекрасное свидетельство

Эдвард Тафт: представление информации

Эдвард Тафте: Визуальное отображение количественной информации

Визуальные объяснения: изображения и количества, доказательства и повествование

Male, Alan., 2007 г. Иллюстрация теоретической и контекстуальной точки зрения Лозанна, Швейцария; Нью-Йорк, штат Нью-Йорк: Академия AVA

Айлс, К. и Робертс, Р., 1997. В видимом свете, фотография и классификация в искусстве, науке и повседневной жизни, Оксфордский музей современного искусства.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Чтения по визуализации информации: использование видения для мышления, 1-е изд., Morgan Kaufmann.

Графтон, А. и Розенберг, Д., 2010. Картографии времени: история временной шкалы, Princeton Architectural Press.

Лима, М., 2011. Визуальная сложность: сопоставление моделей информации, Princeton Architectural Press.

Баунфорд, Т., 2000. Цифровые диаграммы: как эффективно разрабатывать и представлять статистическую информацию, 0-е изд., Watson-Guptill.

Стил, Дж. и Ильинский, Н., ред., 2010. Прекрасная визуализация: взгляд на данные глазами экспертов, 1-е изд., O'Reilly Media.

Глейк, Дж., 2011. Информация: история, теория, потоп, Пантеон.

Я прочитал все это, но это займет недели, чтобы впитаться. Вы должны написать книгу!
Что касается изображения Нобелевской премии, вы знаете, как они его сделали? Эти струящиеся ленты просто прекрасны.
Нет, я не знаю, как именно она это сделала, но Джорджия Лупи очень охотно ответила на некоторые другие вопросы, так что вы можете просто спросить ее giorgialupi.net
Эй, хорошая идея. Я только что отправил ей электронное письмо.
За этот ответ ты заслуживаешь номинации n_n

Я думаю, что есть несколько дополнительных вопросов, которые могут сузить ваш поиск ключа к представлению данных вашей аудитории. Я думаю о них так же, как о сокращении вашего резюме до конкретной работы, которую вы хотите.

  1. Зачем вы создаете инфографику.
  2. Какова чистая цель или результат, который вы хотите, чтобы ваша аудитория знала о ваших данных.
  3. Что вы знаете о своей аудитории и как они соотносятся с данными. (Демографический возраст, пол, геолокация, вес и т. д.)
  4. Какие самые и наименее важные данные вы покажете и в чем разница между ними.
  5. В каком носителе/контексте вы будете отображать свои данные, чтобы наилучшим образом достичь своей «чистой» цели для их создания в первую очередь? Например, будет ли это цифровое представление данных или физическое (например, мармеладки в банке, если ваша целевая аудитория — дети). Будет ли это офисная встреча или коммерческое предприятие?
  6. Можно ли разделить данные на разные инфографики, сохраняя при этом целостность вашей цели их создания.

Ваши данные и цель должны диктовать условия того, что вы должны показывать, а что нет. Например, насколько важно было бы показать график того, что люди заказывали в McDonald's во вторник с 13:00 до 15:00, когда вся ваша цель состояла в том, чтобы просто показать сравнение того, что люди заказывали в целом. Переменная времени не нужна, даже если у нас есть исходные данные для нее. Это не было нашей целью.

Чтобы конкретно ответить на ваши вопросы. Я лично (субъективно) думаю, что когда вы преодолеете использование трех/четырех переменных (размер, форма, цвет, положение) в базовой диаграмме, подобной этой, читателю (мне) станет скучно/потеряно, а скучно/потеряно, вероятно , не причина, по которой был создан график. Тем не менее, они могут быть совершенно забавными и действительно вовлекать аудиторию. Например, что-то вроде этого в отличие от этого . Я не сбрасываю со счетов важность второго примера, потому что это была бы действительно эффективная инфографика, если бы я присутствовал на совещании в офисе и показывал общие данные. Это восходит к вопросу о среде и контексте отображения данных.

Если вы ищете способы показать переменные в данных, я бы посоветовал изучить инфографику. Вот хороший стартовый материал от Smashing Magazine о создании эффективной инфографики. Имейте в виду, что кое-что из этого может и является субъективным.

Это отличный вопрос. Действительно.

Блестящая линия мысли, чтобы быть на.

Об этом должно быть какое-то обсуждение. Но я бы сформулировал немного иначе:

**

Сколько свойств мы можем сопоставить с современными иллюстративными технологиями и дизайном?

**

Ответ заключается в трех аспектах производства: показе, дизайне и способе подачи... все смешано и учтено всплесками интереса аудитории.

Дисплей — это физическая вещь. С ограничениями по размеру, разрешению и цветовому пространству.

Дизайн безграничен, но на самом деле интересен аспект этого вопроса. Как мы можем использовать современные иллюстративные технологии и наше понимание дизайна и креативности, чтобы наилучшим образом показать как можно больше.

Режимы презентации бывают статическими, динамическими или интерактивными. Каждый со своими сильными и слабыми сторонами, которые усугубляются средой, типом и размером дисплея.

И, как справедливо отмечает Хави, хотя, возможно, и близко не подходит к... ЭТО ВСЕ СУБЪЕКТИВНО! -- Это всплеск интереса публики, учитывающий уравнение. Или нет.