Сравнение excel и statistica
STATISTICA предоставляет мощные и удобные в использовании инструменты для статистического и графического анализа, прогнозирования, data mining, создания собственных пользовательских приложений, интеграции, совместной работы, web-доступа и др.
Преимущества использования STATISTICA:
Удобный интерфейс и уникальные возможности настройки
Интерфейс STATISTICA является интуитивно понятным, легко настраивается в соответствии с пользовательскими задачами и аналогичен интерфейсу стандартных Windows приложений, поэтому легко осваивается пользователем.
Анализ данных проводится интерактивно, в режиме последовательно открывающихся диалоговых окон. Любое окно анализа сконструировано таким образом, что на первой вкладке содержатся только самые необходимые кнопки, а на последующих вкладках – углубленные методы и специальные опции.
Таким образом, внимание новичка не отвлекают дополнительные настройки и параметры, а продвинутый пользователь сможет всегда настроить анализ по своему усмотрению.
Наглядное представление об интерфейсе STATISTICA Вы можете получить, посетив наш канал StatSoft TV, раздел Галерея или ресурс Interactive STATISTICA Modules.
Непревзойденная графика
STATISTICA включает графический модуль, содержащий удобные инструменты для эффективной и наглядной визуализации данных, проведения графического анализа. Более 10 000 различных типов графиков, имеющих богатые возможности редактирования, интерактивной настройки (вращение, масштабирование, прозрачность и др).
Графика STATISTICA традиционно признаётся самой точной и удобной в использовании. Перейти к разделу Визуализация.
Возможность работы с файлами неограниченного размера, непревзойденная скорость обработки данных
Одним из важных свойств программных продуктов STATISTICA является их быстродействие при работе с большим объемом данных и вычислительная мощность приложений, требующих регулярного построения запросов к базам данных, комплексного управление данными. Подробнее
Повышенная точность вычислений
На сколько нам известно, STATISTICA является единственным пакетом, способным максимально точно провести многие статистические расчеты. Читать подробнее
Широкие возможности интеграции и совместимости, простой импорт/экспорт данных, легкий доступ к базам данных
С 2008 года StatSoft является золотым партнером Microsoft (Microsoft Gold Partnership). STATISTICA полностью соответствует стандартам Microsoft, включая OLE DB и DDE. Это позволяет:
- интегрировать новые модули в существующие системы;
- строить на основе STATISTICA интеллектуальную систему принятия решений, используя процедуры STATISTICA как готовые элементы.
STATISTICA позволяет напрямую производить импорт/экспорт данных из Microsoft Office, работать в Microsoft Excel "внутри" STATISTICA, автоматически сохранять результаты в Microsoft Word.
STATISTICA взаимодействует с любыми реляционными базами данных (Oracle, MS SQL Server, Informix, Access и др.), хранилищами бизнес-информации SAP Business Warehouse. Подробнее о сертификации SAP
Интеграция с языком R. Подробнее
STATISTICA взаимодействует с Microsoft SharePoint, позволяет выгружать данные из OSI PI. Поддерживает OLAP технологии.
Автоматизация любых процедур с помощью STATISTICA Visual Basic
Полный COM ориентированный интерфейс среды STATISTICA Visual Basic (SVB) для всех функций и процедур (более 14000 функций), автоматическая запись макросов позволяют создавать пользовательские приложения и надстройки над STATISTICA для автоматизации любых еженедельных или длительных процедур.
Доступ ко всем свойствам через объектную модель, мощный отладчик процедур, браузер функций и т.д. позволяют создавать необходимые приложения максимально быстро.
SVB интегрирован со множеством приложений (таких как MS Excel) и различными языками программирования (С++, Java и др.).
Поддержка Web-технологий
Корпоративные версии STATISTICA полностью web-интегрированы: "ввод" и "вывод" данных через Web, направление результатов на Web-сервер, построение сложных автоматизированных систем, работающих с данными из внешних источников, проведение анализов и обновление содержания HTML-страниц на Web-сервере.
Возможность пакетной обработки данных. Использование многоуровневой архитектуры клиент-сервер.
Наличие русифицированной версии
STATISTICA полностью переведена на русский язык, включая электронное справочное руководство и документацию. Информация содержит общие положения о статистическом анализе данных, подробно разобранные примеры проведения конкретного анализа.
Как было показано в главах 1-8, пакет MS Excel благодаря простоте работы с ним и большому количеству полезных встроенных функций и процедур он позволяет решать многие простые прикладные задачи, связанные с обработкой данных. Но при этом потребность в серьезных методах прикладной статистики и анализа данных у пользователей MS Excel не всегда остается удовлетворенной.
Поэтому в большом количестве разрабатываются специальныестатистические пакеты. На мировом рынке наиболее успешным программным средством такого рода, по мнению авторитетных специалистов, является пакет прикладных программ STATISTICA, который по сравнению с другими программами предоставляет пользователям наиболее богатые возможности по обработке данных. Росту популярности системы STATISTICA в нашей стране способствует появление русифицированной версии, распространяемой компанией STATSOFT RUSSIA, г. Москва.
От большинства других программных продуктов для Windows система STATISTICA выгодно отличается тем, что состоит из отдельных программ - модулей, каждый из которых содержит конкретный метод обработки данных. Кроме того, данные из Excel можно легко импортировать в STATISTICA или работать в системе непосредственно с файлами Excel.
Работа с Таблицами данных
Таблицы данных STATISTICA основаны на технологии мультимедийных таблиц, разработанной компанией StatSoft. Система работает как с исходными данными, так и с численными и текстовыми результатами анализов. Таблица данных STATISTICA является двумерной таблицей, которая может содержать практически неограниченное число наблюдений (строк) и переменных (столбцов), при этом каждая ячейка может содержать неограниченное количество символов. Данные в системе STATISTICA организованы в виде набора наблюдений и переменных.
Окно таблицы данных состоит из нескольких основных частей.
Заголовок окна. В области «Заголовок окна» отображается название таблицы данных вместе с принятым стандартным расширением (.sta), а также содержится число переменных и наблюдений.
Информационное поле располагается в верхнем левом углу окна таблицы данных. Для того, чтобы выделить всю таблицу данных, следует нажать в нижнем правом углу области «Информационное поле». Для ввода или редактирования текста в области «Информационное поле» следует нажать дважды.
Заголовок. Дважды нажмите в области Заголовок, сверху окна над именами переменных, для того, чтобы ввести или изменить текстовую информацию. Для выделения самой области Заголовок (например, при форматировании) нажмите в верхнем левом углу (указатель мыши при этом принимает вид ). Нажмите CTRL+ENTER или ALT+ENTER для ввода новой строки (иногда вам необходимо увеличить высоту поля для того, чтобы видеть несколько строчек текста).
Имена наблюдений. Эти ячейки, расположенные в левой части окна Таблицы данных, содержат имена для каждого наблюдения. Для ввода или редактирования текста дважды нажмите на любом Имени наблюдения. Для выделения самих Имен наблюдений (например, при форматировании) нажмите один раз в левой части Имени наблюдения (указатель мыши при этом принимает вид ). Для того чтобы выделить всю строку наблюдения (для редактирования), нажмите один раз в средней или правой части Имени наблюдений (указатель мыши при этом принимает вид ). Для выделения блока Имен наблюдений, (не выделяя сами строки), выберите команду Выбрать только имена наблюдений в контекстном меню Таблицы данных. Для автоматической подгонки ширины полей Имен наблюдений дважды нажмите на правой границе любого поля Имя наблюдения (указатель мыши при этом принимает вид ). На рисунке выше ячейки Имена наблюдений содержат первые инициалы и фамилии респондентов. Заметим, что Имена наблюдений необязательно присутствуют в окне Таблицы данных, и вы можете их скрыть (отключите опцию Показать имена наблюдений в меню Вид). В том случае, если их нет, отображаются только номера наблюдений.
Имена переменных. Эти ячейки, расположенные в верхней части каждого столбца, содержат имена переменных. Для просмотра спецификаций отдельной переменной дважды нажмите в поле Имя переменной. Для выделения самого поля Имя переменной (например, при форматировании) нажмите один раз в верхней части поля Имя переменной (указатель мыши при этом принимает вид , вместо ). Для выделения всего столбца переменной (например, при редактировании) нажмите один раз в нижней части поля Имя переменной (указатель мыши при этом принимает вид ). Для автоматической подгонки ширины столбца дважды нажмите на правой границе поля Имя переменной (указатель мыши при этом принимает вид ). На рисунке выше первые две ячейки Имя переменной содержат текст Gender и Advert. Вы можете также использовать опции поля Имя переменной для отображения номеров переменных вместо имен, для отображения длинных имен переменных и/или названия типов переменных в Таблице данных. Все эти функции доступны в меню Вид - Имена переменных.
Данные (и редактирование внутри ячеек). Оставшаяся область Таблицы данных содержит сами данные, представленные в виде наблюдений и переменных. Кроме того, можно включать в Таблицу данных любых другие внедренные или связанные объекты (например, мультимедийные объекты, Макросы). Текст в ячейках может иметь практически неограниченную длину (обычно в настройках системы STATISTICA она ограничена 1,000 символами для предотвращения случайной вставки большого объема нежелательной информации в одну ячейку).
Википедия нам подсказывает, что на сегодняшний день для анализа данных, в частности, статистической обработки уже разработаны десятки программных продуктов. Рассмотрим кратко наиболее популярные среди них.
Наш коллега в аналогичном обзоре предложил разделять упомянутые программные продукты на две большие группы:
- Решения, ориентированные на программирование: R, MATLAB, SciPy.
- Решения, ориентированные на анализ данных: MS Excel, SAS, SPSS, Stata.
Уже год работаю в Python. Это очень круто! Изучайте Python!
Я провожу занятия в Учебном центре Совета рынка, в частности, читаю лекцию об инструментах прогнозирования. Кроме указанных выше продуктов я рассматриваю RapidMiner, KNIME, Weka, Python. Первые три инструмента стоит отнести ко второй группе, последний к первой.
R — объектно-ориентированный open source язык программирования для статистического анализа в финансовом секторе.
Достоинствами языка являются его
- гибкость;
- наличие встроенных мощных аналитических средств;
- открытый код.
- сложность обучения;
- ориентация языка программирования на конкретную предметную область (финансовый сектор).
Согласно википедии, в части анализа временных рядов R имеет встроенную поддержку ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
Начала пользоваться R в январе 2015 года, так как на работе встал вопрос перехода на лицензионное программное обеспечение. Скачала R и R Studio и влюбилась в этот инструмент уже через неделю. Платформа блестящая!
Во-первых, не составило труда найти набор обучающих видео роликов. После двух часов просмотра начала самостоятельно писать код. Далее к обучающим материалам обращалась уже с конкретными вопросами, а также за примерами и пояснениями к функциям. Сложилось впечатление, что пользоваться R очень просто и обучение проходит молниеносно. Обращаю ваше внимание на то, что лучшие обучающие материалы всегда на английском!
Во-вторых, никакой глубокой объектно-ориентированности a la Java в R и в помине нет. Функции на заданную тему сложены в пакет функций, обращение к отдельным идет через точку. И все. Пусть вас не пугают намеки на объектно-ориентированность!
В-третьих, пакетов функций тьма тьмущая, на все лады и ряды. Найти нужный вариант совсем просто, так как материалов в сети просто завались. Лично я влюбилась в пакеты plot3D. Подключение пакета осуществляется одной строкой library(plot3D) и готово! Далее можно использовать все, что в него вложено.
В-четвертых, ориентации на финансовый сектор в R также нет. Это какие-то выдумки публики! Да, он применяется для анализа рыночных данных, но вероятно не потому, что он на эту предметную область заточен, а потому, что он очень удобен!
За пару недель использования R стал мною также любим как MATLAB, в котором работала к тому моменту уже 7 лет. Думала, что будет неудобно, что уже сформировались привычки, которые будут мне мешать эффективно работать с чем-то, отличным от MATLAB. Однако на мое удивление практически все мне показалось очень-очень удобным!
К недостаткам R отнесу отвратительный bedugger. Ждем-с, чтобы для R Studio разработали человеческий bedugger, тогда всеми миру будет счастье! Также могут возникнуть сложности с большими объемами данных, многие функции R работают не слишком быстро. Имейте в виду, что большой объем — это несколько миллионов значений.
Итого. Всем, кто выбирает инструмент анализа для изучения, кто только начинает заниматься данной областью я настоятельно рекомендую R. Это легко, просто, удобно, бесплатно! А ваша рыночная стоимость будет неизменно расти, так как специалисты со знанием R становятся все более и более востребованными.
MATLAB
MATLAB — программный продукт, нацеленный на разработку и отладку алгоритмов расчета. MATLAB применяется, главным образом, в инженерных расчетах.
- «элегантная поддержка матриц»;
- удобный графический интерфейс;
- простота в работе.
- дороговизна лицензий;
- неполная поддержка статистических функций;
- довольно запутанная интеграция с JAVA и C++ приложениями (хотя в последних версиях этот функционал значительно расширен).
- анализировать громадные массивы данных (таблицы более 8 млн строк);
- его слабость в части интеграции заставляет осваивать другие языки программирования (JAVA, C++), когда стоит задача создания системы прогнозирования.
Бесплатным аналогом MATLAB является система Scilab. Кроме того, довольно давно ведется разработка высокоуровневого языка программирования GNU Octave, совместимого с MATLAB, который позволяет использовать операторы C++ при написании кода.
SciPy
SciPy — это библиотека математических функций для языка программирования Python. Высказывается мнение, что «в терминах подхода и функциональности, SciPy наиболее близкое к MATLAB'у решение, однако менее зрелое».
- широкие возможности по интеграции языка Python;
- высокая производительность математических операций;
- наличие готовых средств для визуальной отладки;
- простота освоения.
- незрелость решения (версия на момент написания статьи — 0.11).
MS Excel
MS Excel — знаменитая и, вероятно, самая популярная программа для работы с электронными таблицами при помощи графического интерфейса.
- популярность;
- удобный интерфейс;
- простота освоения.
- отсутствие какой-либо гибкости;
- ограниченный набор функций для анализа данных;
- наличие ограничений на количество строк в таблицах.
Мой комментарий. MS Excel — программа для бухгалтерии и построения графиков. Ни о каких мало-мальски серьезных математических алгоритмах говорить в рамках использования Excel просто нельзя.
SAS — большая и сложная система для статистической обработки данных.
- гибкий интерфейс обмена данными (интеграции);
- наличие инструментария для работы с кластерами (распределенными системами);
- быстрота расчетов на громадных массивах данных.
- примитивный язык написания скриптов SAS macro;
- сложность поддержки уже написанных скриптов;
- дороговизна лицензий;
- сложность освоения.
Мой комментарий. Я работала с SAS в НП «АТС» и занималась анализом небаланса РСВ и небаланса БР. Для таких задач, которые требовали подключения к 3-5 базам данных с последующей консолидацией значений на громадных массивах (таблицы до нескольких миллионов строк), это отличный инструментарий. Код, написанный на SAS macro, выглядит ужасно нечитабельно, его невозможно поддерживать, он недостаточно гибок даже для простых математических преобразований. А специалистов по SAS днем с огнем не сыщешь.
Википедия нам подсказывает, что SAS, так же как и R, имеет встроенную поддержку ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
SPSS Statistics — компьютерная программа для статистической обработки данных для проведения прикладных исследований в социальных науках. Название говорит само за себя! Комментарий пользователя: «По моим впечатлениями SPSS используют люди, которые хотят выполнять общепринятый статистический анализ наиболее простым путем».
- удобный графический интерфейс;
- ориентация на социальных науки.
- дороговизна лицензий;
- отсутствие гибкости в расчетах.
Мой комментарий. Я знаю, что курсы по SPSS проводятся в ВШЭ для студентов и аспирантов гуманитарных специальностей. Моя подруга, выпускница кафедры политологии, считает, что этот инструментарий ей очень подходит для ее задач.
В википедии сказано, что из всего арсенала по анализу временных рядов SPSS имеет встроенную поддержку только моделей ARIMA.
Stata
Stata — программный пакет для анализа данных в сферах экономики, социологии, политики, биомедицины и др. Относительно дешевый аналог SPSS.
- все достоинства SPSS;
- более низкая цена чем у SPSS.
- довольно узкая специализация.
В части анализа временных рядов Stata имеет встроенную поддержку: ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
Резюме
Программный продукт с пользовательстким интерфейсом (Stata, SPSS, MS Excel) или язык программирования (R, SciPy), или смесь графического приложения и языка программирования (MATLAB, SAS) — это инструмент в руках аналитика. Выбирая инструмент для решения задачи, необходимо учитывать:
- сложность и важность задачи;
- сроки получения результатов;
- штат и квалификацию специалистов;
- бюджет, выделенный на покупку инструмента.
Меньшая гибкость Stata, SPSS, MS Excel требуют меньших денег и времени на обучение; большая гибкость предоставляется бесплатно, но требует самой высокой квалификации специалистов. Баланс достичь несложно, однако результат будет зависеть от квалификации аналитика, а не от выбранного инструмента. Главным инструментом прогнозирования является голова!
Уже год работаю в Python. Это очень круто! Изучайте Python!
Статистический анализ данных – важная составляющая для любого рода деятельности, где есть большие массивы информации, расчеты и моделирование. Статистические программы незаменимы для разработчиков, экспериментаторов, научных сотрудников, студентов ВУЗов, преподавателей. Довольно распространено использование ПО для статистики среди специалистов разработки маркетинговых технологий, аналитиков, бухгалтеров, финансистов, государственных служащих. И это далеко не полный перечень профессий, где инструменты статистического анализа - must have в повседневной работе. Таких программ существует множество, но в сегодняшнем обзоре мы ознакомим Вас с основными, наиболее удобными в использовании, популярными программами для статистики. Мы отобрали лучшие инструменты, позволяющие организациям проводить анализ, систематизацию, разъяснение данных.
Удобство статистического ПО состоит в том, что с его помощью Вы сможете анализировать детальные отчеты, на основании определенных статистических выборок создавать сводные таблицы. Давайте рассмотрим ТОП 10 программ, инструментов для статистики, которые будут популярными в 2022 году.
Minitab
Первое место в нашем рейтинге достается решению для анализа данных Minitab. В программах из этого пакета можно визуализировать, анализировать, сравнивать данные для реализации бизнес-задач. Minitab привлекает пользователей простотой в использовании и точностью выполняемых операций. Построение аналитических отчетов получается информативным и структурированным. Многочисленные отзывы пользователей свидетельствуют о том, что это лучшее программное обеспечение для статистического анализа. Все процессы происходят быстро, в любой момент можно связаться со службой поддержки и уточнить интересующий вопрос.
Удобный интерфейс позволяет освоить программу за короткое время. Таким образом Вы сможете легко составлять отчеты, проводить анализ, форматировать таблицы и графики, которые удобно вставлять в отчет или научную статью. Пакет Minitab включает огромный выбор статистических инструментов. Программа пригодится специалистам разных сфер деятельности. Например, бухгалтера, финансисты и аналитики используют большие массивы данных для анализа, макросы для автоматизации процессов, графические элементы для отчетов. В восторге от этой программы преподаватели и студенты высших учебных заведений, научные сотрудники. Инженеры-технологи отмечают Minitab, как лучшее статистическое ПО.
Вот основные преимущества программного пакета Minitab:
- загрузка данных из других программ. Например, Вы можете импортировать информацию из Excel, редактировать таблицы и пр.;
- удобство при работе с графиками и диаграммами. Каждое последующее внесение данных в графики предусматривает автоматическое обновление готового проекта;
- презентации создавать легко. После того, как Вы сделали презентацию, ее можно сразу экспортировать в программу Power Point или Microsoft Word;
- встроенный интерактивный помощник. Minitab Assistant предоставляет рекомендации по расшифровке показателей, помогает определить приоритетные значения.
StatSoft (STATISTICA)
Производитель StatSoft известный разработкой мощных программ для статистического, графического анализа STATISTICA. Набор инструментов позволит выполнять прогнозирование, data mining. Также Вам доступно создание своих приложений, установки интеграций, организации интернет-доступа и пр.
Прежде всего STATISTICA отличается удобством интерфейса и оригинальными опциями настройки. Интерфейс можно настроить согласно Вашим задачам и потребностям. Процесс анализа проходит в интерактивном режиме с постепенным открытием диалоговых окон. Первая вкладка всегда содержит наиболее часто используемые функции, а другие вкладки включают уже специализированные методы и функции. Поэтому удобно будет и начинающему и продвинутому пользователю.
В графическом блоке имеется набор инструментов для визуализации, графического дизайна. В Вашем распоряжении больше 10 000 видов графиков для редактирования, интерактивных действий вращения, увеличения, управление прозрачностью. Высокая скорость и точность вычислительных действий – преимущество ПО STATISTICA. Все вычисления происходят быстро, несмотря на то что приложения массивные и регулярно происходят запросы в базы данных. В программе используются авторские технологии улучшения производительности. Изначально продукты StatSoft разработаны с сохранением максимальной оптимизации при работе со сложными прогнозными моделями.
В программах STATISTICA реализована возможность осуществлять разведочный анализ данных, определения корреляций, построение диаграмм рассеяния, вычисление T-критерий, создание таблиц частот, заголовков. В интерактивном калькуляторе определяйте вероятностные распределения. Программы предназначены как для домашних пользователей, так и для корпоративного использования. ПО STATISTICA удобно использовать для учебных целей, в прикладных исследованиях.
Сравнение Minitab и Statistica
Отдельно расскажем об основных отличительных особенностях двух приложений для статистического анализа данных Minitab и Statistica.
Оба эти приложения эффективны для проведения статистического анализа, но многие пользователи все же отмечают ПО Minitab из-за простоты в использовании, легкости в освоении. Их служба поддержки отвечает по e-mail в течение суток. Графики и диаграммы легко расшифровываются, а огромный выбор инструментов усовершенствуют принятие бизнес-решений.
COMSOL
Программные продукты COMSOL – это набор инструментов для создания численных моделей в разных сферах проектирования. Универсальной платформой COMSOL Multiphysics пользуются в производстве, в научных исследованиях, инженерии. Это программная среда, которая позволяет проводить анализ физических процессов, управлять моделями, приложениями. Работая в программе, Вы пройдете все этапы от создания геометрических моделей, присвоения свойств материалам до визуального отображения заключительного проекта моделирования. Все созданные модели хранятся в базе данных. Если в работе Вы сталкиваетесь с прикладными задачами, используйте модули расширения. Они предлагают огромный выбор специализированных инструментов, среди них, например, модули в разделах электродинамики, гидродинамики и теплопередачи, химии, механики и других отраслей.
Программа COMSOL Multiphysics включает такие основные функциональные возможности, как создание моделей, разработка приложений и управление моделями. Таким образом, Вы можете создавать геометрические модели, группировать их в выборки. Программа имеет физические интерфейсы в готовом виде, они позволят создавать физические явления и материалы. В приложении содержаться интерфейсы для формирования описаний моделей на базе математических уравнений. Специальный интерпретатор поможет выполнить наилучшим способом численное моделирование, используя точные вводные данные. Составляющей частью COMSOL является также среда разработки приложений на базе расчетных моделей. Здесь Вам доступно создание комплексных приложений, для этого используйте геометрические объекты на основании CAD-моделей. В среде разработки редактируйте формы, макросы и тестируйте созданные приложения. После тестирования приложениями могут пользоваться проектные команды, производственные подразделения, испытательные лаборатории, клиенты. Система администрирования – среда, в которой хранятся модели в базе данных. С ее помощью происходит структурирование данных, поиск по заданным критериям. Это удобно при необходимости сравнения версий проекта для поиска различий. Для распространения приложений предусмотрены продукты COMSOL Compiler и COMSOL Server.
Microsoft Excel
Пожалуй, это самая популярная и универсальная программа для статистики. О ее функциях и возможностях знают многие, но все же рассмотрим ключевые преимущества, отличительные особенности приложения для работы с электронными таблицами. Microsoft Office Excel – ПО, с помощью которого Вы сможете делать расчеты разного уровня сложности, создавать отчеты, графики, диаграммы и т.п
- Составление бюджетных планов. Актуальная опция для бухгалтеров и финансистов при работе с числовыми данными. Огромный выбор финансовых функций позволит оперативно составить бюджетные календари, производить планирование.
- Управление текстовыми блоками, построение графиков, диаграмм. Несмотря на то, что в Excel преобладает работа с цифрами, в редакторе можно создавать текстовые отчеты и управлять ими. Расширенная библиотека встроенных графиков, диаграмм разных типов позволит наполнить Ваши проекты и презентации яркостью и выразительностью.
- Площадка для создания баз данных. Программа создана в виде строк и столбцов, поэтому формирование массивных списков, баз данных для определенных потребностей не составит труда.
- Макросы для автоматизации задач. Набор команд в виде макроса помогут автоматизировать сложные вычисления. От Вас потребуется одно нажатие мыши, всю остальную работу выполнит программа.
- Возможности Visual Basic for Applications (VBA). В Excel встроен язык программирования VBA, который легко освоить и повысить возможности приложения. Вы сможете создавать собственные пользовательские функции, надстройки.
SAS (Statistical Analysis Software)
Использование пакета SAS позволит реализовывать следующие задачи – создание, редактирование, управление данными, математический, статистический анализ, графическое оформление, генерирование отчетов, бизнес-прогноз, продвижение программ. Рассмотрим три направления, где это программное обеспечение поможет в достижении эффективных решений.
- Прогнозная аналитика. Программа для интеллектуального анализа упростит процесс подготовки данных. Динамические диаграммы, графики помогут выявлять основные закономерности. Благодаря удобному функциональному интерфейсу есть возможность создавать точные модели. Используя прогнозный анализ, в основе которого разнообразные статистические стратегии, можно внедрять обобщающие результаты.
- Бизнес-аналитика. Программа предусматривает создание интерактивных отчетов. Инструменты для бизнес-аналитики позволят визуализировать определенные закономерности, выявить взаимосвязи, увидеть скрытые возможности. В этом направлении налажена командная работа – интеграция программы с пакетом Microsoft Office, обсуждение визуальных графиков, идей, диалоговые комментарии.
- Мультивариантный анализ. В рамках этого направления происходит сразу распознавание и анализ нескольких статистических признаков. Благодаря многомерной детальной аналитике можно проводить исследования на определения влияния конкретных параметров на итоговый результат. Этот анализ содержит оценку факторных наблюдений, многовариантные рецидивы, двухвариантные оценки.
Приложения SAS включают в себя мощные инструменты для создания масштабной базы данных. Программное обеспечение имеет закрытый исходный код, а значит любые изменения возможны исключительно производителем. Поэтому налажена удобная система поддержки клиентов, которая поможет решить возникшие вопросы.
MATLAB
Matrix Laboratory или сокращенно Matlab – комплекс инструментов для программирования, математических расчетов, компьютерного моделирования. С помощью этого ПО выполняется быстрая и качественная обработка данных. Продукты Matlab представлены в виде функций или скриптов. К основным возможностям программы относится:
- моделирование для анализа данных. Использование матриц, линейных уравнений, векторов. Функция анализа данных широко распространена в сфере климатологии, медицинских исследований, в финансовом секторе. Matlab содержит тысячи готовых функций для статистического анализа;
- визуализация в виде графиков и настраиваемых функций. В программе есть галерея встроенных графиков для отслеживания закономерностей. Все графические визуализации Вы сможете комментировать, управлять графиками. При необходимости графику можно экспортировать в форматы PDF, EPS, PNG;
- Matlab, как среда для программирования. Приложение позволит выполнять задачи разного уровня сложности, от выполнения простых интерактивных команд до создания масштабных программ. Посредством определенного синтаксиса создавайте математические операции с матрицами и массивами, используйте функции для инженерных расчетов. Инструменты программы позволят разрабатывать крупные приложения.
- дифференциальные уравнения. Создавайте частные производные, линейные, нелинейные уравнения.
SPSS (IBM)
Программное обеспечение для сложного статистического анализа, планирования, создания бизнес-отчетности. В SPSS Statistics удобный пользовательский интерфейс, не предполагающий программирования. Там есть разнообразный функционал управления, набор статистических команд, инструменты для создания отчетности. Все продукты IBM SPSS интегрированы в целостную систему, поэтому Вам не составит труда переходить из одной программы в другую. Встроенные модули увеличивают аналитические возможности. IBM SPSS работает на всех операционных системах – Windows, MacOS, Linux, Android, iOS. Чаще всего это ПО используют в медицине, маркетинге, государственных, образовательных учреждениях. Программный пакет содержит словарь метаданных, что упростит работу с документацией.
С помощью SPSS измеряйте частоты, корреляции, регрессии и другие статистические производные. Программа предусматривает использование расширений на языках Python и R, что упрощает интеграцию с ПО с открытым исходным кодом. Это комплексный продукт с поддержкой полной и описательной статистики, регрессионного анализа.
STATA
Программный набор STATA позволяет обрабатывать данные, создавать визуализацию, статистику и автоматизированную отчетность. ПО используется в разных сферах деятельности, в частности в экономике, политологии, образовании, социологии, здравоохранении. Вы сможете решать не только статистические операции, но и полномасштабно администрировать данные. Интерфейс построен на базе методики «point-and-click», что помогает генерировать графики высокого качества, которые можно впоследствии публиковать.
С помощью Stata создавайте детализированные диаграммы, собственные графики. Встроенный редактор диаграмм поможет добавлять заголовки в диаграммы, примечания, текст, стрелки и пр. Программы STATA работают на всех платформах. Еще одной особенностью программы является возможность добавлять свои команды, также доступно обновление ПО в онлайн-режиме. Управление данными происходит в фреймах, доступ к ним можете получить, используя Java и Python.
Многообразие статистических инструментов позволяют выполнять универсальные задачи для различных целей.
XL STAT
Это надстройка для приложения Excel, позволяющая проводить анализ, настраивать и делиться результатами в MS Excel. Плагин содержит более 200 стандартных и расширенных функций. Наиболее распространен для использования в крупных компаниях, организациях малого и среднего бизнеса, высших учебных заведениях. В рамках моделирования для использования Вам доступны функции линейной регрессии, однофакторного и многомерного дисперсионного анализа, кубических сплайнов, дисперсионного анализа (ANOVA).
Для визуализации используйте графики рассеяния, гистограммы, 2D-графики, тернарные диаграммы. Среди математических инструментов в программе есть калькулятор вероятности, матричные операции. В XL STAT предусмотрена возможность проводить параметрические и непараметрические тесты. Экспорт готового проекта осуществляется в такие форматы как GIF/JPG/PNG/TIFF. Вы также можете управлять книгой, отдельными листами, редактировать строки меню.
Многие пользователи отмечают это приложение как простое и интуитивно понятное в использовании, хорошо себя зарекомендовало в исследованиях, при написании кандидатских диссертаций, в биотехнологиях, для расчетов в сфере экологии.
Wizard Mac
Это новая программа для устройств на базе Mac OS, с помощью которой упрощается анализ данных без необходимости программирования или набора текста. Редактор включает комплекс инструментов для исследований. Легко настраиваемый и понятный интерфейс поможет разобраться в программе даже новичку.
Ключевые функции программы:
- быстрая и эффектная визуализация. Приложение использует встроенные графики Mac для создания графических блоков, диаграмм рассеяния, гистограмм и пр;
- статистическое многомерное моделирование. Модели создаются быстро с моментальным пересчетом оценок регрессии во время использования элементов управления. Для специалистов отдела маркетинга актуальной будет функция прогноза поведения клиентов посредством использования полиномиального логита или упорядоченного пробита;
- моментальное статистическое тестирование. Wizard определяет какой вид теста подойдет больше всего в Вашем случае на основании определенных данных;
- интерпретация и прогноз модели. После того, как Вы создали прогностическую модель применяйте специальные кнопки и ползунки для определения прогнозов, и экспортируйте в офисные пакеты;
- гибкая система импорта и экспорта. В программу Wizard можно импортировать файлы Excel, Access, Numbers на платформах R, SQLite, MySQL, PostgreSQL. При работе с версией Pro есть возможность совершать импорт или экспорт файлов из программ SPSS, Stata, SAS.
Заключение. Программного обеспечения для статистики сейчас огромное множество. В статье мы рассказали лишь о десяти самых востребованных и удобных программ для статистического анализа и управления данными. Мы всегда рады помочь в выборе софта, который подойдет именно для Ваших потребностей и для решения актуальных задач.
Statistica построена на основе COM (Component Object Model ) модели, фактически это набор взаимодействующих между собой COM-компонентов, каждый из которых имеет уникальный идентификатор и может использоваться другими программами, включая Excel.
Объекты библиотек Statistica полностью открыты и доступны для всех совместимых сред программирования Visual Basic в других приложениях
Если вы хотите запустить анализ Statistica из Visual Basic другого приложения (например, Excel), вам сначала нужно загрузить необходимые библиотеки Statistica (например, с помощью параметра «References» в меню «Tools » редактора Visual Basic приложения), и, во-вторых, создать объект типа Statistica.Application.
Затем вы можете создавать объекты анализа, которые являются частью объекта Statistica.Application (нейросети, регрессию, графики).
Данный вариант доступен при наличии лицензии Statistica Enterprise.
Описанный далее метод позволяет легко и быстро, без создания макросов, совместить Excel-документ с его функционалом и возможности Statistica.
В этом способе не требуется лицензия Statistica Enterprise.
Для начала необходимо запустить Statistica и нажать на значок с папкой и надписью Открыть.
Выбираем файл, в котором содержатся данные.
Далее нужно выбрать вариант Открыть как Рабочую книгу Excel.
В окне Statistica открывается таблица с привычным Excel-интерфейсом, где можно использовать любые его функции.
Помимо этого, наверху отображается строка, которая предоставляет доступ ко всем модулям Statistica.
Нейронные сети
Шаг 1 – запуск анализа и выбор переменных
Чтобы воспользоваться нейронными сетями Statistica нужно выбрать Анализ, а затем Автоматизированные Нейронные Сети.
В открывшемся окне можно указать интересующие нас диапазоны строк и столбцов таблицы. В нашем случае можно оставить всё по умолчанию.
Далее появляется окно, где можно изменить тип данных, если он неверно распознался. В нашем случае все столбцы действительно имеют числовой формат, поэтому соглашаемся.
Будем обучать модель регрессии.
В качестве зависимой переменной укажем S/R eff, а в качестве независимых – исследуемые параметры.
Шаг 2 – указание подвыборок
На вкладке Подвыборки (ПНС и АНС) укажем вариант со случайными подвыборками:
Для обучения выделим 70% данных, а для тестирования – 30%.
Шаг 3 – задание первоначальных гиперпараметров
Выберем автоматизированные сети.
Поскольку размер выборки не очень большой (примерно 70 объектов), число нейронов тоже сделаем небольшим (1-10). Будем обучать 20 моделей, из которых оставим 5 лучших.
Уберём функции активации на последнем слое, которые выдают ответ в диапазоне [0,1] или [-1,1].
Шаг 4 – обучение и анализ результатов
Обучаем и смотрим на результаты.
Здесь в столбце Архитектура можно увидеть количество скрытых нейронов, а в последующих трёх столбцах – качество модели на обучающей, валидационной и тестовой подвыборках.
Можно видеть, что качество на обучающей и тестовой подвыборках весьма высоко, это значит, что моделям удалось отыскать реальные зависимости в данных.
Шаг 5 – выбор лучших моделей
Лучшее качество на тестовой выборке показала модель под номером 2: 0,992442.
Выберем эту модель и более подробно исследуем её результаты.
Нажмём на кнопку Выбрать\Снять сети.
В открывшемся окне выбираем сеть с номером 2 и нажимаем ОК.
Шаг 6 – анализ чувствительности
Анализ чувствительности позволяет оценить важность каждой переменной для обученной модели.
Перейдём на вкладку Итоги анализа и выберем глобальный анализ чувствительности.
Числа в построенной таблице показывают, во сколько раз увеличится ошибка модели, если убрать соответствующую входную переменную из анализа. Если отношение меньше единицы, то удаление соответствующей переменной улучшает качество работы сети.
Можно видеть, что ответы модели наиболее чувствительны к переменным Temperature и Settling, то есть к температуре и времени оседания. Таким образом, удаление этих переменных сильно ухудшит качество рассматриваемой модели.
При этом по показателю чувствительности нельзя определить, как именно влияют переменные на предсказанное значение, увеличивают или уменьшают его. Проверить это можно экспериментально, задав модели наблюдения с разными значениями исследуемой переменной.
По результатам модели при увеличении температуры и времени оседания эффективность процесса возрастает.
Шаг 7 – графический анализ предсказаний
На вкладке Графики построим диаграмму рассеяния для целевой переменной и выхода нейронной сети.
Точки расположены вдоль прямой с незначительными отклонениями. Это значит, что модель хорошо восстановила зависимость в исходных данных. Об этом говорит и R2-коэффициент этой модели, который близок к единице.
Шаг 8 – анализ остатков
Посмотрим на гистограмму остатков.
Распределение остатков слабо похоже на нормальное, так как наблюдаются два пика.
Шаг 9 – вычисление среднего абсолютного остатка
Найдём среднее значение ошибки.
Выделим столбец с абсолютными остатками и найдём среднее значение.
Шаг 10 – сохранение моделей
Сохраним обученную модель, чтобы её можно было повторно использовать в дальнейшем.
Вернуться назад в окно с Excel-интерфейсом можно при помощи опции Окна на вкладке Главная:
Шаг 11 – применение модели к новым данным
Сохранённую модель можно применить к новым данным для получения результатов.
Допустим, мы открыли файл, содержащий новые данные (способом, описанным в пункте Интеграция Excel и Statistica).
Чтобы применить обученную ранее нейронную сеть, нужно в верхней строке выбрать Анализ, Автоматизированные нейронные сети.
В открывшемся окне в этот раз нужно выбрать Загрузить модели из предыдущих анализов и нажать Загрузить сети.
Далее нужно выбрать сохранённую модель и нажать Открыть.
В окне нового анализа, как и в последующем окне, наживаем ОК.
Теперь можно применять нейросеть к новым данным. Чтобы получить предсказания, нужно нажать Предсказанные.
Выводы
Имеется возможность за несколько нажатий кнопки без лишних усилий соединить интерфейс Excel и широкий спектр возможностей Statistica и применить различные методы анализа к данным, представленным в Excel-документе.
Приложение 1
Если вы хотите запустить анализ Statistica из Visual Basic другого приложения (например, Excel), вам вначале нужно загрузить необходимые библиотеки Statistica (часто с помощью параметра «References» в меню «Tools » редактора Visual Basic приложения), и, во-вторых, создать объект типа Statistica.Application.
Затем вы можете создавать объекты анализа, которые являются частью объекта Statistica.Application.
Этот вариант доступен при наличии лицензии Statistica Enterprise.
Так, например, чтобы получить доступ к функциям библиотеки Statistica Basic Statistics из Microsoft Excel, вы должны использовать такой код Visual Basic:
Set x = CreateObject("Statistica.Application")
Set a = x.Analysis(scBasicStatistics, _
Обратите внимание, что теперь x является объектом типа Statistica.Application; a - объект типа Statistica.Application.Analysis.
Когда вы запускаете программу из редактора программ Statistica Visual Basic (SVB), вы можете опустить явное объявление объекта Statistica.Application и просто написать:
Set a = Analysis(scBasicStatistics, _
Когда вы запускаете программу из Statistica, программа «знает», что объект анализа является частью текущего Statistica.Application.
Вы также можете создать новый Statistica.Application; например, запустить следующую программу из SVB:Sub Main
' Launch a new application; assign the new
' application object to x.
Set x = New Application
' Declare variables (objects) so we can assign
' the input data Spreadsheet after we launched
' the application; note that we could also launch
' the Statistica Basic Statistics module with an
' optional data file name parameter; however, for
' illustration purposes we will maintain an explicit
' object for the Spreadsheet.
Dim InputDocument As StaDocuments
Dim InputFile As Spreadsheet
Set InputDocument=x.Spreadsheets
' Here the input data Spreadsheet is opened, and
' the newly opened document object assigned to
' variable InputFile.
Set InputFile=InputDocument.Open( _
Path & "\Examples\Datasets\exp.sta")
' Next we launch the Statistica Basic Statistics
' module; note that we could have also launched it
' with an optional input data file parameter; i.e.
' Set a = x.Analysis(scBasicStatistics, _
' Path & "\Examples\Datasets\exp.sta")
Set a = x.Analysis(scBasicStatistics, InputFile)
' Make the application visible, the input data
' Spreadsheet visible, and the analysis (start-up
' dialog) visible.
InputFile.Visible=True
x.Visible=True
a.Visible=True
' Here we could add additional code to perform
' computations with this or other modules.
End Sub
Эта программа создаст (запустит) новое приложение Statistica; затем он откроет файл входных данных и запустит модуль базовой статистики Statistica.
Все объекты, объявленные в этой программе, становятся видимыми, поэтому, когда это будет сделано, вы увидите новое приложение Statistica, файл входных данных (электронную таблицу) и панель запуска для модуля базовой статистики.
Источники
1. В.П.Боровиков. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил.
2. В.П.Боровиков. Нейронные сети, Горячая Линия Телеком, 2008
3. В.П.Боровиков. Популярное введение в современный анализ данных и машинное обучение на STATISTICA , Горячая Линия Телеком, 2018
Читайте также: