Sas grid что это
ЮниКредит Банк подвел итоги проекта по кластеризации и созданию высокопроизводительного корпоративного хранилища данных на базе SAS Grid Manager. Применение новых инструментов помогло повысить скорость обработки данных, увеличить количество одновременно выполняемых операций, сократить допустимое время простоя сервиса с суток до 1 часа, свести до нуля вероятность потери данных в случае системного сбоя, а также сократить издержки на закупку и поддержку аппаратной части хранилища.
Чтобы поддержать развитие бизнеса и минимизировать время подготовки обязательной отчетности, ИТ-специалистам банка нужно было обеспечить высокую отказоустойчивость хранилища данных, снизить технологические риски и расходы на техническое сопровождение. Два года назад допустимое время простоя сервисов хранилища данных до полного восстановления его работоспособности в случае глобального сбоя ( RTO ) составляло 24 часа, а глубина допустимой потери данных в случае такого сбоя ( RPO ) также составляла 24 часа. Новые бизнес-задачи потребовали снижения первого из этих показателей до 1 часа, а второго – до нуля. Иными словами, в случае сбоя никакие загруженные в хранилище данные вообще не должны были потеряться.
Чтобы оптимизировать ИТ-инфраструктуру, обеспечить надежную защиту от сбоев и высокую скорость исполнения операций, банк начал поиск решения, которое могло бы автоматически восстанавливать загрузку хранилища данных и автоматически перезапускать процессы в случае сбоя. Решение должно было допускать возможность управления приоритетностью ETL [1] -заданий и позволять ускорить загрузку хранилища данных.
Оценив возможности представленных на рынке платформ, специалисты ЮниКредит Банка остановили свой выбор на SAS Grid Manager, который отвечал всем без исключения предъявленным требованиям. SAS Grid Manager представляет собой систему распределенных вычислений, которая вместо работы на одном большом сервере запускает процессы одновременно на нескольких серверах и собирает их в единый кластер, обеспечивая высокую скорость и надежность исполнения операций.
Реализация проекта по модернизации хранилища проходила в несколько этапов. На первом, который занял около трех месяцев, осуществлялось проектирование системы. Затем началось развертывание платформы SAS Grid Manager , которое шло около двух месяцев. Далее последовала миграция ядра хранилища на новую платформу. Чтобы обеспечить скорость и непрерывность процессов загрузки данных, на следующей стадии процессы загрузки были оптимизированы с учетом новых возможностей SAS Grid . После комплексного тестирования на соответствие оптимизированной системы техническому заданию платформа была запущена в промышленную эксплуатацию.
К настоящему моменту SAS Grid Manager работает в промышленном режиме чуть менее года. По итогам эксплуатации решения банк отметил, что скорость обработки данных выросла на 36%. Время обработки заданий уменьшилось на 41%, а время ожидания заданий – на 68%. При этом коэффициент параллельности процессов увеличился с 3,58 до 5,17. Помимо достижения целевых показателей допустимого времени простоя и времени восстановления системы и данных, снизился объем расходов на закупку и поддержание оборудования. И главное у банка появилась возможность практически неограниченного горизонтального масштабирования хранилища с использованием недорогой серверной инфраструктуры стандартной архитектуры.
«ЮниКредит Банк – это один из наших ключевых клиентов. В 2012-2014 годах в банке на платформе SAS были построены корпоративное хранилище данных и ряд бизнес-решений для управления рисками и маркетинговыми кампаниями. Переход на новейшую Grid-платформу свидетельствует о том, что банк остается одним из технологических лидеров на российском рынке и продолжает инновационное развитие, заботится о стабильности бизнес-процессов и сохранности информации. Это позитивно отражается не только на внутренних процессах банка, но и на качестве клиентского сервиса», - говорит Юлий Гольдберг, директор по работе с финансовым сектором компании SAS Россия/СНГ.
«Внедрение SAS GRID позволило нам не только повысить производительность ETL , но и обеспечить высокий уровень отказоустойчивости корпоративного хранилища данных. А это, в свою очередь, позволяет нам обеспечить высокий уровень сервиса для всех наших клиентов. Успешное внедрение такого сложного и инновационного для банковской сферы решения стало возможным благодаря высокому уровню профессионализма коллег из компании SAS Россия и отличному, слаженному взаимодействию между ними и командой IT -специалистов банка», - рассказал Михаил Дугаев, директор департамента информационных технологий ЮниКредит Банка.
Проект в ЮниКредит Банке – это первое внедрение SAS Grid Manager в России и первый перевод ИТ-инфраструктуры банка на высокопроизводительные параллельные вычисления.
Справочная информация
О ЮниКредит Банке
ЮниКредит Банк — это коммерческий банк, работающий в России с 1989 года. ЮниКредит Банк является крупнейшим российским банком с иностранным участием, занимая 10-е место в рейтинге ИНТЕРФАКС-100 по объему активов по результатам первого полугодия 2015 года. 100% голосующих акций принадлежит UniCredit Bank Austria AG, Вена, Австрия, входящему в состав финансовой группы UniCredit. ЮниКредит Банк занимает сильные позиции на российском рынке корпоративных банковских услуг, одновременно входя в число ведущих банков на рынке финансовых услуг для частных клиентов. ЮниКредит Банк имеет Генеральную лицензию №1 Банка России.
UniCredit — один из ведущих европейских коммерческих банков с сильным присутствием в 17 государствах Европы. Сеть UniCredit охватывает рынки порядка 50 стран и состоит из свыше 7 100 отделений, где работает более 127 000 сотрудников (данные на 30 июня 2015 года).
В Центральной и Восточной Европе Группа располагает обширной международной банковской сетью, включающей почти 2 400 офисов (3 400 с учетом Турции).
UniCredit присутствует в следующих странах: Австрия, Азербайджан, Болгария, Босния и Герцеговина, Венгрия, Германия, Италия, Польша, Россия, Румыния, Сербия, Словакия, Словения, Турция, Украина, Хорватия и Чешская Республика.
[1] ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка») — один из основных процессов в управлении хранилищами данных, который включает в себя:
· извлечение данных из внешних источников;
· их трансформацию и очистку, чтобы они соответствовали потребностям бизнес-модели;
· их загрузку в хранилище данных.
Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
Scalability. Fault tolerance. Load balancing. High performance. High availability. SAS® Grid.
These are all phrases that commonly come up during analytics infrastructure conversations.
Michael Koob, a SAS Grid expert who has installed and administered multiple SAS Grid installations, shares his knowledge of SAS Grid. Following his SAS Grid guidance will not only keep your users happy but also boost the user’s productivity while reducing administrative costs.
SAS administrators and CIOs are interested in this modern platform and considering making an investment.
( The transcript is below.)
Аналитика в памяти
Основой решений In-Memory Analytics является технология SAS LASR Analytic Server, позволяющая размещать данные для анализа в оперативной памяти серверов с целью повышения производительности аналитических систем, получения новых возможностей визуализации, интерактивности, масштабируемости, оптимизации и упрощения управления. Платформа SAS LASR Analytic Server обеспечивает безопасную, многопользовательскую среду для одновременного доступа к данным в памяти, позволяющую быстро обрабатывать запросы к данным большого объема за счет многопоточности и распараллеливания.
Когда набор данных или таблица загружены в память платформы, они находятся там до тех пор, пока, например, таблица не будет удалена или сервер не завершит работу, причем без ограничений на количество загружаемых таблиц, имеющих уникальное имя. Это стало возможным за счет организации работы в распределенной вычислительной среде. Платформа образована из нескольких машин со своей системой хранения и оперативной памятью (48–96 Гбайт). Аналитический сервер LASR не пишет данные на диск, а только загружает их с диска в почти неизмененном виде, что эффективно при его размещении в одном месте с распределенным поставщиком данных. Сейчас поддерживаются три системы хранения: Hadoop (файловая система HDFS), EMC Greenplum и Teradata. Аналитический сервер LASR не предоставляет механизма репликации и отказоустойчивости, а использует штатные средства системы хранения от конкретного поставщика.
Аналитический сервер LASR имеет архитектуру клиент-сервер и построен на платформе x86 под управлением 64-разрядной ОС Linux. В зависимости от режима работы возможна организация соединения либо на один сервер с Linux, либо на все серверы.
На рис. 2 приведена схема работы LASR Analytic Server на платформе Hadoop. Внутри каждого узла Hadoop процесс принимает входящие команды и возвращает результаты обработки. При этом нет необходимости устанавливать ПО от SAS на каждый узел — система Hadoop сама позаботится о распространении обработки, управлении памятью, контроле работы и управлении рабочей нагрузкой.
Рис. 2. Схема работы LASR Analytic Server на платформе Hadoop |
В зависимости от потребностей обработки и размера данных, можно принимать данные из слоя хранения Hadoop и загружать их в сервер или же обойти слой Hadoop, загрузив данные напрямую в аналитический сервер SAS LASR (левая часть рис. 2). В верхней части рис. 2 показаны клиентские приложения, которые могут работать с аналитическим сервером LASR.
Результатом сотрудничества с компаниями EMC и Teradata стало решение по запуску аналитических приложений SAS в распределенной вычислительной среде для переноса процессов обработки непосредственно к данным, а не наоборот, как в традиционных аналитических системах, в которых данные передаются приложениям (рис. 3).
Рис. 3. Схема переноса процессов обработки к данным |
Массово-параллельные системы (Massive Parallel Processing, MPP), не имеющие общей системы хранения (shared-nothing), и реляционные СУБД, такие как Teradata и Greenplum, — хороший выбор для технологии «аналитика в памяти». Они обеспечивают распространение данных, управление процессом и управление памятью, которые необходимы для работы аналитики наряду с реляционной обработкой.
What is SAS GRID computing?
The belief behind grid computing with SAS is that pharmaceutical manufacturers, hospitals, insurance agencies, and other related healthcare operations should be able to obtain faster results, and should be empowered to make more efficient use of the compute power that they already have. SAS GRID computing enables users to develop a controlled, shared environment that's dedicated to processing large volumes of data and analytic programs - fast. This is accomplished through the use of dynamic, resource-based load balancing.
What this does is create a secure, networked environment that allows for the coordinated sharing of heterogeneous computing resources. This means that all users are able to access useful information and obtain their answers quicker and more efficiently. Individual SAS jobs can also be split and run parallel to one another across multiple nodes. Ultimately, this reduces time, labor, and costs while allowing for a more flexible and scalable infrastructure.
Transcript for “What is SAS Grid?”
Ken Matz – Host: 00:01
We’re here today with Michael Koob. Michael, tell us a little bit about yourself.
Michael Koob: 00:06
I’ve been the Director of Emerging Technology with Zencos for about the last year and a half now, working on more advanced solutions. I’ve spent about 20 years working on-off with SAS and various clients, customers either working inside their organization as an employee or as a consultant on various implementation deployment optimization projects.
Ken Matz – Host: 00:31
Why don’t we start out by talking to the listeners about what SAS Grid is and what it means to them?
Okay. SAS Grid is essentially your typical BI platform from SAS with a workload manager inserted underneath it to allow you to have a consolidated platform of hardware that doesn’t have to be a single host. So it treats a group of hardware infrastructure as a monolithic resource for the SAS platform and balances workload across that resource base.
Ken Matz – Host: 01:07
And what is the typical business case or business cases that users face when they consider a SAS Grid?
Michael Koob: 01:14
I see it as two different cases. [The most common] one that is around resource consolidation and centralization of the management of those resources. We worked with a number of research organizations and large financial institutions that fit that model pretty well.
What they’re doing is they’re taking large installation basis of PC based products and disparate SAS users that are difficult to manage and hard to keep track of and moving all of those users on to a what is account, what is basically a single SAS configuration stack. And that greatly simplifies administration and improves the visibility to the utilization of resources allowing for things like effective capacity planning. This also consolidates license management and some other things that add efficiencies at other places in the process.
Ken Matz – Host: 02:12
That sounds like it would be really productive for the right customers. But what about customers who don’t think that they’re strategically ready for SAS Grid?
Michael Koob: 02:22
SAS Grid is not a solution for everything. But we have seen very effective use of varied what amounts to what someone would consider a very small grid even down to as small as, you know, eight to 16 cores and product. What it essentially does is it builds into your architecture the ability to grow easily later. And so there can be a case for an organization that’s, they didn’t have a large SAS footprint but was anticipating large amounts of work coming in or building out, let’s say a modeling or analytics practice and SAS that they didn’t have before.
They can easily do that with something that they already have if they started with the grid. It can be much more challenging to do. So if you just kind of add on pieces of hardware and environments to, you know, to suit the same purpose when they’re considering that would be an important point for the need to consider for their organization when they’re looking at SAS Grid as an option.
Michael Koob: 03:25
So I think the most critical piece because SAS Grid is so scalable getting the capacity right to begin with in terms of the core account and compute capacity is not so significant. It can be difficult to figure, but it’s also not that difficult to change after the fact.
Michael Koob: 03:44
And incrementally what I find are the significant stumbling blocks. If you will are around improper architecture, particularly around the shared file system and the input-output or IO capability of that infrastructure that can end up with a poor experience. Then there’s the migration of the user base.
There’s not too many Base SAS [and] foundation SAS users on a desktop or a server anymore, but they still exist. And the Foundation SAS [is] well supported on a grid is not nearly as user-friendly because that ends up being a Unix-based XWIN foundation client.
Michael Koob: 04:31
So what we look for is as we try and do an exhaustive survey of who is using SAS that is going to be integrated into the environment, what are their interfaces? We look for things like heavy foundation SAS users because they’re going to have to transition to [SAS] Enterprise Guide or SAS Studio for their coding activity. So they may need support in that.
Otherwise, maybe the other gotchas are a heavily Windows skewed. SAS Grids can be built on Windows. It’s just seldom done that way because generally Linux is a little bit more stable performs a little bit better. And so there are also transition pains potentially from windows if they’re primarily a Windows user and moving into a Linux environment.
And there’s some code migration, fairly trivial most of the time, but there’s code migration. So getting a good understanding of how the businesses using SAS the different ways that they’re using it is going to be a critical feed into doing the planning for not just the hardware infrastructure really, but actually the migration of users to make sure that adoption is both smooth and happy. that can be done, but it can’t be done by just saying grid is the solution and then say, and everybody’s just going to fit in here. It’s best to go in with the mind of who’s going to have the difficulties fitting into this and giving them the support.
Ken Matz – Host: 05:58
Speaking of figuring out who’s gonna do well and who’s not going to do well, do you have a suggested set of success criteria that you suggest to customers when they’re evaluating whether it’s working in their organization or not?
Michael Koob: 06:12
Well, we largely look at, in terms of like the success of a given deployment and having done a lot of them is how many, how long is the warranty support period, and how intense is it if we’re very successful with our upfront efforts, once we cut over the end-user or all the users we expect a peaking of tickets very early, you know, the support that they want and the basic credit requests for assistance.
That may be because usually, it’s because of gaps in that information gathering process that I talked about, things that weren’t captured. But if we did a good job of that upfront process, there should be very, very few support tickets. The transition should be relatively smooth and that period of increased support level should be very short and sweet.
Ken Matz – Host: 07:06
Besides success criteria, what are typical benefits or return on investment aspects that you can advise customers that they’re going to see when they consider SAS Grid?
Michael Koob: 07:16
What I see as being a major motivator is that a properly designed grid is capable of supporting a much larger group of users with a much lower level of administrative support. We have a number of agreed customers where the reality is we’re supporting 400 users or so with a single administrator.
You know, and that’s, you know if you were to take those users and then spread them back into their existing environments, you know, multiple SAS server environments, lots of desktops that draws in a lot more people and requires a lot more overhead. And so I think that is a tremendous benefit is that you can support, again, well done, great implementation.
You can support a much larger number of users per SAS administrator. The return on investment. I don’t have as great visibility into how it impacts licensing, but most of the customers that I’m aware of are saving money on their SAS licensing by going from hundreds of base SAS desktop licenses into a grid.
Michael Koob: 08:29
They’re saving money on the software licensing. You also now will no longer need specialized desktops that need to support SAS and so the user goes back to having a standard desktop as opposed to the specialized one. They don’t have to maintain that.
And one of the biggest things that I think is an advantage, there is no effective way to look at a group of desktops and see what the user is using or and understand is that license actually being paid for. You’re allowed to, based on your license, run that core constantly all day long. That’s what’s assumed when you buy it. What’s actually used, particularly in PC licenses is it can be much, much smaller.
With a SAS Grid, you can actually see all in one place. What’s my core utilization? I can look at that. I can see if it’s trending up and I’m starting to hit limits.
Michael Koob: 09:24
I can also conversely see if I estimated way too high, I can trim back my SAS license. I can pull a host out of that and I can reduce that fairly quickly and easily. It’s the visibility of that all in one place.
That I think is what gives you the ability to adapt as your organization grows or occasionally shrinks, but you can right-size fairly easily. Since SAS other than the storage is largely commodity hardware, even downsizing is fairly cheap in that model that that hardware can be repurposed for something else. And so the flexibility is very nice.
Ken Matz – Host: 10:04
That’s great. This has been really fantastic. A good set of information for listeners and customers who have been listening to the information and find it interesting and want to take the next steps. What do you suggest?
Michael Koob: 10:19
Well, I think the critical factor in SAS Grid is choosing somebody as a partner that has the experience of having done this, that knows the questions to ask to deal with the migration issues. A first and foremost to set a plan in motion, get an architecture that fits with your site usage profile.
[Zencos] would do a SAS Grid workshop at your site or something similar, which involves surveying users to find out how they use the system today, what application interface is, all of those things. But really it takes some experience having done this.
Michael Koob: 11:08
And so the recommendation would be to choose carefully the partner that you want to take this journey with. Because it’s very easy to, to go astray if you don’t have the experience. That I think is the critical element is making sure that you choose somebody with some experience, who’s consultative, and is willing to listen to what your organization needs so that you end up with the right solution at the end of the day.
Ken Matz – Host: 11:34
Michael, that’s great advice and this has been great information. Thank you very much.
Принятие правильных управленческих решений — краеугольный камень успеха бизнеса в высококонкурентной среде. Постоянно растущий объем информации вынуждает руководителей обеспечить не только хранение огромных массивов данных, но и организовать их оперативную обработку с целью извлечения ценной информации для принятия взвешенных решений, причем часто — в реальном времени. Современные требования аналитиков можно сформулировать следующим образом:
- возможность принятия решений на основе всей доступной информации;
- использование инструментов, способных в реальном времени поставлять результаты для принятия решений;
- возможность настройки «на лету» форматов отчетов в соответствии с меняющимися условиями бизнеса.
Рис. 1. Структура пакета SAS High-Performance Analytics |
The Life Science and SAS Grid Collaboration: Past, Present, and Future
June 2014 - most life sciences and healthcare organizations, "Big Data" means big trouble. Although a growing amount of pressure is being placed on both sectors to both speed up and improve the accuracy of data analysis, our economic climate tends to make it almost impossible to actually achieve these objectives. Data is rapidly and continuously pouring in from numerous platforms, making it imperative that IT be able to instantaneously capture, organize, and interpret information in such a way that it can be shared and used to cut costs and improve efficiency without sacrificing the quality of patient care.
Unfortunately, many organizations struggle with constraints on processing power, budget cuts, and the limitations of existing computing infrastructures, which yields higher costs, replicate runs of identical tasks, reduced performance rates, and decreased accuracy. As a result, a growing number of companies are beginning to realize the benefits of grid computing, with a lot of attention being given to SAS® GRID computing. Could this be the solution you've been looking for? In this post, we'll take an objective look at grid computing with SAS, its practical uses, and its benefits.
Аналитика в СУБД
Архитектура Open Grid Services Architecture позволяет интегрировать ресурсы в распределенных, гетерогенных, динамических виртуальных организациях как внутри одного предприятия, так и в среде внешних поставщиков услуг.
Исходными данными для систем предиктивной, или прогнозной, аналитики являются данные из хранилищ. Один из подходов к их обработке заключается в том, что данные сначала помещают в промежуточные витрины, не зависящие от приложений, а затем переносят в специализированные аналитические витрины, с которыми уже работают эксперты, применяя аналитические инструменты интеллектуального анализа. Такой многоступенчатый подход приемлем для относительно небольших объемов данных, но при их увеличении и при повышении требований к оперативности получения результатов анализа имеет ряд недостатков. Помимо необходимости в перемещении данных, существование множества независимых аналитических витрин усложняет физическую и логическую ИТ-инфраструктуру, приводит к росту числа используемых инструментов анализа и моделирования. Более того, полученные разными аналитиками результаты оказываются несогласованными, а вычислительные мощности и каналы используются далеко не оптимально. Кроме того, раздельное существование хранилищ данных и специализированных аналитических витрин делает практически невозможной аналитику в реальном времени.
В подходе In-Database Analytics данные обрабатываются и анализируются непосредственно в базе, что ускоряет работу и позволяет в реальном времени выполнять регрессионный анализ, прогнозирование, скоринговые оценки и др. Ускорение достигается не только за счет избавления от перемещений из хранилища в витрины, но и за счет применения специального кода, вызывающего оптимизированные под быструю обработку данных библиотеки и функции поставщиков СУБД. Такой функционал обеспечивается благодаря применению следующих программных компонентов:
- SAS Scoring Accelerator — преобразование скоринговых моделей, созданных в рамках продукта SAS Enterprise Miner для интеллектуального анализа данных, в специфические для конкретной СУБД функции с целью более быстрого получения прогнозных результатов;
- SAS Analytic Accelerator — преобразование основных статистических и аналитических функций SAS (SAS/STAT, SAS/ETS и т. п.) в команды, понимаемые конкретной СУБД, для минимизации перемещения данных между системой SAS и СУБД
Новые цели — новый проект
В любом крупном банке рано или поздно встает вопрос о необходимости обработки больших объемом данных. Несколько лет назад острая потребность в оптимизации подобных процессов возникла в ЮниКредит Банке — крупнейшем российском банке с участием иностранного капитала. В связи с этим в 2011 году руководство Банка инициировало проект по внедрению корпоративного хранилища данных на базе технологий SAS, который был успешно реализован в 2013 году. На тот момент проект полностью отвечал целям, которые ставились в самом начале, но в связи с изменением IT-инфраструктуры Банка появилась необходимость перевода на это хранилище регуляторной отчетности.
Когда речь заходит о регуляторной отчетности, первоочередным требованием к хранилищу данных становится его отказоустойчивость, а той отказоустойчивости, которая была заложена в проект изначально (восстановление системы и восстановление данных в течение не более 24 часов), оказалось недостаточно. Требовались RTO (время восстановления в случае поломок) не более часа, а также нулевое RPO (потеря данных при падении). Чтобы достичь таких показателей, пришлось решать сразу несколько задач. Нужно было реализовать автоматическое восстановление загрузки данных в случае сбоя, автоматический перезапуск процессов и сервисов в случае сбоя, возможность управления приоритетностью задач на основании установленных бизнес-правил и многое другое: все это вытекало из очень жестких требований по предоставлению регуляторной отчетности.
What are the benefits of SAS grid computing?
Grid computing with SAS is capable of offering significant benefits, such as:
Cost savings through faster and more efficient analysis, as well as leveraging and exploiting under or unutilized computing resources within the network.
Improved business agility through reducing processing times and delivering faster results. This allows your operation to make better, more accurate business decisions for a fraction of the time and cost.
Enhanced collaboration is encouraged, enabling valuable resources to be shared and utilized collectively, efficiently, and effectively. In this way organizations are better equipped to accomplish their goals to reduce costs and improve productivity.
After all has been said and done, the bottom line is this: if you're working in either the life science or healthcare sector and your current applications require the ongoing organization and analysis of extremely large sets of data that are not currently being harnessed in a timely or cost-efficient manner, you could benefit from grid compute implementation. Reach out to a professional to discuss your specific needs and options, and to determine whether the SAS grid is ideal for your enterprise.
Одним из важнейших требований к банковскому хранилищу данных является его отказоустойчивость, и в идеальном случае потеря информации при технических сбоях должна быть равна нулю. Таких показателей удалось достичь в ЮниКредит Банке благодаря внедрению решения SAS Grid Manager
Директор департамента информационных технологий
Быстрее, устойчивее, эффективнее
К настоящему моменту SAS Grid Manager работает в промышленном режиме чуть менее года. В среднем скорость обработки данных выросла на 36%. Время обработки заданий уменьшилось на 41%, а время ожидания заданий — на 68%. Помимо достижения целевых показателей допустимого времени простоя и времени восстановления системы и данных снизился объем расходов на закупку и поддержание оборудования, а за счет использования технологии параллелизации была достигнута значительная экономия в плане простаивания системы. В результате оптимизация работы оборудования резко повысилась, а параллельность обработки процессов увеличилась почти на 50%: в единицу времени стало выполняться в полтора раза больше задач. И главное — у Банка появилась возможность практически неограниченного горизонтального масштабирования хранилища с использованием недорогой серверной инфраструктуры стандартной архитектуры.
Внедрение SAS GRID позволило Банку не только повысить производительность ETL-процессов, но и обеспечить высокий уровень отказоустойчивости корпоративного хранилища данных, а это, в свою очередь, дает возможность обеспечить высокий уровень сервиса для всех наших клиентов. Успешное внедрение такого сложного и инновационного для банковской сферы решения стало возможным благодаря высокому уровню профессионализма коллег из компании SAS Россия и отличному, слаженному взаимодействию между ними и командой IT-специалистов Банка.
Распределенные вычисления
Идея аналитических вычислений в среде грид реализована в продукте SAS Grid Manager. Он предназначен для организации распределенной вычислительной среды с централизованным управлением, которая обеспечивает высокую производительность аналитических вычислений за счет распараллеливания.
Рис. 4. Схема распределенной вычислительной среды |
На рис. 4 показана функциональная схема среды грид с основными компонентами: сервер метаданных, сервер управления, узлы грид и клиентские места.
Информационные потоки в среде SAS Grid Computing разбиты на шесть течений:
- поток метаданных для обеспечения обмена, управления информацией о данных и конфигурирования системы (управление потоком реализовано в SAS Metadata Server);
- поток для управления планировщиком заданий, синхронизацией управляющих воздействий между сервером управления и узлами грид, мониторингом состояния всех составных частей грид (реализуется в Platform LSF);
- поток управления из консоли SAS Management Console;
- основной поток обработки данных, передачи журналов работы приложений и сервисов SAS;
- поток управления вычислительными ресурсами сервера и узлов грид;
- поток управления высокой доступностью сервера метаданных (реализуется средствами Enterprise Grid Orchestrator) — при сбое основного сервиса метаданных его копия запускается на другой машине.
На стороне клиента создается задание — программа, которая разделяется на независимые блоки, отправляемые в грид для выполнения расчетов. Каждый блок адресуется к наименее загруженному в данный момент узлу. Затем ответы возвращаются на клиент для формирования общего результата выполнения задания. Для эффективной работы рекомендуется размещать каждый из компонентов на отдельной машине. Производительность зависит от количества узлов — чем их больше и чем мощнее каждый из них, тем выше производительность всей системы. Ограничением будет пропускная способность сети и контроллеров системы хранения.
Инструментарий SAS Grid Computing позволяет масштабировать инфраструктуру путем добавления новых узлов для обслуживания новых пользователей и обработки новых объемов данных. Можно проводить изменения в динамическом режиме без нарушения работоспособности системы — обновляемые узлы будут недоступны на момент обновления, а их нагрузка будет распределяться между оставшимися узлами.
При работе в среде SAS Grid Manager у продуктов и решений SAS появляются новые возможности.
- Планировщик заданий. Типичная задача для администраторов состоит обычно в правильном планировании выполнения таких зависимых друг от друга заданий, как загрузка данных, создание аналитических отчетов, расчет маркетинговых кампаний. Компонент Schedule Manager позволяет создавать потоки заданий и регламентировать их выполнение в зависимости от времени или файла с описанием необходимых действий (событий).
- Балансировка нагрузки. Используется при одновременном запуске пользователями нескольких ресурсоемких приложений, что типично для большинства корпоративных аналитических сред. Бесконтрольность этого процесса приводит к нехватке вычислительных ресурсов и к сбою в работе системы. SAS Grid Manager предоставляет интерфейс управления политиками, определяющими приоритеты для пользователей и заданий, предотвращает массовое выполнение запросов, приводящих к деградации производительности.
- Управление параллельными заданиями. Эта возможность предоставляется в приложениях SAS, которые распараллеливают задания, состоящие из независимых блоков. Главное преимущество распределенного параллельного выполнения заданий — увеличение производительности.
- Обеспечение отказоустойчивости сервисов. При использовании одного большого сервера его сбой может привести к прекращению работы всей системы. Для исключения такой ситуации в грид предусмотрена избыточность — при выходе из строя одного из узлов, задания будут выполняться на другом.
- Обеспечение высокой доступности сервисов. В системах с большим количеством сервисов возникает ситуация, когда недоступность одного из них может привести к потере работоспособности всей системы. В таком случае копия недоступного сервиса выполняется на другом узле грид.
- Обеспечение высокой доступности заданий. В случае, если большое задание нельзя разделить на независимые блоки, важно выполнять мониторинг процесса его выполнения при помощи контрольных точек, автоматически перезапуская ресурсоемкие задания с момента сбоя.
Задачи исследования, анализа и обработки Больших Данных не могут быть решены с использованием традиционных подходов. Применение SAS High Performance Analytics позволяет решать задачи обработки больших объемов аналитических данных, строить и выполнять комплексные сценарии анализа и почти в режиме реального времени принимать оперативные управленческие решения.
A lot has changed Since 2014. Check-out the updated publication that compares and contrasts this article definition of a SAS grid to 2019 by clicking below:
Which applications are suitable for grid computing with SAS?
In order to take on a realistic approach to discussing the advantages and outcomes of utilizing SAS grid computing, it's important to first define the specific types of applications that actually lend themselves to this type of compute grid implementation. As a general rule of thumb, applications that require many hours (or multiple days or weeks) to run can be considered strong candidates for grid computing. Such a long run time may be indicative of the application demanding replicate runs of the same fundamental task, the processing of extremely large amounts of data, or the decomposition of the application into execution units, data subsets, or both. If any of these characteristics are applicable to your existing applications, compute grid implementation could be the ideal solution.
Читайте также: