Как подключить excel к hadoop
Microsoft's Big Data solution integrates Microsoft Business Intelligence (BI) components with Apache Hadoop clusters deployed in HDInsight. An example is the ability to connect Excel to the Hive data warehouse of a Hadoop cluster. Connect using the Microsoft Hive Open Database Connectivity (ODBC) Driver.
You can connect the data associated with an HDInsight cluster from Excel with Microsoft Power Query add-in for Excel. For more information, see Connect Excel to HDInsight with Power Query.
Prerequisites
Before you begin this article, you must have the following items:
- An HDInsight Hadoop cluster. To create one, see Get started with Azure HDInsight.
- A workstation with Office 2010 Professional Plus or later, or Excel 2010 or later.
Install Microsoft Hive ODBC driver
Download and install Microsoft Hive ODBC Driver. Choose the version that matches the version of the application where you'll be using the ODBC driver. For this article, the driver is used for Office Excel.
Create Apache Hive ODBC data source
The following steps show you how to create a Hive ODBC Data Source.
From Windows, navigate to Start > Windows Administrative Tools > ODBC Data Sources (32-bit)/(64-bit). This action opens the ODBC Data Source Administrator window.
From the User DSN tab, select Add to open the Create New Data Source window.
Select Microsoft Hive ODBC Driver, and then select Finish to open the Microsoft Hive ODBC Driver DSN Setup window.
Type or select the following values:
Optional: Select Advanced Options.
Parameter | Description |
---|---|
Use Native Query | When it's selected, the ODBC driver does NOT try to convert TSQL into HiveQL. You shall use it only if you're 100% sure you're submitting pure HiveQL statements. When connecting to SQL Server or Azure SQL Database, you should leave it unchecked. |
Rows fetched per block | When fetching a large number of records, tuning this parameter may be required to ensure optimal performances. |
Default string column length, Binary column length, Decimal column scale | The data type lengths and precisions may affect how data is returned. They cause incorrect information to be returned because of loss of precision and, or truncation. |
Select Test to test the data source. When the data source is configured correctly, the test result shows SUCCESS!
Select OK to close the Test window.
Select OK to close the Microsoft Hive ODBC Driver DSN Setup window.
Select OK to close the ODBC Data Source Administrator window.
Import data into Excel from HDInsight
The following steps describe the way to import data from a Hive table into an Excel workbook using the ODBC data source that you created in the previous section.
Open a new or existing workbook in Excel.
From the Data tab, navigate to Get Data > From Other Sources > From ODBC to launch the From ODBC window.
From the drop-down list, select the data source name that you created in the last section and then select OK.
For the first use, an ODBC driver dialog will open. Select Windows from the left menu. Then select Connect to open the Navigator window.
From Navigator, navigate to HIVE > default > hivesampletable, and then select Load. It takes a few moments before data gets imported to Excel.
Next steps
In this article, you learned how to use the Microsoft Hive ODBC driver to retrieve data from the HDInsight Service into Excel. Similarly, you can retrieve data from the HDInsight Service into SQL Database. It's also possible to upload data into an HDInsight Service. To learn more, see:
Решение Майкрософт для работы с большими данными включает в себя компоненты бизнес-аналитики (БА) Майкрософт с кластерами Apache Hadoop, развернутыми в HDInsight. Примером может служить возможность подключения Excel к хранилищу данных Hive кластера Hadoop. Подключение с помощью драйвера Microsoft Hive Open Database Connectivity (ODBC).
Вы можете подключить данные, связанные с кластером HDInsight, из Excel с помощью надстройки Microsoft Power Query для Excel. Дополнительные сведения см. в статье Подключение Excel к HDInsight с помощью Power Query.
Предварительные требования
Перед началом работы с этой статьей необходимо иметь следующее:
- Кластер HDInsight Hadoop. Дополнительные сведения о создании кластера см. в статье Приступая к работе с Hadoop в HDInsight.
- Рабочая станция с Office 2010 Professional Plus или более поздней версии или Excel 2010 или более поздней версии.
Установка драйвера Microsoft Hive ODBC
Скачайте и установите драйвер Microsoft Hive ODBC. Выберите версию, которая соответствует версии приложения, где будет использоваться драйвер ODBC. В рамках данной статьи используется драйвер для Office Excel.
Создание источника данных Apache Hive ODBC
Ниже показано, как создать источник данных Hive ODBC.
В Windows откройте Пуск > Средства администрирования Windows > Источники данных ODBC (32-разрядная или 64-разрядная версия). В результате откроется окно Администратор источников данных ODBC.
На вкладке DSN пользователя выберите Добавить, чтобы открыть окно Создание нового источника данных.
Выберите Microsoft Hive ODBC Driver, а затем — Готово, чтобы открыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).
Введите или выберите следующие значения:
Необязательно: выберите Дополнительные параметры.
Параметр | Описание |
---|---|
Использовать исходный запрос | При выборе этого параметра драйвер ODBC НЕ пытается преобразовать TSQL в HiveQL. Следует использовать только при полной уверенности в отправке действительных инструкций HiveQL. При подключении к серверу SQL Server или базе данных Azure SQL необходимо снять этот флажок. |
Строки, загружаемые для каждого блока | При получении большого объема записей включение этого параметра может обеспечить оптимальную производительность. |
Длина столбца строки по умолчанию, длина столбца двоичного кода, масштаб столбца десятичных значений | Длина и точность типа данных может повлиять на способ выведения данных. Это приведет к возврату недопустимой информации из-за потери точности и/или усечения. |
Щелкните Тест для проверки источника данных. При правильной настройке источника результатом теста будет слово УСПЕШНО! .
Импорт данных в Excel из службы HDInsight
Ниже описан способ импорта данных из таблицы Hive в рабочую книгу Excel с помощью источника данных ODBC, созданного в предыдущем разделе.
Откройте новую или существующую рабочую книгу в Excel.
На вкладке Данные перейдите к разделу Получить данные>Из других источников>Из ODBC, чтобы открыть окно Из ODBC.
Из раскрывающегося списка выберите имя источника данных, который вы создали в предыдущем разделе, и нажмите ОК.
При первом использовании откроется диалоговое окно Драйвер ODBC. В меню слева выберите пункт Windows. Затем нажмите кнопку Подключиться, чтобы открыть окно Навигатор.
В окне Навигатор перейдите к HIVE>по умолчанию>hivesampletable, а затем нажмите кнопку Загрузить. Для импорта данных в Excel потребуется несколько секунд.
Дальнейшие действия
В рамках этой статьи вы узнали, как получить данные из службы HDInsight в Excel с помощью драйвера Microsoft Hive ODBC. Аналогичным образом можно получать данные из службы HDInsight в базу данных SQL. Можно также передавать данные в службу HDInsight. Дополнительные сведения см. на следующих ресурсах:
One key feature of the Microsoft big-data solution is the integration of Microsoft business intelligence (BI) components with Apache Hadoop clusters in Azure HDInsight. A primary example is the ability to connect Excel to the Azure Storage account that contains the data associated with your Hadoop cluster by using the Microsoft Power Query for Excel add-in. This article walks you through how to set up and use Power Query to query data associated with a Hadoop cluster managed with HDInsight.
Prerequisites
- An Apache Hadoop cluster on HDInsight. See Get Started with HDInsight on Linux.
- A workstation that is running Windows 10, 7, Windows Server 2008 R2, or a later operating system.
- Microsoft 365 apps for enterprise, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone, or Office 2010 Professional Plus.
Install Microsoft Power Query
Power Query can import data that has been output or that has been generated by a Hadoop job running on an HDInsight cluster.
In Excel 2016, Power Query has been integrated into the Data ribbon under the Get & Transform section. For older Excel versions, download Microsoft Power Query for Excel from the Microsoft Download Center and install it.
Import HDInsight data into Excel
The Power Query add-in for Excel makes it easy to import data from your HDInsight cluster into Excel, where BI tools such as PowerPivot and Power Map can be used to inspect, analyze, and present the data.
Create a new blank workbook.
Perform the following steps based on the Excel version:
Select > Data > Get Data > From Azure > From Azure HDInsight(HDFS).
Select Power Query > From Azure > From Microsoft Azure HDInsight.
Note: If you don't see the Power Query menu, go to File > Options > Add-ins, and select COM Add-ins from the drop-down Manage box at the bottom of the page. Select the Go. button and verify that the box for the Power Query for Excel add-in has been checked.
Note: Power Query also allows you to import data from HDFS by selecting From Other Sources.
For Account Key, enter the key for the Blob storage account, and then select Connect. (You need to enter the account information only the first time you access this store.)
In the Navigator pane on the left of the Query Editor, double-click the Blob storage container name associated with your cluster. By default, the container name is the same name as the cluster name.
Locate HiveSampleData.txt in the Name column (the folder path is ../hive/warehouse/hivesampletable/), and then select Binary on the left of HiveSampleData.txt. HiveSampleData.txt comes with all the cluster. Optionally, you can use your own file.
If you want, you can rename the column names. When you're ready, select Close & Load. The data has been loaded to your workbook:
Next steps
In this article, you learned how to use Power Query to retrieve data from HDInsight into Excel. Similarly, you can retrieve data from HDInsight into Azure SQL Database. It's also possible to upload data into HDInsight. To learn more, see the following articles:
Эта статья рассказывает о том, как подключить Microsoft Power BI к кластерам Interactive Query в Azure HDInsight и визуализировать данные Apache Hive с использованием прямого запроса. В этом примере выполняется загрузка данных из таблицы Hive с именем hivesampletable в Power BI. Таблица Hive hivesampletable содержит некоторые данные об использовании мобильного телефона. Затем вы отобразите эти данные на карте мира:
Можно использовать драйвер ODBC Apache Hive для импорта с помощью универсального соединителя ODBC в Power BI Desktop. Но этот драйвер не рекомендуется для рабочих нагрузок бизнес-аналитик, с учетом того что ядро запросов Hive не является интерактивным. Для лучшей производительности используйте соединитель интерактивных запросов HDInsight и соединитель HDInsight Apache Spark.
Предварительные требования
Чтобы выполнить действия, указанные в этой статье, вам потребуется:
- Кластер HDInsight. Это может быть кластер HDInsight с Apache Hive или новый кластер Interactive Query. Сведения о создании кластеров см. в этом разделе.
- Microsoft Power BI Desktop . Копию этой программы можно скачать в Центре загрузки Майкрософт.
Загрузка данных из HDInsight
Таблица Hive hivesampletable поставляется с кластерами HDInsight.
Запустите Power BI Desktop.
В верхней строке меню выберите Домашняя страница>Получить данные>Дополнительно.
В окне Получение данных введите в поле поиска строку hdinsight.
В списке результатов поиска выберите HDInsight Interactive Query и щелкните Подключение. Если HDInsight Interactive Query не отображается, нужно обновить Power BI Desktop до последней версии.
Выберите Продолжить, чтобы закрыть диалоговое окно Подключение к сторонней службе.
В окне HDInsight Interactive Query введите следующую информацию и нажмите кнопку ОК.
В окне Навигатор слева выберите hivesampletale.
В главном окне выберите Загрузить.
Визуализация данных на карте
Продолжите из последней процедуры.
В области визуализации щелкните значок Карта в виде земного шара. В главном окне появится простая карта мира.
В области "Поля" выберите страна и devicemake. Через несколько секунд в главном окне появится карта мира с точками данных.
Дальнейшие действия
Из этой статьи вы узнали, как визуализировать данные HDInsight с помощью Microsoft Power BI. Дополнительные сведения о визуализации данных см. в следующих статьях:
Одной из ключевых особенностей решения Майкрософт для работы с большими данными является интеграция компонентов бизнес-аналитики Майкрософт с кластерами Apache Hadoop в службе Azure HDInsight. Важнейшим примером является возможность подключения Excel к учетной записи хранения Azure, в которой хранятся данные, связанные с кластером Hadoop, с помощью надстройки Microsoft Power Query для Excel. В этой статье приводится пошаговое руководство по настройке и использованию Power Query для запроса данных, связанных с кластером Hadoop, который управляется с помощью HDInsight.
Предварительные требования
- Кластер Apache Hadoop в HDInsight. Ознакомьтесь со статьей Краткое руководство. Использование Apache Hadoop и Apache Hive в Azure HDInsight с шаблоном Resource Manager.
- Рабочая станция под управлением Windows 10, 7, Windows Server 2008 R2 или последующих версий операционной системы.
- Приложения Microsoft 365 для предприятий, Office 2016, Office 2013 профессиональный плюс, Excel 2013 автономный или Office 2010 профессиональный плюс.
Установка Microsoft Power Query
Power Query может импортировать данные, которые были выведены или созданы заданием Hadoop, выполняющимся в кластере HDInsight.
В Excel 2016 надстройка Power Query находится на ленте "Данные" в группе "Получить и преобразовать"&. В предыдущих версиях Excel необходимо скачать надстройку Microsoft Power Query для Excel из Центра загрузки Майкрософт и установить ее.
Импорт данных HDInsight в Excel
Надстройка Power Query для Excel удобна для импорта данных из кластера HDInsight в Excel, где можно использовать средства бизнес-аналитики, такие как PowerPivot и Power Map, для изучения, анализа и представления данных.
Создайте новую пустую книгу.
Выполните указанные ниже действия для вашей версии Excel.
Выберите >Данные>Получить данные>Из Azure>Из Azure HDInsight(HDFS).
Excel 2013 или 2010
Выберите Power Query>из Azure>из Microsoft Azure HDInsight.
Примечание. Power Query также позволяет импортировать данные из HDFS, для этого нужно выбрать Из других источников.
В поле Ключ учетной записи введите ключ для учетной записи хранения больших двоичных объектов Azure, а затем нажмите кнопку Подключиться. (Вводить данные учетной записи требуется только при первом доступе к этому магазину.)
В области Навигатор слева от окна редактора запросов дважды щелкните имя контейнера хранилища больших двоичных объектов, связанного с вашим кластером. По умолчанию имя контейнера совпадает с именем кластера.
Найдите HiveSampleData.txt в столбце Имя (путь папки: ../hive/warehouse/hivesampletable/ ), а затем выберите Двоичный код в левой части HiveSampleData.txt. HiveSampleData.txt поставляется вместе с кластером. При необходимости можно использовать собственный файл.
Если необходимо, можно переименовать имена столбцов. Когда будете готовы, нажмите кнопку Закрыть и загрузить&. Данные загружены в книгу.
Дальнейшие действия
В этой статье было показано, как использовать Power Query для извлечения данных из HDInsight в Excel. Аналогичным образом можно извлекать данные из HDInsight в базу данных SQL Azure. Можно также передавать данные в HDInsight. Дополнительные сведения см. в следующих статьях:
Читайте также: