Механизм SQL-запросов с открытым исходным кодом
Apache Impala — это система SQL-запросов с открытым исходным кодом и массовой параллельной обработкой (MPP) для данных, хранящихся в компьютерном кластере под управлением Apache Hadoop . [1] Impala описывается как эквивалент Google F1 с открытым исходным кодом , который вдохновил ее на разработку в 2012 году. [2]
Описание
Apache Impala — это механизм запросов, работающий на Apache Hadoop. Проект был анонсирован в октябре 2012 года с публичным бета-тестированием [ 3] [4] и стал общедоступным в мае 2013 года. [5]
Impala привносит масштабируемую параллельную технологию баз данных в Hadoop, позволяя пользователям отправлять SQL- запросы с низкой задержкой к данным, хранящимся в HDFS и Apache HBase, без необходимости перемещения или преобразования данных. Impala интегрирована с Hadoop для использования тех же форматов файлов и данных, метаданных, безопасности и фреймворков управления ресурсами, которые используются MapReduce , Apache Hive , Apache Pig и другим программным обеспечением Hadoop.
Impala рекламируется для аналитиков и специалистов по данным для выполнения аналитики данных, хранящихся в Hadoop, с помощью SQL или инструментов бизнес-аналитики . Результатом является то, что крупномасштабная обработка данных (через MapReduce) и интерактивные запросы могут выполняться в одной и той же системе с использованием тех же данных и метаданных, что устраняет необходимость переноса наборов данных в специализированные системы и/или фирменные форматы просто для выполнения анализа.
В число особенностей входят:
- Поддерживает хранилища HDFS , S3 , ABFS, Apache HBase и Apache Kudu ,
- Читает форматы файлов Hadoop, включая текст, LZO , SequenceFile, Avro , RCFile , Parquet и ORC
- Поддерживает безопасность Hadoop ( аутентификация Kerberos , Ldap ),
- Детализированная авторизация на основе ролей с помощью Apache Sentry и Apache ranger
- Использует метаданные, драйвер ODBC и синтаксис SQL из Apache Hive .
В начале 2013 года был анонсирован столбцово-ориентированный формат файла Parquet для архитектур, включая Impala. [6]
В декабре 2013 года Amazon Web Services объявили о поддержке Impala. [7]
В начале 2014 года MapR добавила поддержку Impala. [8] В 2015 году был анонсирован
еще один формат Kudu , который Cloudera предложила пожертвовать Apache Software Foundation вместе с Impala. [9]
28 ноября 2017 года Impala перешла в Apache Top-Level Project (TLP). [10]
Смотрите также
- Apache Drill — похожий проект с открытым исходным кодом, вдохновленный Dremel
- Dremel — аналогичный инструмент от Google
- Trino — SQL-движок с открытым исходным кодом, созданный создателями Presto
- Presto — механизм SQL-запросов с открытым исходным кодом, созданный Facebook и поддерживаемый Teradata
Ссылки
- ^ "Apache Impala" . Получено 15 сентября 2017 г. .
- ↑ Cade Metz (24 октября 2012 г.). «Man Busts Out of Google, Rebuilds Top-Secret Query Machine». Wired Magazine . Получено 10 октября 2016 г.
- ^ Ларри Дигна (24 октября 2012 г.). «Cloudera стремится обеспечить запросы в режиме реального времени для Hadoop, больших данных». Блог Between the lines . ZDNet . Получено 20 января 2014 г.
- ↑ Эндрю Браст (25 октября 2012 г.). «Cloudera's Impala привносит Hadoop в SQL и BI». ZDNet . Получено 20 января 2014 г.
- ^ Марсель Корнакер, Джастин Эриксон (1 мая 2013 г.). «Cloudera Impala 1.0: она уже здесь, она реальна, она уже стандарт для SQL на Hadoop». Архивировано из оригинала 13 апреля 2014 г. Получено 10 апреля 2014 г.
- ^ "Parquet: Columnar Storage for Hadoop". Веб-сайт проекта . 2013. Получено 20 января 2014 г.
- ^ «Объявление о поддержке Impala с Amazon Elastic MapReduce». Amazon.com. 12 декабря 2013 г. Получено 20 января 2014 г.
- ^ "Impala for MapR". MapR.com. 2 февраля 2014 г. Получено 10 апреля 2014 г.
- ^ Дэвид Рамел (18 ноября 2015 г.). «Cloudera передаст проекты больших данных Impala и Kudu компании Apache». Тенденции разработки приложений . Получено 10 октября 2016 г.
- ^ "Apache Software Foundation объявляет Apache Impala проектом верхнего уровня". 28 ноября 2017 г. Получено 30 ноября 2017 г.
Внешние ссылки
- Веб-сайт проекта Apache Impala
- Исходный код проекта Impala GitHub