Платформа программного обеспечения с открытым исходным кодом
Apache Drill — это программная платформа с открытым исходным кодом , которая поддерживает распределенные приложения с интенсивным использованием данных для интерактивного анализа крупномасштабных наборов данных. Созданный в основном благодаря разработчикам MapR , [1] [2] Drill вдохновлен системой Google Dremel . [3] Drill — это проект верхнего уровня Apache. [4] Том Ширан — основатель проекта Apache Drill. [5] В декабре 2016 года он был признан проектом высшего уровня Apache Software Foundation. [6]
Drill поддерживает различные базы данных и файловые системы NoSQL , включая Alluxio , HBase , MongoDB , MapR -DB, HDFS , MapR-FS , Amazon S3 , Azure Blob Storage , Google Cloud Storage , Swift , NAS и локальные файлы. Один запрос может объединять данные из нескольких хранилищ данных.
Оптимизатор Drill с учетом хранилища данных автоматически реструктурирует план запроса, чтобы использовать возможности внутренней обработки хранилища данных. Кроме того, Drill поддерживает локальность данных , если Drill и хранилище данных находятся на одних узлах. [7]
Функции
Одна из явно заявленных целей разработки заключается в том, что Drill способен масштабироваться до 10 000 и более серверов и обрабатывать петабайты данных и триллионы записей за секунды. [8]
- Модель документа JSON без схемы, аналогичная MongoDB и Elasticsearch , без необходимости объявления формальной схемы.
- API-интерфейсы отраслевых стандартов: ANSI SQL , ODBC/JDBC, API-интерфейсы RESTful.
- Чрезвычайно удобный для пользователя и разработчика
- Подключаемая архитектура обеспечивает подключение к нескольким хранилищам данных.
- В версии 1.9 добавлены динамические пользовательские функции.
- В версии 1.11 добавлены функции, связанные с криптографией, и поддержка формата файлов PCAP.
Внутренняя поддержка
Drill в первую очередь ориентирован на нереляционные хранилища данных, включая текстовые файлы Apache Hadoop , NoSQL и облачные хранилища. Примечательная функция также включает в себя запросы на месте к локальным файлам JSON и Apache Parquet. Некоторые дополнительные хранилища данных, которые он поддерживает, включают:
- Все дистрибутивы Hadoop (HDFS API 2.3+), включая Apache Hadoop, MapR, CDH и Amazon EMR.
- NoSQL: MongoDB , Apache HBase , Apache Cassandra.
- Онлайн-аналитическая обработка: Apache Kudu , Apache Druid , OpenTSDB
- Облачное хранилище: Amazon S3 , Google Cloud Storage , Azure Blob Storage, Swift, IBM Cloud Object Storage.
- Различные форматы данных, включая Apache Avro , Apache Parquet и JSON.
- Плагины хранения RDBM (использование JDBC для подключения к MySQL , PostgreSQL и другим)
Новое хранилище данных можно добавить, разработав плагин хранилища. Модель данных JSON, не содержащая схем, позволяет Drill выполнять запросы к нереляционным хранилищам данных на месте. [9]
Внешняя поддержка
Саму детализацию можно запросить через JDBC , ODBC или REST с помощью различных методов и языков, включая Python и Java. Установка по умолчанию включает веб-интерфейс, позволяющий конечным пользователям напрямую выполнять ANSI SQL и экспортировать таблицы данных в виде файлов CSV без какого-либо программирования.
Библиотека информационных панелей Apache Superset [ 10] особенно хорошо подходит для визуализации данных, запрошенных с помощью Drill.
Смотрите также
Рекомендации
- ↑ Фридман, Эллен (21 сентября 2015 г.). «Apache Drill: отслеживание своей истории как сообщества с открытым исходным кодом». Архивировано из оригинала 18 марта 2016 года.
- ^ «Кратко о различиях между Apache Drill и Presto» . ХайтекНектар . Проверено 13 апреля 2023 г.
- ^ «Spark SQL против Apache Drill-War инструментов SQL-on-Hadoop» . ПроектПро . Проверено 15 ноября 2022 г.
- ^ «Фонд программного обеспечения Apache объявляет Apache Drill проектом высшего уровня» . 2 декабря 2014 года . Проверено 2 декабря 2014 г.
- ^ Визард, Майкл (01 сентября 2021 г.). «Apache Software Foundation обновляет Drill для более широких запросов SQL». ВенчурБит . Проверено 20 октября 2022 г.
- ^ «Apache Drill исключает ETL, преобразование данных для базы данных MapR» . Новый стек . 11 апреля 2016 г. Проверено 15 ноября 2022 г.
- ^ «Apache Drill — SQL без схемы для Hadoop, NoSQL и облачного хранилища» . www.drill.apache.org . Проверено 29 декабря 2015 г.
- ^ "DrillProposal - ИНКУБАТОР - Apache Software Foundation" .
- ^ «Часто задаваемые вопросы - Apache Drill» . www.drill.apache.org . Проверено 29 декабря 2015 г.
- ^ Уэйнер, Джеймс Р. Борк, Мартин Хеллер, Стивен Нуньес, Эндрю С. Оливер, Ян Пойнтер и Питер (05.10.2020). «Лучшее программное обеспечение с открытым исходным кодом 2020 года». Инфомир . Проверено 26 ноября 2022 г.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка )
Статьи
Некоторые работы повлияли на рождение и дизайн. Вот неполный список:
- 2005 г. «От баз данных к пространствам данных: новая абстракция управления информацией» авторы подчеркивают необходимость того, чтобы системы хранения принимали все форматы данных и предоставляли API-интерфейсы для доступа к данным, которые развиваются на основе понимания данных системой хранения.
- 2010 Dremel: Интерактивный анализ наборов данных веб-масштаба
Внешние ссылки
- Официальный веб-сайт
- Apache Drill: отслеживание своей истории как сообщества с открытым исходным кодом
- SQL и Hadoop: это сложно