Американская компания-разработчик программного обеспечения
Databricks, Inc. — это глобальная компания, занимающаяся данными, аналитикой и искусственным интеллектом, основанная первоначальными создателями Apache Spark . [3]
Компания Databricks стала пионером в области создания хранилища данных — платформы данных и искусственного интеллекта, которая объединяет возможности хранилища данных с озером данных , позволяя организациям управлять и использовать как структурированные, так и неструктурированные данные для традиционной бизнес-аналитики и рабочих нагрузок искусственного интеллекта. [5]
В ноябре 2023 года компания Databricks представила платформу Databricks Data Intelligence — новое предложение, которое объединяет преимущества унификации Lakehouse с технологией генеративного искусственного интеллекта MosaicML, позволяя клиентам лучше понимать и использовать собственные данные. [6]
Компания разрабатывает Delta Lake — проект с открытым исходным кодом, призванный обеспечить надежность озер данных для машинного обучения и других случаев использования науки о данных. [7]
В ноябре 2017 года компания была анонсирована как первый сторонний сервис на Microsoft Azure через интеграцию Azure Databricks. [9] В феврале 2021 года совместно с Google Cloud Databricks обеспечила интеграцию с Google Kubernetes Engine и платформой Google BigQuery . [10] К этому времени компания заявила, что более 5000 организаций использовали ее продукты. [11]
Fortune оценил Databricks как одно из лучших крупных «рабочих мест для миллениалов» в 2021 году. [12]
Приобретения
Большая часть расширения компании произошла за счет приобретений. В июне 2020 года она купила Redash, инструмент с открытым исходным кодом для визуализации данных и создания интерактивных панелей мониторинга. [13] В 2021 году она купила немецкую компанию 8080 Labs, чей продукт bamboolib позволял исследовать данные без какого-либо кодирования. [14] В мае 2023 года Databricks купила группу по безопасности данных Okera, расширив возможности Databricks по управлению данными. [15] В июне она купила стартап MosaicML с открытым исходным кодом, занимающийся генеративным ИИ, за 1,4 миллиарда долларов. [16] [17] В октябре Databricks купила стартап по репликации данных Arcion за 100 миллионов долларов. [18] В рамках своего, как считается, шестого приобретения Databricks купила Tabular, систему управления данными, используемую ИИ с открытым исходным кодом, более чем за 1 миллиард долларов. [19]
В марте 2023 года в ответ на популярность ChatGPT от OpenAI компания представила языковую модель с открытым исходным кодом , названную Dolly в честь овечки Долли , которая позволила разработчикам создавать чат-ботов . Dolly использует меньше параметров для получения результатов, аналогичных ChatGPT, но Databricks не выпустила формальные тесты производительности, чтобы показать, действительно ли ее бот соответствует производительности ChatGPT. [20] [21] [22]
Компания Databricks сообщила о выручке в размере 1,6 млрд долларов за 2023 финансовый год, что более чем вдвое превышает предыдущий уровень. [23]
Финансирование
В сентябре 2013 года Databricks объявила, что привлекла 13,9 млн долларов от Andreessen Horowitz и заявила, что намерена предложить альтернативу системе MapReduce от Google . [24] [25] Microsoft была известным инвестором Databricks в 2019 году, участвуя в серии E компании в неуказанной сумме. [26] [27] Компания привлекла 1,9 млрд долларов финансирования, включая серию G на 1 млрд долларов во главе с Франклином Темплтоном при оценке в 28 млрд долларов после вложения средств в феврале 2021 года. Другими инвесторами являются Amazon Web Services , CapitalG (компания по инвестированию в рост в составе Alphabet Inc. ) и Salesforce Ventures . [11] В августе 2021 года Databricks завершила свой восьмой раунд финансирования, привлекая 1,6 млрд долларов и оценивая компанию в 38 млрд долларов. [28]
Продукция
Databricks разрабатывает и продает облачную платформу данных, используя маркетинговый термин «lakehouse», который является гибридом слов « хранилище данных » и « озеро данных ». [37] Lakehouse от Databricks основан на фреймворке Apache Spark с открытым исходным кодом , который позволяет выполнять аналитические запросы к полуструктурированным данным без традиционной схемы базы данных . [38] В октябре 2022 года Lakehouse получил авторизованный статус FedRAMP для использования с федеральным правительством США и подрядчиками. [39]
В июне 2020 года Databricks запустила Delta Engine, быстрый механизм запросов для Delta Lake, [42] совместимый с Apache Spark и MLflow. [43]
В ноябре 2020 года Databricks представила Databricks SQL (ранее называвшийся SQL Analytics) для запуска бизнес-аналитики и аналитических отчетов поверх озер данных. Аналитики могут запрашивать наборы данных с помощью стандартного SQL или использовать коннекторы для интеграции с инструментами бизнес-аналитики, такими как Holistics, [44] Tableau , Qlik , SigmaComputing, [45] Looker и ThoughtSpot . [46]
Databricks предлагает платформу для других рабочих нагрузок, включая машинное обучение, хранение и обработку данных, потоковую аналитику и бизнес-аналитику . [47]
В начале 2024 года Databricks выпустила набор инструментов Mosaic для настройки, тонкой настройки и создания систем ИИ. Он включает AI Vector Search для создания моделей RAG; AI Model Serving, сервис для развертывания, управления, запроса и мониторинга моделей, настроенных или предварительно развернутых Databricks; и AI Pretraining, платформу для предприятий для создания собственных LLM. [48]
В марте 2024 года Databricks выпустила DBRX, модель с открытым исходным кодом. Она имеет смешанную архитектуру экспертов и построена на проекте с открытым исходным кодом MegaBlocks. [49] Создание DBRX обошлось в 10 миллионов долларов. На момент запуска это была самая быстрая модель LLM с открытым исходным кодом, основанная на общепринятых отраслевых эталонах. Она превзошла другие модели, такие как LlaMA2, в решении логических головоломок и ответах на общие вопросы по знаниям, среди прочих задач. И хотя у нее 136 миллиардов параметров, она использует в среднем только 36 миллиардов для генерации выходных данных. [50] DBRX также служит основой для компаний для создания или настройки собственных моделей ИИ. Компании также могут использовать собственные данные для генерации более качественных выходных данных для конкретных случаев использования. [51]
Помимо создания платформы Databricks, компания выступила соорганизатором массовых открытых онлайн-курсов по Spark [52] и конференции для сообщества Spark под названием Data + AI Summit [53] , ранее известной как Spark Summit. [ необходима ссылка ]
Операции
Штаб-квартира Databricks находится в Сан-Франциско . [54] Компания также осуществляет свою деятельность в Канаде , Великобритании и других странах. [55]
^ Лин, Белль (6 марта 2024 г.). «ИИ обеспечивает рекордные продажи в многомиллиардных Databricks. IPO может подождать…» . The Wall Street Journal . Архивировано из оригинала 6 марта 2024 г.
^ Корри, Дрибуш (29 июля 2023 г.). «Генеральный директор технологической компании, который использует свой телефон по старинке». The Wall Street Journal . Архивировано из оригинала 28 февраля 2024 г.
^ Сол, Дерек (14 сентября 2023 г.). «Top IPO Prospect Databricks Scores $43 Billion Valuation Thanks To $500 Million Funding Round Including AI Titan Nvidia». Forbes . Архивировано из оригинала 4 сентября 2024 г. . Получено 26 марта 2024 г. .
^ Салливан, Марк (19 марта 2024 г.). «Как Databricks помогает клиентам разрабатывать собственные индивидуальные модели ИИ». Fast Company . Получено 19 марта 2024 г.
^ Кларк, Линдси (16 ноября 2023 г.). «Databricks' lakehouse become foundation under fresh layer of AI dreams». The Register . Архивировано из оригинала 4 сентября 2024 г. Получено 16 ноября 2023 г.
^ Cai, Kenrick (16 ноября 2023 г.). «Databricks' New AI Product Adds A ChatGPT-Like Interface To Its Software». Forbes . Архивировано из оригинала 4 сентября 2024 г. . Получено 16 ноября 2023 г. .
^ "Databricks запускает Delta Lake, проект надежности озера данных с открытым исходным кодом". VentureBeat . 24 апреля 2019 г. Архивировано из оригинала 24 марта 2022 г. Получено 6 апреля 2021 г.
^ Захария, Матей. "Матей Захария". Архивировано из оригинала 10 марта 2014 г. Получено 16 августа 2016 г.
^ «Microsoft делает Databricks службой первой стороны на Azure». TechCrunch . 15 ноября 2017 г. Архивировано из оригинала 4 сентября 2024 г. Получено 6 апреля 2021 г.
^ "Databricks приносит свой lakehouse в Google Cloud". TechCrunch . 17 февраля 2021 г. Архивировано из оригинала 4 сентября 2024 г. Получено 18 февраля 2021 г.
^ ab Konrad, Alex (2 февраля 2021 г.). «Databricks привлекла $1 млрд при оценке в $28 млрд, при этом все облачные элиты покупают». Forbes . Архивировано из оригинала 1 февраля 2021 г. . Получено 29 июля 2021 г. .
^ "100 лучших крупных рабочих мест для миллениалов". Fortune . 16 июня 2021 г. Архивировано из оригинала 24 марта 2022 г. Получено 16 июля 2021 г.
^ "Databricks приобретает Redash, сервис визуализации для специалистов по данным". TechCrunch . 24 июня 2020 г. Получено 6 апреля 2021 г.
^ Эрик Розенбаум (6 октября 2021 г.). «Стартап-разработчик программного обеспечения Databricks стоимостью 38 миллиардов долларов совершает поглощение, чтобы оставить код позади». CNBC . Архивировано из оригинала 6 октября 2021 г. Получено 20 февраля 2022 г.
^ Палаццоло, Стефани (3 мая 2023 г.). "Эксклюзив: Databricks, любимец данных и искусственного интеллекта стоимостью 38 миллиардов долларов, приобретает стартап в сфере безопасности Okera" . Business Insider . Архивировано из оригинала 3 мая 2023 г.
^ Датта, Тияши; Ху, Кристал (26 июня 2023 г.). «Databricks заключает сделку на 1,3 миллиарда долларов для стартапа MosaicML, занимающегося генеративным ИИ». Reuters . Архивировано из оригинала 26 июня 2023 г. Получено 27 июня 2023 г.
↑ Council, Stephen (26 июня 2023 г.). «Технологическая фирма из Сан-Франциско Databricks купит двухлетний стартап за 21 миллион долларов за сотрудника». SFGATE . Архивировано из оригинала 26 июня 2023 г. Получено 27 июня 2023 г.
^ "После оценки в $43 млрд Databricks приобретает стартап по репликации данных Arcion за $100 млн". TechCrunch . 23 октября 2023 г. Получено 23 октября 2023 г.
^ Галлони, Алессандра, ред. (5 июня 2024 г.). «Databricks купит фирму по управлению данными Tabular за более чем $1 млрд». Reuters .
^ Ху, Кристал; Неллис, Стивен (24 марта 2023 г.). «Databricks продвигает чат-бота с открытым исходным кодом как более дешевую альтернативу ChatGPT». Reuters . Архивировано из оригинала 25 марта 2023 г.
^ Лофтен, Ангус (24 марта 2023 г.). «Databricks запускает „Dolly“, еще одного конкурента ChatGPT» . The Wall Street Journal . Архивировано из оригинала 24 марта 2023 г.
^ Голдман, Шэрон (24 марта 2023 г.). «Databricks представляет Dolly, похожую на ChatGPT, клон, которым может владеть любое предприятие». VentureBeat . Архивировано из оригинала 11 апреля 2023 г.
^ Вильгельм, Рон Миллер и Алекс (7 марта 2024 г.). «Databricks продолжает двигаться вперед с доходом в 1,6 млрд долларов». TechCrunch . Архивировано из оригинала 12 марта 2024 г. Получено 8 марта 2024 г.
^ ab Harris, Derrick (25 сентября 2013 г.). «Databricks привлекает $14 млн от Andreessen Horowitz, хочет взяться за MapReduce с помощью Spark». Архивировано из оригинала 15 января 2022 г. Получено 28 сентября 2014 г.
^ Лорика, Бен (25 сентября 2013 г.). «Databricks стремится создать аналитические инструменты нового поколения для больших данных». O'Reilly Media . Архивировано из оригинала 4 июля 2014 г. Получено 28 сентября 2014 г.
^ "Databricks привлекает $250 млн при оценке своей аналитической платформы в $2,75 млрд". TechCrunch . 5 февраля 2019 г. Архивировано из оригинала 4 сентября 2024 г. Получено 8 апреля 2021 г.
^ Новет, Джордан (5 февраля 2019 г.). «Microsoft раньше пугала стартапы, но теперь она «исключительно хороший партнер», — говорит инвестор из Кремниевой долины Бен Хоровиц». CNBC . Архивировано из оригинала 5 февраля 2019 г. Получено 6 апреля 2021 г.
^ Меллор, Крис (1 сентября 2021 г.). «Databricks привлекает data lake of cash по чудовищной оценке в 380 млрд долларов». Блоки и файлы . Архивировано из оригинала 1 сентября 2021 г. Получено 4 сентября 2021 г.
↑ Миллер, Рон (30 июня 2014 г.). «Databricks привлекает $33 млн в серии B и выпускает облачную платформу для обработки больших данных». TechCrunch . Архивировано из оригинала 1 июля 2014 г. Получено 28 сентября 2014 г.
^ Шибер, Джонатан (15 декабря 2016 г.). «Databricks привлекает $60 миллионов, чтобы стать следующим большим шагом вперед в области больших данных». TechCrunch . Архивировано из оригинала 15 декабря 2016 г. Получено 16 декабря 2016 г.
^ "Databricks получает 140 миллионов долларов на ускорение аналитики и искусственного интеллекта на предприятии". Databricks . 22 августа 2017 г. Архивировано из оригинала 13 января 2022 г. Получено 16 мая 2019 г.
^ «Финансирование Databricks в размере 250 миллионов долларов поддерживает взрывной рост и глобальный спрос на унифицированную аналитику; оценка достигает 2,75 миллиарда долларов». Databricks . 5 февраля 2019 г. Архивировано из оригинала 15 января 2022 г. . Получено 5 февраля 2019 г. .
^ "Databricks объявляет о раунде в $400 млн при оценке в $6,2 млрд, поскольку аналитическая платформа продолжает расти". TechCrunch . 22 октября 2019 г. Архивировано из оригинала 4 сентября 2024 г. Получено 24 октября 2019 г.
^ "Databricks привлекает $1B при оценке в $28B, достигая ARR в $425M". Tech Crunch . Февраль 2021 г. Архивировано из оригинала 3 ноября 2021 г. Получено 14 февраля 2021 г.
^ "Databricks привлекает $1,6 млрд при оценке в $38 млрд, поскольку его годовая прибыль превышает $600 млн". Tech Crunch . Архивировано из оригинала 30 декабря 2021 г. Получено 1 июля 2021 г.
^ Нишант, Никет; Ху, Кристал (14 сентября 2023 г.). «Databricks привлекла более $500 млн при оценке в $43 млрд». Рейтер . Проверено 20 сентября 2023 г.
^ Майкл, Армбруст; Годси, Али; Синь, Рейнольд; Захария, Матей (январь 2021 г.). «Lakehouse: Новое поколение открытых платформ, объединяющих хранилища данных и расширенную аналитику» (PDF) . Конференция по исследованиям инновационных систем данных . Архивировано (PDF) из оригинала 22 декабря 2020 г. . Получено 29 июля 2021 г. .
^ «С огромным вливанием в размере 1 млрд долларов США Databricks нацеливается на IPO и конкурирует со Snowflake». SiliconANGLE . 1 февраля 2021 г. Архивировано из оригинала 6 апреля 2023 г. Получено 8 апреля 2021 г.
^ Симона, Стефани (17 октября 2022 г.). «Databricks получает статус FedRAMP Authorized». KMWorld . Information Today . Архивировано из оригинала 20 октября 2022 г. . Получено 20 октября 2022 г. .
^ "The Two Sigma Ventures Open Source Index". Two Sigma Ventures . Архивировано из оригинала 29 ноября 2022 г. Получено 8 апреля 2021 г.
^ "MLOps Tools - Ranking. OSS Insight". OSS Insight . Архивировано из оригинала 4 сентября 2024 г. . Получено 3 апреля 2024 г. .
^ "Databricks Cranks Delta Lake Performance, Nabs Redash for SQL Viz". Datanami . 24 июня 2020 г. Архивировано из оригинала 9 июля 2020 г. Получено 8 апреля 2021 г.
^ "Databricks запускает Delta Lake, проект надежности озера данных с открытым исходным кодом". VentureBeat . 24 апреля 2019 г. Архивировано из оригинала 24 марта 2022 г. Получено 8 апреля 2021 г.
^ https://holistics.io/
^ https://www.sigmacomputing.com
^ "Databricks запускает SQL Analytics". TechCrunch . 12 ноября 2020 г. Архивировано из оригинала 4 сентября 2024 г. Получено 8 апреля 2021 г.
^ Браст, Эндрю. «Databricks, чемпион модели «озеро» данных, закрывает раунд финансирования серии G на $1 млрд». ZDNet . Архивировано из оригинала 1 февраля 2021 г. Получено 8 апреля 2021 г.
^ «На волне искусственного интеллекта на основе данных: унифицированное решение стека от Databricks». Databricks . 14 марта 2024 г. Архивировано из оригинала 4 сентября 2024 г. Получено 5 апреля 2024 г.
^ "Databricks открывает исходники собственной большой языковой модели DBRX". Databricks . 27 марта 2024 г. Архивировано из оригинала 5 апреля 2024 г. Получено 5 апреля 2024 г.
^ «Внутри создания самой мощной в мире модели ИИ с открытым исходным кодом». Databricks . 27 марта 2024 г. Архивировано из оригинала 4 сентября 2024 г. Получено 5 апреля 2024 г.
^ "Новая модель ИИ с открытым исходным кодом от Databricks может предложить предприятиям более экономичную альтернативу GPT-3.5 от OpenAI". Databricks . 27 марта 2024 г. Архивировано из оригинала 4 сентября 2024 г. Получено 5 апреля 2024 г.
^ "Databricks запускает два масштабных онлайн-курса по Apache Spark". Databricks . 2 декабря 2014 г. Архивировано из оригинала 13 января 2022 г. Получено 16 декабря 2016 г.
^ "Data + AI Summit". Databricks . Архивировано из оригинала 23 апреля 2022 г. Получено 8 апреля 2021 г.
^ сотрудники, CNBC com (16 июня 2020 г.). «36. Блоки данных». CNBC . Архивировано из оригинала 24 декабря 2022 года . Проверено 8 апреля 2021 г.
^ "Расположения по всему миру". Архивировано из оригинала 7 июня 2023 г. Получено 20 октября 2022 г.