
Здание факультета компьютерных наук Калифорнийского университета в Беркли называется Soda Hall — в честь промышленника, который дал на него деньги. Внутри пахнет старым кофе и проводами. На третьем этаже, в комнате аспирантов, в 2009 году сидел двадцатичетырёхлетний румын Матей Захариа и смотрел на экран терминала, где машинно-обучающий алгоритм исполнялся уже сорок минут.
Алгоритм должен был отработать за три.
Захариа знал, в чём дело. Все его коллеги по AMPLab — лаборатории, основанной в Беркли на грант в 40 миллионов долларов от DARPA, NSF и индустриальных партнёров — знали, в чём дело. Мир больших данных в 2009-м крутился вокруг Hadoop, опенсорсной реализации гугловского MapReduce. MapReduce был великолепен ровно для одного типа задач: одноразового пробежать терабайт данных и что-то посчитать. Но машинное обучение — это не одноразовый проход. Это итерации. Тот же набор данных, обработанный сто раз с небольшими изменениями. И каждый раз MapReduce честно поднимал данные с диска, обрабатывал, складывал обратно. Каждый раз. Сто раз.
Дисковый ввод-вывод съедал девяносто процентов времени.
Захариа делал то, чего тогда никто не делал серьёзно: писал движок, который держал данные в памяти между операциями. Это была дерзкая идея — память дорогая, её мало, в неё нельзя положить терабайт. Но если уметь правильно нарезать и кешировать — можно. Он называл свою систему Spark.
Когда команда опубликовала статью «Resilient Distributed Datasets» в 2012 году, разница оказалась ошеломляющей: Spark исполнял алгоритмы машинного обучения в 10–100 раз быстрее, чем Hadoop MapReduce.
Никто из тех, кто стоял у его экрана и смотрел на бенчмарки, ещё не понимал, что именно они только что родили. Включая самого Захарию.
В соседнем кабинете того же AMPLab сидел человек на четырнадцать лет старше, с акцентом, который собеседники не могли определить с первого раза. Али Годси приехал в Беркли из Швеции, но швед он был очень условный.
В 1984 году ему было пять лет, когда семья бежала из Ирана после революции. Они выбрали холодную северную Швецию. Это был не блестящий Стокгольм, а пригороды без особых перспектив. Родители купили мальчику подержанный Commodore 64. Делать дома было особо нечего, и Али прочитал инструкции от корки до корки — стал самоучкой-программистом. К восьми годам он уже писал маленькие игры.
К тридцати с лишним у него была докторская из Стокгольмского королевского технологического института, должность ассистент-профессора и тоскливое ощущение, что шведская академическая система устроена не для таких, как он. Шведская академия с её акцентом на старшинство и постепенные исследования была тесна тому, кто провёл детство, доказывая, что он чего-то стоит.
Когда в 2009-м появилась возможность поехать в Беркли как приглашённому исследователю, Годси согласился сразу. Он планировал остаться на год.
Он остался навсегда.
К 2013 году Spark уже не был экспериментом. Им пользовались несколько крупных компаний, его передали в Apache Software Foundation, на конференциях о нём говорили как о возможной замене Hadoop. Но был один неудобный факт: Spark был опенсорсным. Бесплатным. Любая компания могла скачать его, запустить и не заплатить ни цента.
Тогда возникла мысль, после которой обычно создаются стартапы: а что, если предложить бизнесу не сам Spark — он у них и так есть, — а удобный сервис вокруг него? Управляемые кластеры, мониторинг, ноутбуки для дата-сайентистов, безопасность, поддержка. Чтобы инженерам не пришлось нанимать пять админов и читать гигабайт документации.
В 2013 году семеро исследователей из AMPLab в Сан-Франциско основали Databricks: Матей Захариа, создатель Spark, стал CTO. Ион Стойка, старший профессор, — первым CEO. Али Годси — VP по инжинирингу и продукту. Энди Конвински, изучавший планировщики кластеров. Патрик Венделл, релиз-менеджер опенсорсного Spark. Рейнольд Син, построивший SQL-надстройку Shark. Скотт Шенкер, легендарный профессор Беркли, который, по сути, благословил весь проект. Седьмым был Арсалан Тавакоди-Шираджи — единственный, кто отвечал не за код.
Andreessen Horowitz возглавил Series A. 13,9 миллиона долларов.
Это были семь человек с докторскими степенями и нулевым опытом управления компанией. Они уже хорошо сработались на разработке Spark в AMPLab. Но управлять стартапом — это не публиковать статьи. Это убеждать корпоративных закупщиков, которые в первый же звонок задавали резонный вопрос: «А зачем нам платить вам, если Spark и так бесплатный?»
Первые годы дались тяжело. Selling managed Spark столкнулся с несколькими препятствиями. Первое: Spark был опенсорсным — почему компании должны платить Databricks, если они могут развернуть Spark сами или воспользоваться конкурентами вроде Cloudera и Hortonworks?
В 2016 году Стойка передал должность CEO Годси. Стойка остался исполнительным председателем и продолжил преподавать в Беркли — он всегда был учёным в первую очередь. Годси был другим. Тот мальчик с Commodore 64, который рос «не тем» в шведском пригороде, обнаружил в себе хорошую коммерческую жилку.
Под его руководством Databricks перестала быть просто «компанией Spark». В 2017-м Microsoft встроил их продукт в Azure под брендом Azure Databricks. В 2019 году Microsoft вошёл в Series E как стратегический инвестор.
А потом Годси сделал то, что отличает выживающий технологический стартап от стратегического игрока: он начал переписывать собственную идею.
К концу 2010-х в мире данных оформились две воюющие парадигмы. С одной стороны — data warehouse, классическое хранилище, структурированное, надёжное, дорогое; на его стороне был Snowflake. С другой стороны — data lake, бескрайнее болото сырых файлов в облачном хранилище: дёшево, гибко, но никакой гарантии качества.
Команда Databricks предложила третий путь и дала ему откровенно маркетинговое название: lakehouse. Озеро плюс хранилище. Идея была технически конкретной: добавить к дешёвому облачному хранилищу слой, который обеспечивал бы транзакционность, гарантии и SQL-производительность. Этот слой назвали Delta Lake и сделали опенсорсным.
Это был прямой выстрел в Snowflake. Если работает — клиенту больше не нужно держать отдельный warehouse за бешеные деньги.
В ноябре 2022 года вышел ChatGPT. Через четыре месяца — в марте 2023-го — у Databricks уже была собственная открытая языковая модель. В ответ на популярность ChatGPT компания представила опенсорсную языковую модель под названием Dolly — в честь овцы Долли. У неё было всего 6 миллиардов параметров. Это была не лучшая модель в мире — но это была заявка: мы здесь.
А через несколько недель Годси сделал то, что задним числом выглядит как лучшее стратегическое решение десятилетия.
Databricks купил MosaicML за 1,3 миллиарда долларов. До этого MosaicML привлёк инвестиций всего на 64 миллиона, и его последняя оценка была 222 миллиона — то есть Databricks заплатил шестикратную премию.
Зачем? MosaicML занимался ровно тем, что в эпоху ChatGPT стало золотом: позволял компаниям обучать собственные большие языковые модели на своих данных. «Каждая организация должна получить пользу от революции ИИ с большим контролем над тем, как используются её данные», — заявил Годси в день сделки.
Эта мысль — что корпорации не захотят отправлять свои чувствительные данные в OpenAI, а захотят строить модели у себя — оказалась дорогой. К моменту, когда Уолл-стрит это осознал, MosaicML уже была частью Databricks.
Что было дальше, читается как телеграфная лента венчурного капитализма.
Декабрь 2024 года: Series J на 10 миллиардов долларов, оценка 62 миллиарда. Сентябрь 2025-го: Series K на миллиард, оценка переваливает за 100 миллиардов.
И затем — событие, которое в декабре 2025-го заставило индустрию на минуту замолчать. В декабре 2025 года Databricks объявил Series L на более чем 4 миллиарда долларов при оценке 134 миллиарда. Раунд возглавили Insight Partners, Fidelity и J.P. Morgan Asset Management. К февралю 2026-го общий объём финансирования компании превысил 7 миллиардов.
На фоне публичной капитализации Snowflake это выглядит почти неприлично. Snowflake — провёл крупнейшее софтверное IPO в истории в 2020-м, отчитался о выручке около 3,6 миллиарда долларов за 2025 год и стоит на бирже около 58 миллиардов. Databricks генерирует значительно больше выручки в годовом исчислении и растёт более чем в два раза быстрее. И при этом Databricks оценивается дороже Snowflake более чем в 2,3 раза.
Самое странное в истории Databricks — то, чего ещё не случилось.
Все ждут IPO. Bankers рассылают презентации. Аналитики пишут отчёты. CEO Али Годси, по сообщениям, говорил, что компания не торопится выходить на публичный рынок.
В этом есть своя ирония. Двадцать лет назад технологический стартап считал успехом дотянуть до IPO. Сегодня Databricks — компания, которая может позволить себе оставаться частной так долго, как хочется, потому что венчурного капитала и долгового финансирования в неё закачано столько, что любой публичный рынок выглядит менее интересным. Это смена эпохи, и в этой смене Databricks — экспонат номер один.
Если зайти сейчас в кабинет Матея Захарии — он по-прежнему профессор в Беркли по совместительству, — там пахнет тем же кофе, что и в 2009-м в Soda Hall. Только теперь у компании, которая выросла из его аспирантской задачи про машинное обучение, оценка как у небольшой европейской страны.
Однажды Захарию спросили, что он чувствует, когда видит эти цифры. Он ответил в духе, который выдаёт инженера, а не миллиардера:
— Главное — что задача оказалась решаемой.
Семеро академиков, которые не управляли ни одной компанией. Тринадцать лет. Сто тридцать четыре миллиарда. И до сих пор — ни одной торговой сессии на бирже.
Databriks - фотография из архивов сайта
| Основана: | 00.00.2013 () |
| Место: | Сан-Франциско (US) |