
Сан-Франциско, 2011 год. В офисе стартапа Metamarkets на доске висит уравнение, которое не может решить ни один человек: как получить ответ на запрос к миллиарду строк данных быстрее, чем человек успеет поднять чашку кофе? Все существующие базы данных молчат, как обвиняемые на допросе. Но есть четверо инженеров, которые знают: если никто не может найти решение, значит, решение нужно создать самим.
Фанцзинь Ян — главный герой нашей истории. Выпускник University of Waterloo с дипломами бакалавра в области электротехники и магистра в компьютерной инженерии. К 2011 году — старший инженер в Metamarkets. Человек немногословный, предпочитающий код словам. «Мне нравится создавать вещи», — вся его биография уместилась в одну лаконичную фразу, достойную мисс Марпл.
Эрик "Чеддар" Тщеттер — первый, кто написал строки кода того, что станет Druid. К моменту нашего расследования уже перешел в Yahoo, но его роль в истории неоспорима.
Джан Мерлино — технический гений из Caltech, ведущий инженер команды приема данных. Позже станет первым председателем Apache Druid PMC.
Вадим Огиевецкий — магистр компьютерных наук из Стэнфорда, третий соучредитель будущей компании.
Место действия: Metamarkets, стартап по анализу программатической рекламы. Время: эра, когда миллисекунды решают судьбу миллионов долларов в рекламных аукционах.
В 2011 году в мире данных царил хаос. Представьте себе: рекламные кампании генерируют миллиарды событий. Клиенты хотят видеть аналитику в реальном времени. Существующие инструменты — Hadoop, традиционные SQL базы данных, NoSQL решения — все они подобны подозреваемым с железным алиби: технически невиновны, но и помочь не могут.
Требования были простыми до абсурдности:
«Ни одна база данных не могла поддержать производительность и масштаб для быстрых интерактивных запросов к высокомерным данным такого объема», — вспоминал позже Ян в интервью Datanami.
Здесь начинается самое интересное. Как истинные детективы, команда Metamarkets принялась за расследование. Они испробовали реляционные базы данных — слишком медленные. Попробовали NoSQL — не поддерживают нужные типы запросов. Проверили существующие OLAP-системы — не справляются с реальным временем.
Вывод был ясен, как отпечаток пальца на месте преступления: нужно создать что-то абсолютно новое.
И тогда в 2011 году Эрик Тщеттер написал первые строки кода. Вскоре к нему присоединился Фанцзинь Ян. Они назвали свое детище Druid — в честь друидов из ролевых игр, способных менять форму и адаптироваться к различным задачам. Идеальная метафора для системы, которая должна была решать разнообразные проблемы данных.
Druid стал колоночной, распределенной базой данных, написанной на Java. Но дьявол, как всегда, в деталях:
Колоночное хранение — данные хранятся по столбцам, а не по строкам. Это позволяет сканировать только необходимые данные, экономя драгоценные миллисекунды.
Распределенная архитектура — никаких единых точек отказа. Данные реплицируются, система продолжает работать, даже если часть узлов выходит из строя.
Продвинутая индексация — секретное оружие, позволяющее находить иголку в стоге сена размером с петабайт.
Философия разработки была проста и элегантна, как финальное объяснение Пуаро: «Не делай того, что не нужно делать». Никаких лишних операций, максимальная эффективность на каждом этапе.
В октябре 2012 года произошло нечто необычное для корпоративного мира — Metamarkets выпустила Druid под лицензией GPL с открытым исходным кодом. Это был смелый ход, но он сработал, как идеальный план убийства... старых подходов к данным.
Проект начал набирать популярность. Netflix, Yahoo, eBay, Cisco — один за другим технологические гиганты стали использовать Druid. К 2015 году стало ясно: это не просто инструмент для одной компании, это новая категория баз данных — real-time analytics databases.
Но наша история на этом не заканчивается. Как в лучших детективах Кристи, есть еще один поворот сюжета.
В 2015 году Фанцзинь Ян, Джан Мерлино и Вадим Огиевецкий основали Imply — компанию, призванную коммерциализировать Druid и сделать его доступным для более широкой аудитории.
«Мы получали запросы раз в две недели: «Эй, можете помочь с установкой? Вы предоставляете поддержку?»» — вспоминал Ян причины создания компании.
Октябрь 2015 года — $2 миллиона seed-раунда от Khosla Ventures.Декабрь 2019 года — $30 миллионов, оценка $350 миллионов.Июнь 2021 года — $70 миллионов Series C, оценка $700 миллионов.
За четыре года компания увеличила свою стоимость в двести раз. Даже мисс Марпл аплодировала бы стоя.
Цифры говорят красноречивее слов:
Клиенты Imply включают более 100 компаний: Plaid, Cisco ThousandEyes, Netflix, Salesforce, Confluent, Reddit, Twitter, Walmart, Wikimedia Foundation. Список читается как Who's Who технологического мира.
Что двигало Фанцзинем Яном? В отличие от загадочных убийц Агаты Кристи, его мотивы были просты и благородны.
«Druid появился, чтобы заполнить пробел в мире данных», — объяснял он. — «Система была спроектирована с несколькими ключевыми атрибутами: субсекундные запросы, чтобы пользователи могли исследовать данные, не прерывая свой рабочий процесс; потоковый прием данных, чтобы события можно было изучать сразу после их возникновения».
Это не было погоней за деньгами или славой. Это была попытка решить реальную проблему, которую никто другой не мог решить.
В 2023 году Datanami назвал Фанцзиня Яна одним из «People to Watch». Apache Foundation приняла Druid в свои проекты. С 2021 года Ян является ангельским инвестором и скаутом для Andreessen Horowitz, помогая находить и поддерживать новых инноваторов.
Но главное раскрытие — это признание новой категории баз данных. Real-time analytics databases стали такой же обыденностью, как реляционные базы данных в свое время.
«Мы наблюдаем появление новой категории инфраструктуры данных», — говорит Ян. — «Потребность в более быстрой производительности запросов в масштабе не замедляется. Это стало game-changer, открывающим новые операционные рабочие процессы».
В конце каждого детектива Агаты Кристи раскрывается личность убийцы. В нашей истории виновных несколько:
Виновен Эрик Тщеттер — в написании первых строк кода, запустивших революцию.
Виновен Фанцзинь Ян — в том, что не смирился с невозможным и создал то, чего не существовало.
Виновны Джан Мерлино и Вадим Огиевецкий — в соучастии в создании технологии, изменившей мир данных.
Виновен весь open source сообщество — в том, что подхватило идею и довело ее до совершенства.
Но главный виновник — это необходимость. Мать изобретений, как говорится. Мир нуждался в решении для анализа данных в реальном времени, и четверо инженеров ответили на этот зов.
Дорогой читатель, как вы могли заметить, эта история отличается от классических детективов Агаты Кристи в одном важном аспекте: здесь нет трупов. Напротив, это история о создании, а не об убийстве.
Хотя, если вдуматься, они действительно кое-что убили: старые, неэффективные подходы к анализу больших данных. И за это преступление их никто не будет судить. Наоборот, за него дали $70 миллионов инвестиций.
Фанцзинь Ян продолжает руководить Imply из своего офиса в районе залива Сан-Франциско. Он по-прежнему немногословен. Его LinkedIn профиль содержит всего одну строку о себе: «Мне нравится создавать вещи».
И как показывает история Druid, когда Фанцзинь Ян создает вещи, они меняют мир.
Занавес.
«Дело закрыто. Подозреваемые оправданы. Более того, они герои. Но загадка остается: что они создадут в следующий раз?»
— Э. К. (Эркюль Кристи), частный сыщик по делам технологических революций
Фанцзин Ян - фотография из архивов сайта
Посмотреть фото