
Каждую секунду миллиарды событий происходят в цифровом мире — твиты отправляются в реальном времени, видео транслируются без задержки, финансовые транзакции обрабатываются мгновенно. За этой бесшовной магией стоит невидимая инфраструктура потоковой обработки данных. И есть человек, который создал три технологии, лежащие в основе этой инфраструктуры. Его зовут Картик Рамасами, и его код обрабатывает 10 петабайт данных в день — это объем информации, равный всем книгам, когда-либо написанным человечеством, умноженный на тысячу.
История Картика началась в Индии, в College of Engineering Guindy при Anna University в Мадрасе (ныне Ченнаи), где он получил степень бакалавра в области компьютерных наук в 1989 году. Это был период, когда Индия только начинала свой путь к становлению мировой технологической державой, а молодые инженеры мечтали о Silicon Valley.
Но Картик выбрал иной путь — путь глубокого понимания фундаментальных принципов. В 1993 году он получил магистерскую степень в University of Missouri, Kansas City, а затем продолжил обучение в одном из самых престижных исследовательских университетов мира — University of Wisconsin-Madison.
Шесть лет, с 1994 по 2000 год, он посвятил работе над докторской диссертацией в области параллельных баз данных, обработки запросов, масштабируемых технологий и механизмов хранения. Это была эпоха, когда Интернет только начинал взрываться, а объемы данных росли экспоненциально. Картик понял ключевую истину: будущее принадлежит не просто большим данным, а данным, которые обрабатываются прямо сейчас, в реальном времени.
Несколько исследовательских проектов из его диссертации позже были выделены в компанию, которую приобрела Teradata. Это был первый, но далеко не последний раз, когда академические идеи Картика превращались в коммерческий успех.
После защиты PhD в 2000 году Картик присоединился к Juniper Networks — компании, которая создавала маршрутизаторы, формирующие скелет современного интернета. Здесь он проектировал и разрабатывал платформы, протоколы, базы данных и высокодоступные решения для сетевых маршрутизаторов.
Его работа в Juniper была критически важной, хотя и невидимой для конечных пользователей. Когда вы отправляете электронное письмо, смотрите видео на YouTube или совершаете онлайн-покупку, ваши данные проходят через десятки маршрутизаторов. Картик создавал программное обеспечение, которое гарантировало, что эти маршрутизаторы никогда не падают, никогда не теряют пакеты данных и работают с невероятной скоростью.
Результатом этой работы стала книга "Network Routing: Algorithms, Protocols, and Architectures" — фундаментальный труд, который до сих пор используется инженерами по всему миру. Картик стал признанным экспертом в области сетевых технологий, автором множества патентов и научных публикаций.
Короткий период работы в Greenplum — компании, специализирующейся на параллельных базах данных — добавил еще одну важную компетенцию в арсенал Картика. Здесь он работал над планированием параллельных запросов, оптимизируя способы распределения вычислений между множеством машин.
Greenplum была позже приобретена EMC за более чем $300 миллионов, что подтверждало ценность технологий, над которыми работал Картик. Но его уже тянуло к новым вызовам — к миру реального времени, где каждая миллисекунда имеет значение.
В конце 2000-х Картик сделал смелый шаг — стал сооснователем Locomatix, стартапа, специализирующегося на потоковой обработке данных в реальном времени на Hadoop и Cassandra с использованием SQL. Это было время, когда термин "Big Data" только входил в моду, а инструменты для работы с ним были примитивными.
Locomatix предлагал революционную идею: обрабатывать потоковые данные так же легко, как работать с традиционными базами данных, используя привычный язык SQL. Компания привлекла внимание одного из самых быстрорастущих технологических гигантов того времени — Twitter.
В 2010-х Twitter приобрел Locomatix, и Картик присоединился к команде в качестве инженерного менеджера и технического лидера по аналитике в реальном времени. Это было время, когда Twitter обрабатывал сотни миллионов твитов в день, и каждый из них нужно было анализировать мгновенно — для выявления трендов, борьбы со спамом, рекомендаций контента.
Существующие решения не справлялись с масштабом Twitter. Apache Storm, хотя и был революционным для своего времени, имел фундаментальные ограничения в отладке, масштабируемости и управлении ресурсами на общих кластерах.
Картик стал сокреатором Apache Heron — системы обработки потоковых данных следующего поколения. Ключевое отличие Heron от Storm было фундаментальным: переход от потоковой архитектуры к процессной. Это звучит технически, но суть проста: вместо того чтобы множество задач выполнялись в одном большом процессе (как в Storm), в Heron каждая задача получала свой собственный процесс. Это делало систему невероятно легкой для отладки и профилирования.
Результаты были впечатляющими: снижение количества инцидентов в 10 раз, значительное улучшение производительности и меньшее потребление ресурсов. Heron заменил Storm на всех производственных задачах внутри Twitter.
В 2016 году Twitter открыл исходный код Heron, и Картик презентовал систему на конференции SIGMOD '15 в статье "Twitter Heron: Stream Processing at Scale". Apache Heron стал проектом Apache Software Foundation, продолжая наследие Storm, но решая все его проблемы масштаба.
Параллельно с работой над Heron, опыт Картика в области распределенных систем привел его к участию в еще более амбициозном проекте. В Yahoo! формировалась команда для создания системы обмена сообщениями и потоковой обработки следующего поколения.
Картик стал одним из соавторов Apache Pulsar — проекта, который должен был объединить возможности messaging (обмена сообщениями), queuing (очередей) и streaming (потоковой обработки) в одной системе. Pulsar был спроектирован с нуля для решения проблем, которые не мог решить ни один из существующих инструментов:
Pulsar масштабировался до 10 петабайт данных в день на одном из флагманских клиентов — это эквивалентно обработке 10 миллионов полнометражных фильмов высокой четкости каждые 24 часа.
В 2017 году, вооруженный опытом создания Heron и Pulsar, Картик решил основать собственную компанию. Вместе с коллегами Санжевом Кулкарни, Маттео Мерли, Льюисом Канеширо и Сиджи Го он создал Streamlio — платформу для потоковой обработки данных корпоративного уровня.
Streamlio была построена на трех китах open source технологий:
Компания привлекла финансирование от Lightspeed Venture Partners и быстро завоевала клиентов среди предприятий, которым требовалась обработка данных в реальном времени на уровне Twitter и Yahoo!, но без необходимости собирать собственную команду экспертов.
Философия Streamlio была проста: событийно-ориентированная архитектура (event-driven) должна заменить традиционную пакетную обработку (batch processing). Данные нужно обрабатывать не раз в час или раз в день, а в момент их возникновения.
В октябре 2019 года, на конференции .conf19, компания Splunk объявила о намерении приобрести Streamlio. Это было признание не только коммерческого успеха, но и технологического превосходства. Splunk, лидер в области анализа машинно-генерируемых данных, увидел в Streamlio ключ к будущему реального времени.
"Мы взволнованы возможностью объявить сегодня, что Splunk договорился о приобретении Streamlio", — написал Картик в блоге компании. "Это представляет собой еще одну веху в реализации видения, которое было у нас, когда мы основали компанию всего несколько лет назад".
Важно отметить, что Splunk взял на себя обязательство продолжать развивать Apache Pulsar и связанные open source проекты. Картик и его команда перешли в Splunk, где продолжили не только интегрировать Pulsar в продукты компании, но и вносить вклад в открытое сообщество.
Картик стал старшим директором по инжинирингу в Splunk, где руководил миграцией различных систем обмена сообщениями (Kinesis, SQS, RabbitMQ, Kafka) на Apache Pulsar для всех корпоративных нужд.
Сегодня Картик Рамасами занимает должность главы направления потоковой обработки (Head of Streaming) в Databricks — одной из самых быстрорастущих компаний в области данных и искусственного интеллекта.
В Databricks Картик отвечает за развитие потоковых возможностей на платформе Lakehouse — архитектуре, которая объединяет преимущества озер данных (data lakes) и хранилищ данных (data warehouses). Его работа критически важна: потоковые рабочие нагрузки на платформе Databricks растут на 140-150% год к году, и компания запускает более 7 миллионов потоковых задач.
"Архитектура lakehouse — ключ к успеху, потому что все данные хранятся в общем формате", — объясняет Картик. "Databricks предлагает единую платформу для потоковых и пакетных данных, что позволяет командам устранить разрозненность и централизовать модели безопасности и управления".
Под его руководством был запущен Delta Live Tables (DLT) — решение, которое делает потоковую обработку невероятно простой, используя декларативный язык вроде SQL и автоматизированные операции. Потоковая обработка, наконец, становится мейнстримом.
В 2025 году Databricks объявил об открытии исходного кода Real-time Mode (RTM) в Apache Spark Structured Streaming — еще один вклад Картика в экосистему open source.
Параллельно с работой в Databricks, Картик продолжает свою предпринимательскую деятельность. Он является сооснователем и CEO StreamNative — компании, предоставляющей облачную платформу событийного стриминга на основе Apache Pulsar.
StreamNative предлагает enterprise-grade решения Pulsar, облачные сервисы и экспертную поддержку, помогая организациям строить приложения следующего поколения для обработки данных в реальном времени.
Кроме того, Картик является сооснователем V2K AI — платформы интеллектуального анализа встреч на основе искусственного интеллекта, которая помогает отделам продаж понимать своих клиентов и закрывать больше сделок.
Верный своим академическим корням, Картик не забывает об образовательной миссии. С августа 2016 года он является преподавателем на факультете электротехники и компьютерных наук (EECS) в University of California, Berkeley, где делится своим опытом с новым поколением инженеров.
Его публикации, патенты и книга "Network Routing: Algorithms, Protocols, and Architectures" продолжают оставаться важными ресурсами для профессионалов индустрии.
Вклад Картика в мир технологий не остался незамеченным. В 2023 году он был назван "Person to Watch" (Человеком, за которым стоит следить) по версии Datanami — ведущего издания в области больших данных и аналитики.
"Немногие люди оказали такое влияние на рынок потоковой обработки данных в реальном времени, как Картик Рамасами", — писал Datanami, объясняя свой выбор.
В 2020 году он был включен в список Variety 500 — 500 наиболее влиятельных лидеров глобальной медиа-индустрии.
Что делает Картика уникальным, так это его способность соединять глубокую академическую теорию с практическими решениями для самых сложных проблем масштаба. Он не просто создает технологии — он решает фундаментальные проблемы, которые блокируют прогресс целых индустрий.
"Одна из самых больших проблем — это необходимость изучать новые API и языки", — отмечает Картик, описывая вызовы потоковой обработки. "Сложно обучать существующие команды, когда они так привыкли к языкам и инструментам, которые уже знают".
Именно поэтому его решения всегда фокусируются на простоте использования. Databricks позволяет инженерам, специалистам по данным и аналитикам легко строить потоковые рабочие нагрузки, используя языки и инструменты, которые они уже знают.
Когда Картик не проектирует системы, обрабатывающие петабайты данных, его любимое хобби — фотография. Это идеальный контраст его технической работе: если системы потоковой обработки захватывают мгновения в цифровом мире, фотография захватывает моменты в физическом.
Более двух десятилетий опыта. Три революционные технологии — Apache Storm (как сокреатор), Apache Heron и Apache Pulsar. Две успешно проданные компании. Преподавательская деятельность в элитном университете. Влияние на миллиарды транзакций данных каждый день.
Картик Рамасами — это архитектор невидимой инфраструктуры, на которой построен современный цифровой мир. Его код работает за кулисами, обрабатывая каждый твит, каждое видео, каждую финансовую транзакцию в реальном времени. Большинство людей никогда не узнают его имя, но каждый день пользуются плодами его работы.
Это история о том, как один человек с PhD из University of Wisconsin-Madison превратил академические идеи о параллельных базах данных в технологии, которые обрабатывают 10 петабайт данных в день. История о том, как глубокое понимание фундаментальных принципов компьютерной науки может изменить способ, которым мир обрабатывает информацию.
И это история, которая продолжается. В Databricks Картик работает над тем, чтобы сделать потоковую обработку данных настолько же простой и распространенной, как отправка электронного письма. Потому что в мире, где каждая миллисекунда имеет значение, будущее принадлежит тем, кто может обрабатывать данные прямо сейчас.
"Мое любимое хобби — фотография", — говорит Картик, и в этой простой фразе скрыта глубокая метафора. Как фотограф захватывает момент света на пленку, так и его системы захватывают моменты данных в потоке времени, превращая хаос информации в упорядоченное знание.
Сегодня, когда вы смотрите trending topic в Twitter, получаете мгновенное уведомление на телефон или совершаете онлайн-покупку с мгновенным подтверждением, вспомните: за этой магией стоит невидимая работа архитекторов вроде Картика Рамасами, которые строят нервную систему цифрового мира.
Картик Рамасами - фотография из открытых источников
Посмотреть фото