DiPaCo от Google бросает вызов проекту искусственного интеллекта Microsoft и OpenAI

Google DeepMind представил DiPaCo - открытую систему обучения сверхумных ИИ, конкурирующую с проектом Microsoft и OpenAI. DiPaCo предлагает распределенное обучение нейронных сетей по всему миру, что может изменить индустрию искусственного интеллекта. Этот проект обещает демократизировать доступ к мощным ИИ-моделям, усложняя контроль крупнейших центров обучения. Google DeepMind предлагает новую парадигму развития ИИ, вызывая волну новаторства и возможные изменения в отрасли

Новости 2024 04 03

Ответный удар

Недавно Microsoft и OpenAI объявили о запуске амбициозного проекта на $100 млрд, направленного на создание мощного ИИ-суперкомпьютера и центра обработки данных. Этот шаг позволяет им укрепить свои позиции в сфере искусственного интеллекта. Однако Google DeepMind представил DiPaCo - открытую систему обучения сверхумных ИИ, которая может изменить игру.

Новая система обучения и распределения данных DiPaCo

DiPaCo позволяет распределенное обучение нейронных сетей, используя доступные ресурсы по всему миру. Это позволяет масштабировать нейронные сети без ограничений централизованных систем. Два ключевых алгоритма - DiLoCo и сам DiPaCo - работают вместе для создания мощного инструмента обучения моделей ИИ.

DiPaCo может изменить парадигму развития искусственного интеллекта, подвергнуть сомнению эффективность многомиллиардных инвестиций конкурентов и демократизировать доступ к обучению ИИ. Этот проект также усложнит задачу правительствам, стремящимся контролировать развитие ИИ через регулирование центров обучения моделей, так как его распределенная природа делает контроль менее эффективным.

Исследование Google DeepMind

Исследование Google DeepMind предлагает новую архитектуру и подход к обучению моделей машинного обучения. DiPaCo обеспечивает распределение вычислительной нагрузки путем путей через набор общих модулей. Такой подход позволяет тренировать модели на слабо связанных и разнородных рабочих устройствах с уменьшенной коммуникацией. При инференсе требуется выполнение только одного пути для каждого ввода, без необходимости сжатия модели.

Эксперименты на бенчмарке C4 показывают, что DiPaCo превосходит производительность модели языкового трансформера с 1 млрд параметров, выбирая один из 256 возможных путей.

Подробнее о проекте Distributed Path Composition и в блоге ведущего автора проекта Артура Дуйяра.