Запущен Microsoft Phi-3.5: более конкурентоспособная модель ИИ
Компания Microsoft только что официально объявила о выпуске новой серии небольших языковых моделей под названием Phi-3.5, включая три варианта: Phi-3.5-vision, Phi-3.5-MoE и Phi-3.5-mini.
Эти легкие языковые модели ИИ построены на агрегированных данных и отфильтрованных публичных веб-страницах, поддерживая длину контекста токенов 128K. Все новые модели Phi-3.5 теперь доступны на Hugging Face по лицензии MIT.
Запущен Microsoft Phi-3.5: более конкурентоспособная модель ИИ. Рисунок 1.
Phi-3.5-MoE: новаторская комбинация
Phi-3.5-MoE выделяется как первая модель в семействе Phi от Microsoft, которая может использовать технологию Mixture of Experts (MoE). Эта модель MoE размером 16 x 3,8 млрд параметров включала только 6,6 млрд параметров и была обучена на токенах 4,9T с использованием 512 систем H100 GPU. В современных популярных стандартах ИИ Phi-3.5-MoE превосходит Llama-3.1 8B, Gemma-2-9B и Gemini-1.5-Flash и близка к ведущей модели GPT-4o-mini.
Phi-3.5-mini: компактный и мощный
Phi-3.5-mini — это модель с 3,8 миллиардами параметров, превосходящая Llama3.1 8B или Mistral 7B и даже конкурирующая с Mistral NeMo 12B. Она обучается на токенах 3,4T с использованием 512 графических процессоров H100. Имея всего 3,8 млрд активных параметров, эта модель конкурентоспособна в многоязычных задачах по сравнению с LLM с большим количеством активных параметров. Кроме того, Phi-3.5-mini теперь поддерживает длину контекста 128 КБ, в то время как главный конкурент Gemma-2 поддерживает только 8 КБ.
Phi-3.5-vision: улучшенные возможности многокадровой обработки изображений
Phi-3.5-vision — это модель с 4,2 миллиардами параметров, обученная на 500B токенах с использованием 256 графических процессоров A100. Теперь эта модель поддерживает многокадровое понимание изображений и вывод. Phi-3.5-vision улучшила производительность на MMMU (с 40,2 до 43,0), MMBench (с 80,5 до 81,9) и бенчмарке обработки документов TextVQA (с 70,9 до 72,0).
Microsoft планирует поделиться более подробной информацией о модельном ряде Phi-3.5 в этом месяце, в первую очередь демонстрируя достижения в производительности и возможностях моделей ИИ. Благодаря акценту на легком дизайне и многомодальном понимании, семейство моделей Phi-3.5 может применяться более широко в различных приложениях ИИ.
Изабелла Хамфри
Обновление 23 августа 2024 г.