Исследователи Apple представили модель FS-DFM для генерации длинных текстов, которая работает до 128 раз быстрее классических диффузионных аналогов. В отличие от авторегрессивных моделей, таких как ChatGPT, создающих текст последовательно, FS-DFM генерирует множество токенов параллельно и улучшает их за несколько шагов. Для ускорения процесса используется метод flow-matching, сокращающий итеративную доработку, а также трёхэтапный подход: адаптация модели под разное число шагов, использование «учителя» для точности обновлений и оптимизация итераций. Это позволяет FS-DFM создавать связные тексты всего за 8 шагов, тогда как другим моделям необходимо более 1000.
По ключевым метрикам — перплексии и энтропии — компактные версии FS-DFM с 0,17–1,7 млрд параметров превзошли диффузионные модели с 7–8 млрд параметров. Низкая перплексия указывает на высокое качество текста, а стабильная энтропия предотвращает повторы и хаотичность. Например, FS-DFM демонстрирует более естественные формулировки, сохраняя баланс между предсказуемостью и креативностью.
Исследователи планируют опубликовать код и чекпойнты модели для повторения экспериментов, что ускорит развитие подобных решений. Уже сейчас FS-DFM показывает, как оптимизация архитектуры
