NVIDIA разработала технологию, которая значительно ускоряет работу ИИ

Метод KV Cache Transform Coding (KVTC) сокращает задержки до восьми раз

Метод KV Cache Transform Coding (KVTC) сокращает задержки до восьми раз и уменьшает потребление памяти до 20 раз. 

Это особенно важно для корпоративных сценариев, таких как аналитика, программирование и агентные системы, где длинные цепочки рассуждений создают серьезную нагрузку на GPU. Даже при 32-кратном сжатии точность моделей остается приемлемой.

KVTC уменьшает объем кэша( "ключ-значение" (KV-кэш), который хранит информацию о предыдущих сообщениях. Эта высокоскоростная память, расположенная в близости к ядрам процессора, которая служит промежуточным буфером между процессором и основной оперативной памятью позволяет нейросетям не перечитывать всю историю общения с нуля, но быстро разрастается до гигабайтов и создает нагрузку на GPU. В корпоративных сценариях это становится узким местом.

Большинство существующих методов сжатия KV-кэша либо неэффективны, либо требуют сложных вычислений в реальном времени. Новая технология использует подходы из мультимедийных форматов, таких как JPEG, для решения этой проблемы.

KVTC работает на уровне обработки данных, поэтому совместим с существующими системами без их переработки. Метод использует трансформационное кодирование: кэш уменьшается между фазами вывода, что не замедляет генерацию токенов. Ключевым элементом технологии является анализ главных компонентов (PCA), который выделяет важные данные и сокращает избыточную информацию. Значимые компоненты сохраняются с высокой точностью, а менее важные сжимаются или отбрасываются.

Тестирование показало, что KVTC сохраняет точность моделей при сжатии до 20 раз с падением менее чем на 1% пункт. Метод проверяли на моделях от 1,5 до 70 млрд параметров, включая Mistral NeMo и Qwen 2.5. Например, потребление памяти Qwen 2.5 удалось снизить с 29 КБ до 3,2 КБ на токен при 8-кратном сжатии с падением точности всего на 0,3 процентного пункта. При экстремальном сжатии (32–64 раза) KVTC демонстрирует устойчивые результаты, в то время как альтернативные методы теряют точность уже при пятикратном сжатии.

Кроме того, технология сокращает задержки до восьми раз. При запросе на 8000 токенов на Nvidia H100 пересчёт истории с нуля занимает около трех секунд, а с KVTC — значительно меньше.

Разработчики считают, что KVTC лучше всего подходит для задач с длинным контекстом, таких как программирование, аналитика и агентные системы. В будущем технология может стать стандартным слоем оптимизации в ИИ-инфраструктуре, подобно сжатию видео в потоковых сервисах.

26 марта 2026, 00:03 | Просмотры: 15