Сколько примерно параметров должна иметь языковая модель, чтобы её считали малой (SLM)?
Подробное объяснение
Малые языковые модели (SLM) обычно имеют до нескольких миллиардов параметров, с распространённым порогом около 3 миллиардов (3B). Такие модели предназначены для работы на устройствах с ограниченными ресурсами, например, на мобильных телефонах или в edge-сценариях. В отличие от больших моделей (LLM) с десятками или сотнями миллиардов параметров, SLM обеспечивают меньшую точность, но требуют меньше вычислительных мощностей и памяти.
Часто задаваемые вопросы (FAQ)
1
Какие примеры малых языковых моделей вы знаете?
Примерами SLM являются модели семейства Phi (Microsoft) с 1.3B и 2.7B параметров, а также TinyLlama (1.1B) и Gemma 2B.
2
Почему порог для SLM установлен именно в 3 миллиарда параметров?
Это не строгий критерий, но модели до 3B часто могут работать на устройствах с 4-8 ГБ оперативной памяти и не требуют мощных GPU. Большие модели (например, 7B) уже считаются компактными LLM, но не SLM.
3
В каких задачах эффективны малые языковые модели?
SLM подходят для задач, где важны скорость и низкое энергопотребление: чат-боты на устройствах, классификация текста, генерация простых ответов, автодополнение на мобильных клавиатурах.
Типичные ошибки
1
Считать, что SLM — это модели с менее чем 1 миллиардом параметров.
Хотя существуют модели с 500M параметров, типичный порог для SLM — несколько миллиардов (до 3B). Модели менее 1B часто называют 'tiny' или 'nano'.
2
Путать SLM с LLM, полагая, что SLM — это просто маленькие LLM.
SLM — это отдельный класс моделей, оптимизированных для ограниченных ресурсов, а не просто уменьшенные версии LLM. Они могут иметь другую архитектуру и методы обучения.
3
Думать, что SLM всегда уступают LLM во всех задачах.
Хотя SLM уступают в сложных рассуждениях, они превосходят LLM по скорости и эффективности в простых задачах, и могут быть дообучены под конкретные сценарии.