Сколько примерно параметров должна иметь модель, чтобы её считали большой языковой моделью (LLM)?
Подробное объяснение
Единого строгого порога для отнесения модели к классу LLM нет, но в учебных и индустриальных материалах часто используют приблизительный порог порядка 1 миллиарда параметров и выше. Модели с меньшим числом параметров (например, менее 1 млрд) обычно относят к небольшим или средним. Пороги >7 млрд или >10 млрд параметров встречаются как критерии для «очень больших» моделей, но они не являются универсальными.
Часто задаваемые вопросы (FAQ)
1
Почему именно 1 миллиард параметров считается порогом для LLM?
Это эмпирически сложившийся порог, при котором модели начинают демонстрировать качественно новые способности (few-shot learning, рассуждения и т.д.). Однако он не является строгим: некоторые модели с 500 млн параметров также могут считаться LLM в определённых контекстах.
2
Какие модели относятся к LLM?
К LLM относят модели с числом параметров от 1 млрд и выше, например, GPT-3 (175 млрд), Llama 2 (7-70 млрд), BLOOM (176 млрд) и другие. Модели с меньшим числом параметров, такие как DistilBERT (66 млн), обычно не считаются LLM.
3
Может ли модель с 500 миллионами параметров быть LLM?
В большинстве классификаций такие модели относят к малым или средним, но в некоторых источниках граница может быть ниже (например, 100 млн). Однако общепринятый порог — около 1 млрд.
Типичные ошибки
1
Считать порогом 100 миллионов параметров
Этот порог слишком низкий: модели с 100 млн параметров обычно не демонстрируют свойств, характерных для LLM (например, способность к сложным рассуждениям).
2
Считать порогом 10 миллиардов параметров
Хотя многие известные LLM имеют более 10 млрд параметров, многие модели с 1-10 млрд также считаются LLM, поэтому порог 10 млрд является завышенным и не универсальным.
3
Думать, что порог строго определён
На самом деле нет официального стандарта; разные исследователи и компании могут использовать разные критерии. Поэтому важно понимать, что порог приблизительный и контекстуально зависим.