У співпраці з дослідниками з університету Цінгхуа Deepseek розробила техніку, яка поєднує методи, які називаються генеративним моделюванням винагороди (GRM) та самозабеленою критикою, згідно з документом, опублікованою в п'ятницю. Подвійний підхід має на меті дати можливість LLM забезпечити кращі та швидші результати загальним запитам.
Отримані в результаті моделі DeepSeek-GRM перевершили існуючі методи, “досягнувши конкурентоспроможності” з сильними моделями публічної винагороди, написали дослідники. Моделювання винагороди – це процес, який спрямовує LLM на людські уподобання.
За словами дослідників, DeepSeek мав намір зробити моделі GRM відкритим кодом, але вони не дали часу.
Академічний документ, опублікований на онлайн-сховищі наукового документу ARXIV, приходить на тлі спекуляцій щодо наступного кроку запуску після глобальної уваги, отриманої моделлю фонду V3 та моделлю міркувань R1.
У минулому місяці Reuters повідомив, що DeepSeek-R2, наступник R1, може бути випущений вже в цьому місяці, коли компанія поспішає скористатися своїм зростанням. Випуск DeepSeek-R1 розгойдував глобальну технологічну спільноту з його економічно ефективними показниками, що конкурує з провідними моделями.
DeepSeek залишався щільно розпущеним щодо випуску R2. Він не прокоментував це питання через офіційні публічні канали, але обліковий запис обслуговування клієнтів відмовив у звіті в груповому чаті з бізнес -клієнтами, повідомляє китайські ЗМІ минулого місяця.