سه شنبه / ۳۱ تیر / ۱۴۰۴ - 22 July, 2025
 مجله پیوست / ۱۴۰۴/۰۱/۱۷

دیپ‌سیک از رویکرد جدیدی برای بهبود توانایی مدل‌های استدلال‌گر رونمایی کرد - پیوست

دیپ‌سیک از رویکرد جدیدی برای بهبود توانایی مدل‌های استدلال‌گر رونمایی کرد - پیوست
دیپ‌سیک پیش از عرضه مدل جدید هوش مصنوعی خود، رویکرد نوآورانه‌ای را برای بهبود توانایی استدلال مدل‌های زبانی بزرگ (LLM) معرفی کرده است. این شرکت در همکاری با پژوهشگران دانشگاه تسینگ‌هوا، تکنیکی ترکیبی از دو روش با نام‌های «مدل‌سازی پاداش مولد» (Generative Reward Modelling یا GRM) و «تنظیم انتقادی مبتنی بر اصول درونی» (Self-Principled Critique