دیپسیک از رویکرد جدیدی برای بهبود توانایی مدلهای استدلالگر رونمایی کرد - پیوست
دیپسیک پیش از عرضه مدل جدید هوش مصنوعی خود، رویکرد نوآورانهای را برای بهبود توانایی استدلال مدلهای زبانی بزرگ (LLM) معرفی کرده است. این شرکت در همکاری با پژوهشگران دانشگاه تسینگهوا، تکنیکی ترکیبی از دو روش با نامهای «مدلسازی پاداش مولد» (Generative Reward Modelling یا GRM) و «تنظیم انتقادی مبتنی بر اصول درونی» (Self-Principled Critique