18/08/2025
من أسرع محركات الاستدلال لنماذج اللغة الكبيرة (LLMs) 🤯🔥
إذا كنت تعمل مع نماذج طويلة السياق، فبالتأكيد واجهت مشكلة زمن الحصول على أول ناتج (TTFT) المتأخر وبطء الاستجابة ؛؛
هذا الظرف يستدعي وجود حلول مثل LMCache 🔥
ما الذي يقدمه LMCache:
✴️ يقوم LMCache بتخزين وإعادة استخدام أزواج المفاتيح والقيم (KV pairs) لأي نص متكرر، سواء على وحدة GPU أو ذاكرة CPU DRAM أو حتى القرص المحلي.
✴️ على عكس الأساليب التقليدية التي تقتصر على Prefix Caching، يستطيع LMCache إعادة استخدام أي نص متكرر عبر أي خادم أو مثيل للنموذج.
✴️ كل هذا يوفّر موارد الـGPU ويُقلل بشكل كبير من زمن الاستجابة.
أهم الخصائص:
✴️ أداء عالٍ عبر تفريغ ذاكرة KV للـCPU
✴️ انفصال لـ Prefill يتيح التوسّع بكفاءة عالية
✴️ مشاركة peer-إلى-peer للـKV Cache بين الخوادم.
بالرجوع إلى تحارب المطورين فقد حقق الجمع بين LMCache وvLLM، تحسنا كبيرا في تقليص التأخير يتراوح بين 3 إلى 10 أضعاف، وكذلك تقليل دورة وحدة معالجة الرسومات في العديد من حالات استخدام LLM، بما في ذلك multi-round Q&S وRAG 😍
الكود متاح على GitHub
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ