مدل OpenAI GPT OSS 20b MXFP4 و llama.cpp

۰۴/۱۰/۲۶
۶ نظر
زینو

از اونجایی که من الآن حوصله نوشتن ندارم فقط لینکا رو می‌زارم خودتون باهاش ور برید ببینید می‌تونید باهاش کار کنید یا نه. شاید فردا یه راهنما نوشتم، شایدم یکی دیگه نوشت.

این گیتشه کداش تو اینه (لینک). اگه کسی می‌تونه برای ویندوز کامپایلش کنه انجامش بده چون نسخه ویندوزی که گذاشتم قدیمیه ابزاری هم برای کامپایل تو ویندوز ندارم. تا 7f09a680a هستش.

این نسخه کامپایل شده برای لینوکس هست با Vulkan (لینک).

این نسخه کامپایل شده برای ویندوز هست با Vulkan (لینک).

این خود مدل هستش (لینک). من اون موقع به اشتباه گفتم 16 گیگ می‌خواد ولی یادم اومد نزدیک 24 گیگ می‌خواد (مثلا 8 گیگ گرافیک 16 گیگ کامپیوتر). از نظر من تو بعضی کارا این مدل بهتر عمل می‌کنه.

برای اجراشم یه همچین چیزی بنویسید (برای لینوکس):

./llama-server -m ./model.gguf --no-mmap -ngl 10 --jinja --ctx-size 1000

و یه همچین چیزی برای ویندوز:

llama-server -m model.gguf -ngl 10 --jinja --ctx-size 1000

که ngl میگه چقدرش رو ببرم رو کارت گرافیک (کمش کن تا تو گرافیک جا بشه) و ctx-size میگه چقدر از توکن‌های قبلیش رو یادش بمونه (هر چی بیشتر مصرف رم بالاتر).

اگه خواستین به آدرس‌های محلی فقط گوش نده اینم به تهش اضافه کنید:

--host 0.0.0.0

فعلا همین.

آپدیت: من مدل‌ Qwen3 8b رو از https://git.ir/article/ollama-setup چک کردم، این مدل هم از GGUF استفاده می‌کنه و چهار بیتی هست (Q4_K)، احتملا بقیه مدل‌ها هم همینطوری هست. اطلاعاتی در مورد مدل OpenAI OSS ننوشتن ولی حدس می‌زنم مثل همین مدل MoE باشه با MXFP4 برای Quantization.

۰۴/۱۰/۲۶

زینو

۲۷ دی ۰۴ ، ۱۹:۰۴

همون دانشجو

عالی هستید و فوق‌العاده

من مدل‌ رو میتونم ران بگیرم در اختبارتون قرار بدم اگر لازم داشتید

سپاس

۲۷ دی ۰۴ ، ۲۲:۳۵

یه موردی که هست بعد از ران کردن سرور از gpu اصلا استفاده نمیکنه در صورتی که داره از حداکثر قدرت cpu و رم استفاده میشه و یه مورد دیگه چند بار پرامتر ngl تغییر دادم اما بازم نشد
آیا بخاطر نسخه ی کاپایلی که گذاشتین ؟

۲۸ دی ۰۴ ، ۰۰:۴۲

ممنون از توضیحاتتون
طبق چه اصولی تعداد لایه هارو تشخیص میدین و تقسیم بار میکنید ؟
ایا ممکنه سایر فایل های gguf رو هم قرار بدین ؟

زینو

زینو

مدل OpenAI GPT OSS 20b MXFP4 و llama.cpp

نظرات (۶)

ارسال نظر