زینو

۱ مطلب در دی ۱۴۰۴ ثبت شده است

از اونجایی که من الآن حوصله نوشتن ندارم فقط لینکا رو می‌زارم خودتون باهاش ور برید ببینید می‌تونید باهاش کار کنید یا نه. شاید فردا یه راهنما نوشتم، شایدم یکی دیگه نوشت.

این گیتشه کداش تو اینه (لینک). اگه کسی می‌تونه برای ویندوز کامپایلش کنه انجامش بده چون نسخه ویندوزی که گذاشتم قدیمیه ابزاری هم برای کامپایل تو ویندوز ندارم. تا 7f09a680a هستش.

این نسخه کامپایل شده برای لینوکس هست با Vulkan (لینک).

این نسخه کامپایل شده برای ویندوز هست با Vulkan (لینک).

این خود مدل هستش (لینک). من اون موقع به اشتباه گفتم 16 گیگ می‌خواد ولی یادم اومد نزدیک 24 گیگ می‌خواد (مثلا 8 گیگ گرافیک 16 گیگ کامپیوتر). از نظر من تو بعضی کارا این مدل بهتر عمل می‌کنه.

برای اجراشم یه همچین چیزی بنویسید (برای لینوکس):

./llama-server -m ./model.gguf --no-mmap -ngl 10 --jinja --ctx-size 1000

و یه همچین چیزی برای ویندوز:

llama-server -m model.gguf -ngl 10 --jinja --ctx-size 1000

که ngl میگه چقدرش رو ببرم رو کارت گرافیک (کمش کن تا تو گرافیک جا بشه) و ctx-size میگه چقدر از توکن‌های قبلیش رو یادش بمونه (هر چی بیشتر مصرف رم بالاتر).

اگه خواستین به آدرس‌های محلی فقط گوش نده اینم به تهش اضافه کنید:

--host 0.0.0.0

فعلا همین.

 

آپدیت: من مدل‌ Qwen3 8b رو از https://git.ir/article/ollama-setup چک کردم، این مدل هم از GGUF استفاده می‌کنه و چهار بیتی هست (Q4_K)، احتملا بقیه مدل‌ها هم همینطوری هست. اطلاعاتی در مورد مدل OpenAI OSS ننوشتن ولی حدس می‌زنم مثل همین مدل MoE باشه با MXFP4 برای Quantization.