- ۰۴/۱۰/۲۶
- ۶ نظر
از اونجایی که من الآن حوصله نوشتن ندارم فقط لینکا رو میزارم خودتون باهاش ور برید ببینید میتونید باهاش کار کنید یا نه. شاید فردا یه راهنما نوشتم، شایدم یکی دیگه نوشت.
این گیتشه کداش تو اینه (لینک). اگه کسی میتونه برای ویندوز کامپایلش کنه انجامش بده چون نسخه ویندوزی که گذاشتم قدیمیه ابزاری هم برای کامپایل تو ویندوز ندارم. تا 7f09a680a هستش.
این نسخه کامپایل شده برای لینوکس هست با Vulkan (لینک).
این نسخه کامپایل شده برای ویندوز هست با Vulkan (لینک).
این خود مدل هستش (لینک). من اون موقع به اشتباه گفتم 16 گیگ میخواد ولی یادم اومد نزدیک 24 گیگ میخواد (مثلا 8 گیگ گرافیک 16 گیگ کامپیوتر). از نظر من تو بعضی کارا این مدل بهتر عمل میکنه.
برای اجراشم یه همچین چیزی بنویسید (برای لینوکس):
./llama-server -m ./model.gguf --no-mmap -ngl 10 --jinja --ctx-size 1000
و یه همچین چیزی برای ویندوز:
llama-server -m model.gguf -ngl 10 --jinja --ctx-size 1000
که ngl میگه چقدرش رو ببرم رو کارت گرافیک (کمش کن تا تو گرافیک جا بشه) و ctx-size میگه چقدر از توکنهای قبلیش رو یادش بمونه (هر چی بیشتر مصرف رم بالاتر).
اگه خواستین به آدرسهای محلی فقط گوش نده اینم به تهش اضافه کنید:
--host 0.0.0.0
فعلا همین.
آپدیت: من مدل Qwen3 8b رو از https://git.ir/article/ollama-setup چک کردم، این مدل هم از GGUF استفاده میکنه و چهار بیتی هست (Q4_K)، احتملا بقیه مدلها هم همینطوری هست. اطلاعاتی در مورد مدل OpenAI OSS ننوشتن ولی حدس میزنم مثل همین مدل MoE باشه با MXFP4 برای Quantization.