زینو

از اونجایی که من الآن حوصله نوشتن ندارم فقط لینکا رو می‌زارم خودتون باهاش ور برید ببینید می‌تونید باهاش کار کنید یا نه. شاید فردا یه راهنما نوشتم، شایدم یکی دیگه نوشت.

این گیتشه کداش تو اینه (لینک). اگه کسی می‌تونه برای ویندوز کامپایلش کنه انجامش بده چون نسخه ویندوزی که گذاشتم قدیمیه ابزاری هم برای کامپایل تو ویندوز ندارم. تا 7f09a680a هستش.

این نسخه کامپایل شده برای لینوکس هست با Vulkan (لینک).

این نسخه کامپایل شده برای ویندوز هست با Vulkan (لینک).

این خود مدل هستش (لینک). من اون موقع به اشتباه گفتم 16 گیگ می‌خواد ولی یادم اومد نزدیک 24 گیگ می‌خواد (مثلا 8 گیگ گرافیک 16 گیگ کامپیوتر). از نظر من تو بعضی کارا این مدل بهتر عمل می‌کنه.

برای اجراشم یه همچین چیزی بنویسید (برای لینوکس):

./llama-server -m ./model.gguf --no-mmap -ngl 10 --jinja --ctx-size 1000

و یه همچین چیزی برای ویندوز:

llama-server -m model.gguf -ngl 10 --jinja --ctx-size 1000

که ngl میگه چقدرش رو ببرم رو کارت گرافیک (کمش کن تا تو گرافیک جا بشه) و ctx-size میگه چقدر از توکن‌های قبلیش رو یادش بمونه (هر چی بیشتر مصرف رم بالاتر).

اگه خواستین به آدرس‌های محلی فقط گوش نده اینم به تهش اضافه کنید:

--host 0.0.0.0

فعلا همین.

 

آپدیت: من مدل‌ Qwen3 8b رو از https://git.ir/article/ollama-setup چک کردم، این مدل هم از GGUF استفاده می‌کنه و چهار بیتی هست (Q4_K)، احتملا بقیه مدل‌ها هم همینطوری هست. اطلاعاتی در مورد مدل OpenAI OSS ننوشتن ولی حدس می‌زنم مثل همین مدل MoE باشه با MXFP4 برای Quantization.

  • ۰۴/۱۰/۲۶
  • زینو

نظرات  (۶)

  • یک دانشجو
  • ممنون از اشتراک گذاری ❤️

    مدل‌های سنگین ترش رو هم دارید؟

    پاسخ:
    سلام، خواهش می‌کنم 💚
    من ندارم، اینجا یه تعدادی هست https://git.ir/article/ollama-setup مثل Qwen Coder که قوی ترن ولی چون Quantize نشدن (احتمالا شدن ولی مثل این 4 بیت نیستن) خیلی به رم نیاز دارن.
  • زری シ‌‌‌
  • اینی که اینجا گذاشتین میشه مثلا فقط از qwen  اش استفاده کرد ؟ 

    نمیفهمم چین اینا T_T

    پاسخ:
    آره هر کدوم که کامپیوترتون میکشه میشه فقط از همون استفاده کرد.
  • همون دانشجو
  • عالی هستید و فوق‌العاده

    من مدل‌ رو میتونم ران بگیرم در اختبارتون قرار بدم اگر لازم داشتید

    سپاس

    پاسخ:
    خواهش می‌کنم لطف دارید 

    ممنون دوست عزیز 
     

    پاسخ:
    شما لطف دارید 💚

    یه موردی که هست بعد از ران کردن سرور از gpu  اصلا استفاده نمیکنه در صورتی که داره از حداکثر قدرت cpu  و رم استفاده میشه و یه مورد دیگه چند بار پرامتر ngl تغییر دادم اما بازم نشد 
    آیا بخاطر نسخه ی کاپایلی که گذاشتین ؟

    پاسخ:
    اصلا از GPU استفاده نمیکه یا کم استفاده میکنه؟ از اونجایی که محاسبات توی CPU کندتر انجام میشه، CPU واسه ما یه bottleneck هست. چون برای هر توکن GPU باید منتظرجواب CPU باشه. مثلا من الآن مدل کوچیک تر LFM2-8B-A1B-Q4_0.gguf رو آوردم بالا که 8 میلیاد پارامتره هست با 1 میلیارد پارامتر فعال، اگه 8 لایه رو ببرم روی کارت گرافیک نزدیک به 20 درصد از کارت گرافیکم استفاده میشه و اگه 12 لایه رو ببرم نزدیک به 30 درصد. هر چی بیشتر ببری رو کارت گرافیک مصرف کارت گرافیک بیشتر میشه تا اونجا که دیگه GPU نیاز نباشه منتظر CPU وایسه که چون که من نمی‌دونم نحوه ارتباطشون دقیقا چطوری هست نمی‌دونم ممکن هست با نه.

    ممنون از توضیحاتتون 
    طبق چه اصولی  تعداد لایه هارو تشخیص میدین و تقسیم بار میکنید ؟
    ایا ممکنه سایر فایل های gguf رو هم قرار بدین ؟ 

    پاسخ:
    خواهش می‌کنم
    من اول میام نگاه می‌کنم که چقدر به context نیاز دارم، اگه فقط یه سوال جواب بود ۲۰۰۰ میذارم، اگه خواستم مثلا یه متن بلندتر بدم که چیزی ازش استخراج کنه، ۱۰۰۰۰ میذارم. بعد اونقدری میبرم رو کارت گرافیک که تهش 200 مگ خالی بمونه.
    اگه مدل بیشتر خواستی توی https://git.ir/article/ollama-setup مدل هست، فایل‌های ollama داخلشون رو نگاه کن یک فایل فشرده هست که می‌تونه توش GGUF باشه، من چک نکردم اون فایل‌ها رو به غیر از Gemma 1b مطمئن نیستم.
    مدل‌هایی دیگه‌ای که من دارم خیلی بکار نمیاد، NVIDIA Nemotron که دارم رم کمتر مصرف میکنه ولی خیلی کنده و LFM2 که خیلی خوب جواب نمیده از همون لینک Qwen3 8b بهتر جواب میده.

    ارسال نظر

    ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
    شما میتوانید از این تگهای html استفاده کنید:
    <b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
    تجدید کد امنیتی