בינה מלאכותית אגנטית לתשתיות GPU

זיהוי. ניתוח.
התראה. תיקון.

מודעות מצבית מלאה לאשכול ה-GPU שלך.

GPUPilot מנטר את כל אשכול ה-Kubernetes שלך — מזהה חריגות בזמן אמת, מנתח שורשי בעיות עם AI, מתריע לצוות שלך, ומתקן בלחיצה אחת.

כניסה ← איך זה עובד

RKE2OpenShiftGKEEKSAKSVCFRancherK3sRun:aiDCGM

הלולאה הסגורה

חיבור

פקודת kubectl אחת. סוכן לקריאה בלבד. פריסה ב-30 שניות.

זיהוי

+30 מטריקות DCGM, פודים, לוגים, אירועים. כל 30 שניות. שום דבר לא מפספס.

ניתוח

Claude AI חוקר כל חריגה. מתאם אירועים, מזהה שורש הבעיה.

התראה

Slack מיידי עם אבחון, חומרה ותיקון. לפני שפתחת את הדשבורד.

תיקון

אישור בלחיצה או תיקון אוטומטי. כל פעולה מתועדת וניתנת לביקורת.

זיהוי ותיקון בזמן אמת

כל חריגה מפעילה חקירת AI, התראת Slack ותיקון מוצע — אוטומטית.

🔴

זוהתה שגיאת XID

תקלת GPU ב-dgxb200:GPU3. AI: אי-התאמת דרייבר לאחר עדכון.

אשר תיקוןkubectl drain dgxb200 --ignore-daemonsets

🔴

שגיאת ECC כפולה

תקלת זיכרון בלתי ניתנת לתיקון ב-GPU 5. מיפויים מחדש: 3/4. כשל צפוי תוך שבועיים.

אשר RMAהחלפה מונעת

🟠

ירידה בניצולת GPU

87% ל-12% תוך 5 דקות. מתזמן תקוע על node affinity.

תוקן אוטומטיתAffinity הורחב, עבודות תוזמנו מחדש

✅

צומת שוחזר

worker-07 חזר לפעולה. קושחת NVSwitch עודכנה. 4 עבודות חודשו.

נפתרהשבתה: 4 דקות 12 שניות

מה GPUPilot מנטר

GPU UtilizationVRAM UsageTemperature Power DrawXID ErrorsECC (SBE/DBE) Row RemapsPCIe ReplaysNVLink Bandwidth SM/Mem ClocksRun:ai JobsPod Logs K8s EventsConfigMapsNode Conditions PVCsNetwork PoliciesResource Quotas DeploymentsStatefulSetsDaemonSets

בריאות GPU חזויה

XID Errors

Driver fault codes

DBE (Agg)

Uncorrectable ECC

Row Remaps

0/4

Before RMA

PCIe Replays

Bus retransmits

SBE (Volatile)

Corrected errors

Temperature

72°

Throttle at 85°C

Power Cap

850W

Of 1000W limit

Fleet Health

7/8

GPUs healthy

שאל כל דבר

You: Why is my training job stuck?

Checking cluster events...

Reading GPU metrics...

Analysing Run:ai state...

Job pslab-training is pending because GPU quota is
exhausted. Project pslab has 8/8 GPUs allocated.
Job is queued behind 2 higher-priority jobs.

Additionally, GPU 3 on dgxb200 has 2 uncorrectable
row remaps — recommend pre-emptive RMA before it
fails mid-training.

$ kubectl get runaijobs -n runai-pslab

$ kubectl describe node dgxb200 | grep -A5 gpu

מוכנים לסגור את הלולאה?

סוכן אחד, קריאה בלבד, פריסה ב-30 שניות. עובד עם כל אשכול NVIDIA GPU על Kubernetes.

בקרוב גם בסביבות מנותקות (Air-Gap)

כניסה ←

זיהוי. ניתוח.התראה. תיקון.