בינה מלאכותית אגנטית לתשתיות GPU

זיהוי. ניתוח.
התראה. תיקון.

מודעות מצבית מלאה לאשכול ה-GPU שלך.

GPUPilot מנטר את כל אשכול ה-Kubernetes שלך — מזהה חריגות בזמן אמת, מנתח שורשי בעיות עם AI, מתריע לצוות שלך, ומתקן בלחיצה אחת.

כניסה איך זה עובד
RKE2OpenShiftGKEEKSAKSVCFRancherK3sRun:aiDCGM

הלולאה הסגורה

01

חיבור

פקודת kubectl אחת. סוכן לקריאה בלבד. פריסה ב-30 שניות.

02

זיהוי

+30 מטריקות DCGM, פודים, לוגים, אירועים. כל 30 שניות. שום דבר לא מפספס.

03

ניתוח

Claude AI חוקר כל חריגה. מתאם אירועים, מזהה שורש הבעיה.

04

התראה

Slack מיידי עם אבחון, חומרה ותיקון. לפני שפתחת את הדשבורד.

05

תיקון

אישור בלחיצה או תיקון אוטומטי. כל פעולה מתועדת וניתנת לביקורת.

פריסה ב-30 שניות

kubectl apply -f https://gpupilot.io/api/install/YOUR_TOKEN

זיהוי ותיקון בזמן אמת

כל חריגה מפעילה חקירת AI, התראת Slack ותיקון מוצע — אוטומטית.

🔴

זוהתה שגיאת XID

תקלת GPU ב-dgxb200:GPU3. AI: אי-התאמת דרייבר לאחר עדכון.

אשר תיקוןkubectl drain dgxb200 --ignore-daemonsets
🔴

שגיאת ECC כפולה

תקלת זיכרון בלתי ניתנת לתיקון ב-GPU 5. מיפויים מחדש: 3/4. כשל צפוי תוך שבועיים.

אשר RMAהחלפה מונעת
🟠

ירידה בניצולת GPU

87% ל-12% תוך 5 דקות. מתזמן תקוע על node affinity.

תוקן אוטומטיתAffinity הורחב, עבודות תוזמנו מחדש

צומת שוחזר

worker-07 חזר לפעולה. קושחת NVSwitch עודכנה. 4 עבודות חודשו.

נפתרהשבתה: 4 דקות 12 שניות

מה GPUPilot מנטר

GPU UtilizationVRAM UsageTemperature Power DrawXID ErrorsECC (SBE/DBE) Row RemapsPCIe ReplaysNVLink Bandwidth SM/Mem ClocksRun:ai JobsPod Logs K8s EventsConfigMapsNode Conditions PVCsNetwork PoliciesResource Quotas DeploymentsStatefulSetsDaemonSets

בריאות GPU חזויה

XID Errors
0
Driver fault codes
DBE (Agg)
0
Uncorrectable ECC
Row Remaps
0/4
Before RMA
PCIe Replays
12
Bus retransmits
SBE (Volatile)
3
Corrected errors
Temperature
72°
Throttle at 85°C
Power Cap
850W
Of 1000W limit
Fleet Health
7/8
GPUs healthy

שאל כל דבר

You: Why is my training job stuck?

Checking cluster events...
Reading GPU metrics...
Analysing Run:ai state...

Job pslab-training is pending because GPU quota is
exhausted. Project pslab has 8/8 GPUs allocated.
Job is queued behind 2 higher-priority jobs.

Additionally, GPU 3 on dgxb200 has 2 uncorrectable
row remaps — recommend pre-emptive RMA before it
fails mid-training.

$ kubectl get runaijobs -n runai-pslab
$ kubectl describe node dgxb200 | grep -A5 gpu

מוכנים לסגור את הלולאה?

סוכן אחד, קריאה בלבד, פריסה ב-30 שניות. עובד עם כל אשכול NVIDIA GPU על Kubernetes.

בקרוב גם בסביבות מנותקות (Air-Gap)

כניסה

קבלו עדכונים על תכונות חדשות