Descargar Imprimir esta página

Lenovo ThinkSystem SD665-N V3 Neptune DWC Guia Del Usuario página 375

Publicidad

Comprobación de estado de GPU y placa de GPU
El siguiente estado del sensor por ipmitool indica que el estado de las GPU y de la placa de la GPU es
normal.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
El resumen de la utilidad nvidia-smi indica que hay 4 GPU en línea.
Figura 421. nvidia-smi
El sistema no puede detectar la placa de la GPU
Cuando el suceso Sensor GPU Board has transitioned to critical from a less severe state aparece en el
registro de sucesos web de XCC, indica que el sistema no puede detectar la placa de la GPU. Siga estos
pasos para resolver el problema.
1. Realice un ciclo de alimentación del sistema.
2. Compruebe los sucesos relacionados con la entrada de alimentación en XCC y SMM2 (consulte
pubs.lenovo.com/mgt_tools_smm2/c_power
3. Compruebe la temperatura del sistema y el flujo de agua. Compruebe si hay fugas y desconecte y
vuelva a conectar el sistema de refrigeración por agua.
4. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte
GPU y placa de GPU" en la página
5. Uno de los siguientes elementos indica que el problema se ha resuelto:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) en los mensajes de XCC
• Sensor GPU Board has transitioned to normal state en el registro web
).
367).
"Comprobación de estado de
.
Capítulo 8
Determinación de problemas
https://
367

Publicidad

loading