2.1.1
Gestión de fallos de la memoria
Hay varias funciones que actúan en la configuración del subsistema de memoria y la
forma en que se gestionan los fallos de la memoria. Es necesario comprender estas
funciones para identificar y reparar los problemas. En esta sección se describe cómo
actúa el servidor con los problemas de la memoria.
Nota – Para obtener información sobre la configuración de la memoria, consulte la
Sección 5.2, "Referencia de la configuración de los FB-DIMM" en la página
El servidor utiliza la tecnología avanzada ECC que corrige hasta 4-bits erróneos de
medio byte, siempre que se encuentren en la misma DRAM. En los módulos FB-
DIMM de 2 GB y 4 GB, si falla una DRAM, el DIMM continúa funcionando.
Las siguientes funciones del servidor gestionan de manera independiente los fallos
de la memoria:
POST: de acuerdo con las variables de configuración de ILOM, las pruebas POST
■
se ejecutan cuando se enciende el servidor.
En el caso de errores corregibles de la memoria (CE), POST envía el error al
daemon de reparación automática predictiva de Solaris (PSH) para su gestión.
Si se detecta un error de memoria no corregible, POST muestra el error con el
nombre del dispositivo cuyo módulo FB-DIMM tiene errores y registra el fallo.
POST desactiva el FB-DIMM defectuoso. Según la configuración de la memoria y
la posición del FB-DIMM defectuoso, POST desactiva la mitad de la memoria
física del sistema, o la mitad de la memoria física y la mitad de hilos del
procesador. Cuando ocurra este proceso de desactivación durante el
funcionamiento normal, deberá reemplazar los FB-DIMM defectuosos de acuerdo
con el mensaje de error y activar los FB-DIMM que se hayan desactivado con
el comando de ILOM set dispositivo component_state=enabled donde
dispositivo es el nombre del FB-DIMM que se desea activar (por ejemplo, set
/SYS/MB/CMP0/BR0/CH0/D0 component_state=enabled).
Tecnología de reparación automática predictiva de Solaris (PSH) : esta función
■
del sistema operativo Solaris hace uso del daemon Fault Manager (fmd) para
detectar varios tipos de fallos. Cuando ocurre un fallo, se le asigna un ID
exclusivo (UUID) y queda registrado. PSH lo comunica y sugiere una
sustitución de los FB-DIMM asociados con el fallo.
Si sospecha que el servidor tiene un problema de la memoria, siga las indicaciones
del diagrama (consulte la
El comando show faulty enumera los fallos e indica los FB-DIMM específicos
asociados.
). Ejecute el comando show faulty de ILOM.
FIGURA 2-1
Capítulo 2 Diagnósticos del servidor
5-13.
2-7