Todos los mensajes de error y advertencia se envían a la consola del SC (controlador
del sistema) y se anotan en el archivo de registro de la consola de ALOM CMT.
Los LED de Servicio permanecen encendidos después del cierre automático del
sistema para facilitar el diagnóstico del problema.
La monitorización del subsistema de alimentación se realiza de forma similar,
controlando las fuentes de alimentación e indicando cualquier fallo a través de los
LED de los paneles frontal y posterior.
Si se detecta un problema en una fuente de alimentación, se envía un mensaje de
error a la consola del SC y se anota el evento en el archivo de registro de la consola
de ALOM CMT. Asimismo, los LED de cada fuente de alimentación se iluminan
para indicar la existencia de un problema. Por su parte, los LED de Servicio se
iluminan para indicar una avería en el sistema.
Corrección de errores y comprobación de la paridad
El procesador UltraSPARC T1 multinúcleo protege la paridad de las memorias
caché internas, lo que incluye la paridad de los campos de dirección y datos de las
cachés de instrucciones y datos. La caché L2 interna (3 MB) incluye protección de la
paridad para los campos de dirección (tag) y protección de los datos mediante ECC.
Una versión avanzada de la función ECC, también denominada Chipkill, corrige
hasta 4 bits erróneos de medio byte siempre que se encuentren en la misma DRAM.
Si una DRAM falla, el DIMM sigue funcionando.
Administración de errores y reparación
automática predictiva
El servidor incorpora lo último en tecnología sobre administración de fallos basada
en una nueva arquitectura que permite crear e implantar sistemas y servicios con
capacidad de reparación automática predictiva. La función de reparación automática
permite a los sistemas predecir con exactitud posibles fallos de los componentes y,
de esta forma, impedir la aparición de problemas más graves. Esta tecnología está
incluida en el hardware y el software del servidor.
La base de las funciones de mantenimiento predictivo del servidor es el software
Solaris Fault Manager, un nuevo servicio que recibe datos sobre errores del
hardware y el software, y diagnostica el problema subyacente de forma automática y
transparente. Una vez diagnosticado el problema, una serie de agentes responde
inmediatamente registrando el evento y, si es necesario, desactivando el componente
defectuoso. Gracias a este diagnostico automático, las aplicaciones y los servicios
vitales pueden seguir funcionando sin interrupciones en caso de fallos del software
o de componentes importantes del hardware.
9