crítico, la sesión se cierra de forma regular. En caso de que falle el controlador del
sistema de ALOM, se utilizan sensores auxiliares para proteger el sistema de
posibles daños graves mediante un apagado forzoso del servidor.
Todos los mensajes de error y advertencia se envían a la consola del sistema y se
registran en el archivo /var/adm/messages. Los LED de Mantenimiento
permanecen encendidos después del cierre automático del sistema para facilitar el
diagnóstico del problema.
El subsistema de alimentación se monitoriza de manera similar. Sondea el estado de
las fuentes de alimentación de forma periódica e indica si todas ellas se encuentran
presentes y si sus entradas y salidas se encuentran en buen estado.
Si se detecta un problema en una fuente de alimentación, se envía un mensaje de
error a la consola del sistema y se registra en el archivo /var/adm/messages.
Asimismo, los LED de cada fuente de alimentación se iluminan para indicar la
existencia de un problema. Por su parte, los LED de Mantenimiento del sistema se
iluminan para indicar una avería en el sistema.
Recuperación automática del sistema
El sistema proporciona funciones para restablecer automáticamente el
funcionamiento (automatic system recovery o ASR) tras el fallo de los módulos de
memoria y las tarjetas PCI.
La recuperación automática permite al sistema reanudar el funcionamiento tras
experimentar determinados fallos o errores no críticos del hardware. Una serie de
funciones de autocomprobación le sirven para detectar los componentes de
hardware que han fallado. Una función de autoconfiguración diseñada en el
firmware de inicio del sistema permite a éste desconfigurar el componente afectado
y restablecer su funcionamiento normal. Siempre que el sistema pueda continuar
funcionando sin el componente desconfigurado, la función ASR hará que se reinicie
automáticamente, sin necesidad de que intervenga el operador.
Si, durante la secuencia de encendido se detecta un componente defectuoso, éste se
marca como averiado y, si el sistema puede funcionar, el proceso de inicio continúa.
En los servidores en funcionamiento, algunos tipos de fallo pueden provocar el
cierre del sistema. Si esto ocurre, la función ASR les permite reiniciarse
inmediatamente en caso de que sea posible detectar el componente defectuoso y
seguir funcionando sin él. Esto evita que un componente de hardware averiado
cause el cierre de todo el sistema o que el sistema se bloquee continuamente.
Capítulo 2 Funciones de fiabilidad, disponibilidad y facilidad de mantenimiento
39