Administración de errores
En este capítulo se definen las siguientes funciones de administración de
errores:
•
Administración y registro de errores
•
Mensajes de error y códigos de error
Administración y registro de errores
En esta sección se define cómo el BIOS del sistema administra los errores,
incluido un análisis de la función del BIOS en la administración de errores y la
interacción entre el BIOS, el hardware de la plataforma y el firmware de
administración del servidor con respecto a la administración de errores.
Además, se describen las técnicas de registro de errores.
Orígenes y tipos de errores
Uno de los principales requisitos de administración de servidores es
administrar correctamente y de forma coherente los errores de sistema. Los
errores de sistema que puede activarse y desactivarse de forma individual o
como un grupo se pueden categorizar como se indica a continuación:
•
Error de bus de PCI Express
•
Errores de uno o varios bits
•
Los errores detectados durante la POST, se registran como errores de
la POST
La BMC administra los sensores. La BMC es capaz de recibir mensajes de
evento de sensores individuales y de registrar eventos del sistema. Para
obtener más información sobre los errores registrados de la BMC, consulte
la Especificación de la BMC.
Registro de errores mediante el controlador de SMI
El controlador de SMI se utiliza para administrar y registrar eventos al nivel
del sistema que no son visibles para el firmware de administración del
servidor. El controlador de SMI pre-procesa todos los errores del sistema,
incluso aquellos que normalmente se consideran para generar una NMI.
El controlador de SMI envía un comando al BMC para registrar el evento y
proporciona los datos que se registrarán. Por ejemplo, el BIOS programa el
hardware a fin de generar un SMI en una memoria de un solo bit y registra el
número de DIMM en el registro de eventos del sistema. Una vez que el BIOS
62
Uso del programa de configuración del sistema