DCIM: el aniquilador de servidores "zombis"

Los servidores zombi se presentan de muchas maneras. No obstante, se pueden identificar fácilmente: todos consumen energía, valioso espacio, y capacidad de enfriamiento. Algunos se pueden rehabilitar. Esta es la pregunta que debe hacerse: si han estado tanto tiempo inactivos sin impacto positivo, ¿no será tiempo de desconectarlos? Emerson Network Power comparte las mejores habilidades para identificar y eliminar los servidores zombis del centro de datos.
Por Jack Pouchet | Vicepresidente de Desarrollo de Mercados en Emerson Network Power
Zombi se le llama al servidor "en coma", huérfano, inactivo o poco utilizado. Cada una de estas categorías de dispositivos tiene un impacto negativo similar en la productividad del centro de datos y en el consumo total de energía. Asimismo ocupan valioso espacio en los racks y costosos recursos de potencia y de aire acondicionado.
Gracias a un sistema de distribución de energía inteligente, que trabaja en conjunto con una solución de DCIM de gestión de activos de TI, se puede monitorear cada enchufe de las PDU para encontrar y eliminar esos zombis.
¿Nuestra arma? Una aplicación de DCIM (Gestión de la Infraestructura de los Centros de Datos, por sus siglas en inglés) con base en reglas y políticas que reducen el consumo total de energía dentro del centro de datos. Por consiguiente se libera valioso espacio, energía eléctrica y capacidad de enfriamiento.

La lista de servidores zombi que consumen energía

Categoría
Estado de DCIM
Estado de la red
Estado de propiedad
Uso / Carga
Zombi
En DCIM*
No en DNS
Propietario desconocido
Sin carga
Huérfano
En DCIM*
En DNS
Sin Propietario
Sin carga
Abandonado
En DCIM*
En DNS
Con Propietario
Sin carga
Poco Utilizado
En DCIM*
En DNS
Con Propietario
Poco Uso
Fantasma
Sin DCIM
No en DNS
Propietario desconocido
Desconocido
*DCIM le da el beneficio de la duda

Hay una larga lista de zombis: increíblemente, el centro de datos, la sala de computadoras y el armario de red promedio pueden tener un 30 por ciento de servidores en alguna de estas categorías.
Desarrollar un aniquilador de zombis automático con base en políticas y reglas es relativamente sencillo. De hecho, se justifica la inversión en este aniquilador de zombis, en términos de tiempo y recursos, como parte de la actualización de una suite existente, o como parte de la implementación de una solución integral de DCIM. 
Todo comienza con la determinación de algunos puntos clave del perfil de consumo de energía de sus servidores: dormidos, inactivos, en modo de ahorro de energía (Aplicación OEM), carga parcial, modo normal, y pico. Entonces, validamos esta información una vez que se determinaron los perfiles dentro del centro de datos gracias a un medidor de potencia en los enchufes de las PDU inteligentes. Se establece un grado de certeza (precisión del medidor además de un pequeño margen de seguridad) y se comienza a recolectar datos en tiempo real gracias a la interfaz de la PDU y de DCIM.
Permita que sus servidores se normalicen y se asienten en la "producción". Una vez que estén funcionando normalmente, se deben recolectar más datos para comenzar a desarrollar las reglas y políticas. Una regla importante será la definición de "inactivo" para esta clase específica de servidores y aplicaciones. Sus datos podrían mostrar que el consumo energético del servidor es de 2,5 amperios a 208V CA (si asumimos que el UPS tiene una regulación estricta del voltaje). En algunos casos, los datos reales y de prueba pueden indicar una "carga baja" en 2,9 amperios, y el modo "normal" por encima de los 3,3 amperios. Entonces, debe configurar el monitoreo con DCIM para que se active un reloj cuando el dispositivo cae a 2,5 amperios y que este se resetee cuando el servidor exceda los 2,8 amperios, lo cual facilita determinar la precisión, desviación, incertidumbre, etc.
Ahora tenemos el sello de tiempo y el reloj para determinar cuándo un servidor está inactivo. El informe de Koomey sugiere que un servidor zombi o en coma es aquel que sin demandas de red o acciones ejecutables durante más de seis meses. Pero no hay razón para esperar tanto tiempo para tomar una acción. Recomendamos agregar una serie de reglas adicionales en la solución de DCIM. Estas reglas deben alertar a los 30 o 60 días el estado de servidores inactivos a la administración local de TI y al propietario identificado. Si no se identifica el propietario, se comienza una búsqueda diligente.
Al llegar a los 90 días de un estado inactivo continuo, los administradores de TI reciben un informe, y si el servidor sigue inactivo a los 120 días de inactividad, el gerente de las instalaciones o de TI puede apagarlo. Al llegar a los 150 días inactivo, el sistema de DCIM enviará una notificación que avisa sobre el inminente apagado del servidor. A los 180 días, la herramienta de DCIM apagará cualquier servidor que quede en modo inactivo.
Sus reglas y políticas variarán. Quizás 90 días sea mucho tiempo: la excepción podría ser el caso en que el servidor es una instalación inicial. Esta situación podría suponer que es tiempo de instaurar políticas más estrictas para implementar software y hardware de TI. Usted podría considerar implementar un programa de 30/60/90 días y darle a la solución de DCIM toda la autonomía de apagar cualquier servidor que se mantiene inactivo durante 90 días.
En este punto, tenemos los recursos básicos para automatizar la identificación de servidores zombi, los informes y el apagado. Todo lo que falta es quitar el servidor, limpiar los datos y devolvérselo al proveedor (o contratista autorizado) para que se deseche de manera responsable. Como consecuencia, hemos liberado los recursos de los sistemas críticos de potencia y de aire acondicionado en el centro de datos y hay espacio para los nuevos y más poderosos servidores, capaces de manejar las cargas vitales de la compañía. Ahora puede automatizar de manera efectiva los componentes claves de Energy Logic 2.0.
La seguridad cibernética debe ser una prioridad. Por favor, tome en cuenta las implicaciones asociadas de una infraestructura conectada a la red, pues existen personas mal intencionadas en internet. Tal vez quiera tomar en cuenta una red fuera de banda para su infraestructura crítica. Consulte a su experto en seguridad de DCIM antes de pasar los firewalls.

Acerca del autor: Jack Pouchet es Vicepresidente de Desarrollo de Mercados en Emerson Network Power. Durante los últimos 20 años, ha trabajado de cerca con grandes fabricantes de servidores, usuarios de grandes centros de datos y firmas de ingeniería líderes en aplicaciones críticas para ayudar a definir, crear y construir oportunidades para avanzadas tecnologías de potencia y enfriamiento que mejoran la eficiencia operativa. Pouchet también trabaja como un columnista invitado para Environmental Leader, y ha publicado varios artículos en numerosos medios de la industria, como por ejemplo: ASHRAE, AFCOM, Mission Critical, Electrical Contractor, EE Times y Data Center Journal. También es un presentador frecuente en eventos de TI y ha jugado un rol clave en desarrollar Energy Logic 2.0, un enfoque neutral para reducir el consumo energético del centro de datos. Es miembro de Green Grid.

No hay comentarios.

Imágenes del tema de enot-poloskun. Con tecnología de Blogger.