Mejor prevenir que curar, mejor monitorear que lamentar
Las aéreas de infraestructura dentro de las organizaciones (grandes / medianas / pequeñas) tienen tareas rutinarias, que de no llevarse a cabo con criterio, y con la debida atención, pueden generar grandes pérdidas. El monitoreo de servidores, servicios y demás hardware nos permitirá conocer su estado actual y anticiparnos a posibles incidentes. Como siempre aquí les dejo algunas experiencias y opiniones que podrán resultarles útiles.
Monitoreo, ¿de qué se trata?
Los administradores de sistemas pasan gran parte de su tiempo revisando el estado de los servicios, servidores, enlaces, routers, medios de almacenamiento, y otros tantos dispositivos para garantizar su correcto funcionamiento (o dentro de los parámetros normales). Es así que el buen administrador logrará detectar, anticiparse y mitigar problemas que pudieran ocasionar una baja de servicio o funcionamiento. Conocido es, que estos (silenciosos y poco reconocidos) profesionales ayudan a las empresas a lograr la disponibilidad necesaria para llevar adelante el negocio diario.
Trabajo de Rutina
Este trabajo de verificación / monitoreo debe ser constante, poco útil será conocer que el servidor de producción del sitio de comercio electrónico se encuentra “caído” hace 3 días. El profesional que realiza el monitoreo debe seguir un esquema de trabajo e implementarlo diariamente (en aplicaciones criticas este seguimiento llega a ser minuto a minuto). Es por eso que dicho profesional se ve tentado en ocasiones a pasar por alto algunas pruebas de rutina, con el consiguiente peligro que ello puede acarrear.
Administrador: “el reporte de ayer dice que hace 594 días que el sistema responde correctamente, para que lo voy a verificar hoy?”
Cliente: “hace 2 horas que intento comprar este producto desde la web y el sistema no anda”
Listas de control (Checklist)
Un gran aliado para el profesional de administración de sistemas son las llamadas listas de control o checklist, donde se detalla paso a paso las tareas en orden secuencial que se deben verificar. Esta lista nos ayuda a no olvidar tareas que de otra forma podrían quedar “huérfanas” y sin control. Seguramente en la lista encontraremos las principales tareas, pero lo más importante es que también figuren las otras tareas, “las cosas pequeñas”, a las que quizás un nuevo integrante del departamento no les prestaría atención por insignificantes.
Administrador #1 (nuevo): “la red funciona correctamente, el servidor de correo responde, el anti-spam también, el antivirus esta actualizado, no hay mails encolados… ¿por qué no entran los mails?”.
Administrador #2: “el espacio en el disco rígido es de 3 MB”.
Algunas herramientas
Pasar cuatro (4) horas de un día revisando los servidores y demás hardware relacionado con los servicios de la empresa, es una tarea desgastante y desmotivadora. Para beneficio de la empresa y del administrador, existen en el mercado muchas herramientas (pagas y gratuitas) que nos permitirán realizar estas tareas de control de forma automatizada y segura (seguramente que si fallan la responsabilidad también será nuestra, por lo tanto no descansaría 100% en ellas, recordemos que son herramientas que ayudan, pero no reemplazan al administrador).
Gratuitas:
- Nagios
- Performance Monitor (Viene dentro de Windows Server)
- Zenoss
- Pandora FMS
- OP5
Pagas:
- System Center Operations Manager (SCOM de Microsoft)
- WhatsUp de IPSWITCH
- Tango04 / Barcelona04
- Splunk
- Servers Alive de WOODSTONE
- OpManager
Todas estas herramientas analizan logs y generan reportes que luego podremos utilizar para entender cuál es el problema, y atacar el origen del mismo.
Siempre Listo
Gracias a muchas de estas herramientas, podemos conocer al instante el estado de situación de nuestros sistemas, recibir alertas (ante fallas; baja de rendimientos), aplicar acciones correctivas, obtener métricas tanto de uso, fallas, niveles de servicio, etc.
El abanico de opciones que se nos abren es ilimitado y nos brindan herramientas que harán que estemos un paso adelante, y conocer al detalle cada rincón. No contar con este tipo de herramientas a veces resulta más caro que el costo de adquisición (licencias + capacitación). Que nuestra empresa no pueda operar por 1 hora, o que nuestros vendedores pierdan una venta no es una opción que nos podamos permitir, un cliente insatisfecho no regresa y nuestra imagen se deteriora. Solucionar problemas sobre la marcha es costoso y peligroso, prevenirlos es la mejor inversión que podemos hacer.
Informes, ¿sirven para algo?
Vital importancia cobran los informes que obtendremos de herramientas de monitoreo, no solo porque dicha información nos permitirá conocer el estado actual, sino que nos ayudará a tomar decisiones fundadas. La información es poder, y saber que a este ritmo, por ejemplo, tendremos que comprar un servidor de almacenamiento en 6 meses, nos permitirá adelantarnos y manejar de una forma ordenada nuestro presupuesto. Las métricas que obtendremos nos ayudaran a tener un mejor control, gestionar riesgos, cumplir niveles de servicios (detectar desvíos) y por sobre todo podremos enfocarnos en generar valor para la empresa.
Conclusiones
Administrar los riesgos es una tarea compleja, pero para poder hacerlo primero debemos conocer cuáles son esos riesgos. Monitorear los servicios, servidores y demás hardware es una tarea tediosa y rutinaria, pero que si no logramos manejar, no podremos brindar un servicio óptimo a nuestros clientes.
Las empresas deben aprovechar todas las herramientas a su alcance para lograr dicha tarea, conseguir métricas y “resolver hoy problemas futuros” ya no es una opción, más bien es una obligación.
Adquirir equipamiento para poder anticiparnos a demandas (que ahora sabremos que ocurrirán) permitirá a nuestra empresa brindar mejores productos o servicios, con gastos programados, ordenados y certeros.
Pablo Ariel García

