En varios lugares donde me ha tocado ver los procesos de resolución de incidente ver la misma situación estamos tan acostumbrados a apagar incendios que nos olvidamos de la prevención, entonces comienzan mas amagos de incendios y vamos a apagarlos con un alto desgaste.

Todo comienza en la mesa de ayuda el agente de soporte es la cara visible del servicio algo así como la primera trinchera este debería recopilar la mayor cantidad de información evidencia, pantallazos todo lo que sirva por si este es escalado a la trinchera de atrás de tanto pasar de mano en mano y con poca información se llama de nuevo a el usuario o cliente interno en esto se va perdiendo tiempo de resolución y el incidente se va degenerando.

El usuario no es nuestro enemigo, el usa un servicio que la compañía proporciona nosotros en plataforma TI estamos para que una este disponible, seguro y que el Cliente este conforme con el uso de este, imaginen el caso de un cajero si su sistema anda lento la cola de atención también poco a poco el comienza a pensar en cambiar de banco estamos insertos dentro de una cadena de domino hay que caminar a un servicio de Clase Mundial.

Algunos Vicios:

Incendio declarado!!!

Como no se hizo prevención cuando hubo el primer amago el fuego comenzó de nuevo y un tic-tac como el cocodrilo de peter pan tenemos en la línea a el usuario que llego a nosotros haciendo un bypass de la mesa de ayuda con una garrocha salto la primera trinchera y llego a la segunda aquí hay un indicio de la poca confianza en esta que es burocrática y no resuelve a tiempo en este punto se le indica a el usuario que genere un ticket esto esta mal lo que se le debería decir que llame a la mesa de ayuda por otro lado el incidente escala por la jefaturas es aquí cuando llega el gerente del área indicando que hay un problema.

en este escenario si no esta el hombre almanaque que conoce la infraestructura de pe a pa que dios nos pille confesados aquí tendríamos que tener la documentación de el servicio afectado y dependencias, que servidores involucra, puertos y flujo de la información, mas información del Jefe de proyecto y dueño de la aplicación, escalamientos la idea que se pueda recuperar la disponibilidad de este servicio lo mas rápido posible para que hablar de planes de contingencia.

Una vez que se apaga el incendio en el peor de los casos comienza la casa de brujas esta energía debería usarse para recopilar la mayor evidencia de log, evento y que puede estar pasando además esta información debería ir a la ficha del sistema esto no debería terminar aquí esta es la oportunidad para hacer prevención y que no vuelva a ocurrir.

 

Uso de modelo OSI para resolución de incidentes y problemas.

Muchos de los incidentes son generados en las primeras capas del modelo que un usuario se conecte a un servidor web y este de timeout por no dar con la base de datos es un indicio de aquello tengo mi teoría sobre esto se instalaron las redes estas andaban bien a un 50% de capacidad luego vino la telefonía IP y tenemos redes a 75% de capacidad si a esto le agregas parches y distribución de aplicativos ya la mataste, existen equipos que hacen balanceo de carga según protocolos yo puedo indicar que por ejemplo el http tenga mayor prioridad que otra información en la red.

 

Gestión de recursos de almacenamiento

Hay que usar CUOTAS no podemos dejar que los discos se llenen especialmente el disco C: este debería ser sagrado varios incidentes parten desde aquí los volúmenes no se pueden llenar sin control

 

Definición de ámbito productivo

Toda maquina que esta en producción debe ser respaldada, actualizada, monitoreada y contar con antivirus. me toco ver una maquina de qa productiva esto no puede pasar. después de esto podemos hablar de planes de contingencia.

 

estamos muy metidos en lo técnico o en lo bomberil debemos subir una capa y pensar como mejorar la gestión haciendo prevención de incendio así los incendios disminuirán y la evaluación de los usuarios del servicio mejorara tenemos que volcarnos a tener usuarios contentos que pagan nuestro sustento.

perdón por los tantos debería