Recuperación de desastres, una visita al infierno del software y como todo sale bien en SharePoint
La semana pasada fue semana de parches de Microsoft, y para mi, ha sido una semana en la que el infierno de Dante se me ha quedado chiquito. Mi servidor personal recibe los parches mensuales de Microsoft automáticamente, pero no los instala sin mi permiso. Al final de la semana, revisando sus registros (por pura curiosidad... siempre me llama la atención ver la cantidad de idiotas que pretenden crackear servidores), instalé los últimos parches llegados, y, sorpresa, sorpresa, el servidor no se pudo recuperar en el reboot: nada de nada, solo una pantalla azul de lo más bonita:
Después del pánico inicial, y de intentar todo lo que se me ocurrió (inclusive ni siquiera arrancaba en modo seguro), supuse que algo había salido muy mal en la instalación de los parches, pues el servidor lleva funcionando años sin poner ningún problema, y desde hace más de un año con Windows Server 2003 R2 sin protestar. El servidor tampoco tiene mucho: un servidor de mail (mDaemon), mi instalación personal de SharePoint (WSS 2007), mi deposito de código fuente (Subversion), y una serie de sitios en IIS (DotNet 1.1 y 2.0 y algunos sitios en HTML). Nada importante, dirían ustedes, pero si pierdes tu correo, toda la información que has guardado durante años en WSS y todo tu código fuente, tienes un problema de aquí al otro lado...
Pasado un día y tres nuevas instalaciones en otro servidor, eliminando todas las posibles variables del problema (hardware, software, el gato negro que pasó por debajo de la escalera, etc), las sospechas se confirmaron: si tienes instalado el FireWall ZoneAlarmPro versión 6.5.737.000 en un Windows Server 2003 R2, e instalas el parche MS07-058: Vulnerability in RPC Could Allow Denial of Service (933729), Windows Server 2003 R2 simplemente deja de funcionar, sin posibilidades de recuperación...
Update: Lo acabo de probar en otro servidor (Windows 2033 R2 acabado de instalar y ningún otro programa) con la última versión de ZoneAlarmPro (7.0.408) con los mismos resultados.
Afortunadamente todas las copias de respaldo estaban actualizadas y disponibles, así que no era “más que” instalarlo todo e intentar recuperar la información. Una vez más, SharePoint me ha sorprendido, esta vez favorablemente. Por supuesto que conocía la teoría de recuperación de desastres de WSS, me he leído documentos y documentos al respecto y, por supuesto, le he contestado preguntas a muchos clientes al respecto. Pero una cosa es hablar de caminar por la cuerda floja, y otra caminar por la cuerda floja, y en este caso era MI información la que estaba en peligro.
Pues bien: instalar SQL, hacer un attach de la Base de Datos de contenido de WSS, crear las cuentas de los usuarios de la misma forma que en el servidor viejo, instalar WSS en el mismo puerto que la instalación anterior, ir a la Administración Central -> Administración de aplicaciones -> Bases de datos de contenido, agregar la Base de Datos recuperada en SQL y... redoble de tambor... todo está allí de nuevo! No es necesario ni siquiera revisar los usuarios, todo funciona a la perfección; inclusive un par de manejadores de eventos que le he puesto están configurados y listos para funcionar (después de instalar los dlls en el GAC del nuevo servidor, por supuesto)... a veces te vas a la cama, a las tres de la mañana, después de 18 horas detrás del computador, con una sonrisa de oreja a oreja...
Para acabar rápido, la instalación y recuperación del correo también fue un trabajo de minutos, y después de un par de horas de lucha (por mi propia culpa, la configuración que estaba usando estaba equivocada), Subversion y mi código fuente también estaba listo para ser usado.
En cualquier caso, como me decía un amigo que me ayudo mucho en el trabajo, en estos días es mucho lo que he aprendido... tener copias de respaldo actualizadas de todo (siempre se lo recomiendas a todo el mundo, pero solo hasta que te pasa, entiendes porque son necesarias), mantener los servidores lo más limpios posible (nada de pruebitas de esto o de aquello, solo cosas que funcionan y que están probadas) y, lo que ahora estoy preparando pues nunca lo había hecho, tener una estrategia de recuperación de desastres (si te vuelve a pasar, poder estar de nuevo en el aire en cuestión de horas, no de días) que incluya documentación con los pasos detallados de instalación y configuración de todo. Y cruzar los dedos para que en los próximos parches no salgan sorpresas sorpresivas...
Gustavo - http://www.gavd.net/servers/
Escriba un Comentario que me haga reir...