lunes, 23 de diciembre de 2013

La dimensión adecuada del Centro de Datos Alterno

En ocasiones nos encontramos en reuniones con equipos responsables de la administración de las contingencias, donde nos hacen la siguiente pregunta: ¿Cuál es la dimensión adecuado del centro alterno de procesamiento de datos?
Basados en las experiencias, debemos decir que es una pregunta bastante común, en virtud que de antemano supone elaborar un presupuesto apreciable para dicho centro, el cual tendrá que ser defendido ante un comité compuesto por la alta gerencia, que no se siempre se sentirá cómodo observando los escenarios y los gastos que habrá que realizar. Y ante esta sensación de rechazo anticipado, los responsables de dimensionar el centro adecuadamente, comienzan a considerar que la adecuada proporción debe ser lo mínimo. 
Esta consideración puede ser el inicio de una serie de errores que conllevará a un final poco afortunado en el diseño de los centros de datos alternos. Esto porque realmente no se debe considerar los mínimo, sino lo básico. Aquello que permita poder restablecer los procesos críticos y fundamentales de una organización. Estos procesos no siempre son los que más dinero le pueden hacer perder más dinero a las organizaciones, también pueden ser aquellos que le pueden afectar severamente la reputación. 
Es por ello que debemos tener en consideración los siguientes aspectos:
  • Identificación de los procesos y activos de negocios que requieren más protección 
  • Determinar los costos que implique perder estos activos o que se genere una interrupción por un tiempo que exceda el tiempo óptimo de recuperación
  • Identificar las estrategias y alternativas de recuperación para los distintos escenarios de recuperación
  • Determinar la ingeniería de detalle para establecer el costo de la infraestructura que habrá de colocarse en el centro alterno
Los tres primeros puntos no representan mayor problema para quienes han tenido experiencia en el desarrollo de los planes de contingencia relacionados a los procesos de negocios y tecnología. El punto crítico es el relacionado con el diseño de la ingeniería de detalle y el gasto que se debe ejecutar para adquirir la infraestructura necesaria que permita hacer factible el proceso de recuperación cubriendo/mitigando la mayor cantidad de escenarios de interrupción.
Cuando se llega a este paso, nos encontramos con un conflicto entre los responsables de dimensionar el centro alterno y el deseo de las unidades del negocios; pues no es simple fijar el punto de equilibrio entre lo requerido por las unidades del negocio; determinado por lo general en los tiempos óptimos de recuperación (RTO) del punto 1; y el gasto que se debe ejecutar para satisfacer dicho RTO.
Las unidades del negocio tienden a ser inflexibles en cuanto a modificar y hacer más amplios sus rto's; sin embargo no se sienten comprometidas con la inversión que hay que hacer para recuperar los procesos en los tiempos exigidos. De igual manera, uno de los errores que se comenten por parte de los diseñadores de la arquitectura del centro alterno, es que no especifican con claridad, el punto de equilibrio entre las pérdidas ocasionadas por la interrupción de las operaciones del negocio y la inversión requerida para satisfacer dicho punto.
Un aspecto adicional que debe ser considerado, es el punto óptimo de recuperación (RPO); el cual permite determinar con detalle la práctica de respaldo y recuperación así como el tiempo de retención aplicado por la organización. Si este es muy bajo, podría requerir mayor inversión en respaldo, almacenamiento, replicación y procesamiento. Es por ello que lo recomendable no es sólo llegar a calcular cuanto se pierde si no sigue operando una empresa por un tiempo determinado. También es muy importante tener el detalle de cuanto cuesta reiniciar los procesos en los tiempos deseados por las unidades de negocios y sus interesados, dado que es ello quien permitiría establecer el margen de tolerancia y límites de riesgos, así como la cantidad de dinero a colocar para satisfacer el nivel básico que debe ofrecer un centro alterno. 

jueves, 19 de diciembre de 2013

La constante minimización de lo que nos puede pasar


El evento
Recientemente ocurrió un incidente en uno de los centros de procesamiento de datos más importantes de nuestro país. Allí se alojan los centros de cómputo principales y de contingencia de muchas empresas, algunos del sector financiero. Esto trajo como consecuencia que en forma inmediata no se procesaran al menos el 30% de las tarjetas de débito a través de los puntos de venta y la red de cajeros automáticos, prácticamente dejara de funcionar; así mismo los servicios de banca en línea de algunas instituciones dejó de funcionar. Era viernes en la tarde. 
El evento le tomo superarlo hasta 72 horas para algunas instituciones; algunas no recuperaron la totalidad de los servicios. Aun están procurando restablecer todos sus procesos para volver al nivel de prestación de servicios que tenían antes del evento. Porqué  un evento de estos genera tal situación, cuando desde hace más de dos años, particularmente para el sector financiero, se viene haciendo fuerte presión para que se establezcan adecuados planes de contingencia que mitiguen los efectos de un evento como el que sucedió.
Qué es lo que hace que se minimice tanto la posibilidad que un evento, que en el caso expuesto alcanzó no llegó ni cerca de ser un incendio severo, generó tanto trauma en los usuarios de los servicios financieros? Qué hace que se minimice tanto el efecto de lo que un simple incidente puede generar? 
Existen, muchos factores, pero siempre debemos tener en cuenta las causas que iniciaron los incidentes fueron las que los agravaron. Revisemos un concepto que se usa mucho recientemente por especialistas en manejo de contingencias para situaciones como el caso expuesto:
La resiliencia
Una condición fabulosa del ser humano, es el estar siempre esperanzado a que todo va a mejorar. Esto es lo que ha hecho que podamos sobrevivir, aunque la adversidad nos abrume, nos permite recuperarnos e ir adaptándonos a diversas realidades y entornos con el fin de superar barreras, que permitan suplir las condiciones para mantenerse y en ocasiones mejorar. Dicha condición puede ser identificada en el concepto de resiliencia, el cual hemos encontrado muy frecuentemente en documentación y bibliografía relacionada con la recuperación de desastres en la organización.
De acuerdo a los psicólogos, la resiliencia es la capacidad para afrontar la adversidad y lograr adaptarse bien ante escenarios trágicos, traumáticos o a entornos amenazantes. Las personas que son resilientes poseen unas características que son destacables, tales como: 
    Aceptan la realidad tal y como es 
    Tienen una profunda fe en la vida (esperanza)
    Tienen un impresionante voluntad y capacidad de mejorar
Adicionalmente se debe argumentar que los especialistas coinciden en que la resiliencia no es algo que una persona posea o no, sino que lleva implícito una serie de conductas y formas de pensar que cualquier persona puede aprender y desarrollar; por tanto, pudiese considerarse que efectivamente esta conducta se puede trasladar a las organizaciones y en consecuencia, hacerlas resilientes.
La resiliencia organizacional
Se presenta en la condición que tiene la empresa de realizar ajustes positivos en condiciones de fuerte exigencia y estrés. La resiliencia puede hacer que la organización se recupere de las dificultades, manejarse elásticamente ante presiones del entorno y preservar o mejorar su operación. La condición de resiliencia, no siempre debe ser vista como una condición exclusiva de recuperación de eventos calamitosos; alternativamente, esta provee la capacidad de identificar oportunidades y sacarles provecho.
Ahora bien, si nos enfocamos sólo en las prácticas de contingencia de las organizaciones; y sabemos que estos conceptos se están aplicando en forma práctica en las empresas ¿Porqué cuesta tanto, desarrollar planes de contingencia que permitan realmente soportar eventos de interrupción, fallas tecnológicas o pérdidas de colaboradores clave, cada uno de ellos impactando negativamente los procesos críticos y la continuidad normal de las operaciones? Argumentando que han dirigido todos los esfuerzos para lograr desarrollar planes  apropiados para el manejo de contingencia; y aun más, considerando que han desarrollado cierto nivel de resiliencia. Para argumentar una respuesta, tomemos en cuenta algunas condiciones.
El ambiente para desarrollar resiliencia
Existen condiciones específicas para que la resiliencia sea realmente una condición implícita en la organización. Ésta es el resultado de promover y mantener ciertas prácticas, no se trata de un conjunto de soluciones que se adquiere cuando la adversidad se presenta, sino de una serie de capacidades y fortalezas que tienen que ser desarrolladas (Bravo. 2013). Las dinámicas para crear resiliencia en equipos son similares a las del individuo. Los equipos de trabajo dirigidos al aprendizaje y a mejorar las competencias generan mejor respuesta ante los escenarios que se materialicen. (Sutclife y Vogus, 2013). Por tanto las organizaciones que pueden ir transformándose en resilientes, son aquellas que permiten la integración de ideas y participación de grupos para la formación de estrategias.
Aquellas organizaciones que no promueven ambientes coercitivos, sino que por el contrario, considera las ideas de cada uno de los individuos, establecerá una condición permanente de mantenerse en contacto con la realidad, dimensionando adecuadamente las dificultades o mensajes del entorno en lugar de paralizarse y actuar caóticamente. Ante dificultades, cambios en el entorno u oportunidades, las personas y organizaciones resilientes son capaces de reorganizarse y adaptarse para producir respuestas, con una agilidad que hace pensar que “improvisan” soluciones del aire (op. cit. Bravo, 2013).
La pista que esperamos
Dado que las organizaciones donde se favorece la resiliencia son aquellas que le dan suma importancia a la participación de todos los colaboradores, es importante pensar si esa condición se mantiene al momento de presentar los escenarios previstos por los especialistas en gestión de riesgos y preparación de planes de contingencia. Si los ejecutivos a la hora de evaluar no consideran que esos escenarios sean exagerados y en consecuencia coarten la dimensión del evento y en consecuencia las estrategias de recuperación.
Es importante saber que no se debe confundir la esperanza de que todo va a estar bien, con el hecho de minimizar o tercer la realidad para que podamos sentirnos bien. Nos es válido decir que somos una organización resiliente y se limita y minimiza el efecto de los que nos pudiera pasar. Ciertamente es reconfortante pensar que todo va a marchar bien ante un evento inesperado, pero precisamente, los planes de contingencia están se hacen para eso, para enfrentar lo inesperado, posiblemente en magnitudes que nunca esperemos que nos ocurra. Es por ello que debemos luchar constantemente contra la condición de minimizar lo que nos pueda pasar.
Fuente:
Vogus, Timothy; Sutcliffe Kethleen. Organizational Resilience: Towards a Theory and Research Agenda. 2003
Bravo Olga. La Resiliencia Organizacional. 2013

La nueva normalidad era un juego de niños

Foto: StellaDi Pixabay Creo que "la nueva normalidad" era cosa de 90 días. Eso ya no existe. Pienso que lo cierto es una nueva rea...