Jueves, 05 Septiembre 2013 18:48

COMPLEJIDAD DEL SISTEMA

Antes de considerar la complejidad del sistema, es necesario tener en cuenta que, para un sistema fl exible sin puntos singulares de falla, un evento de falla debe ser por definición el resultado de dos o más eventos simultáneos.

Estos pueden ser fallas de componentes o intervenciones humanas incorrectas.

Un sistema 2N puede ser considerado como el requerimiento mínimo para lograr una instalación sin puntos singulares de falla. Por simplicidad, asumiremos que nuestro sistema 2N tiene sistemas eléctricos y mecánicos A y B.

Un análisis de árbol de fallas (FTA) mostrará combinaciones de eventos que resultan en una falla, sin embargo es muy difícil modelar el error humano en este análisis. Lainformación utilizada para modelar el error humano siempre será subjetiva y las variables son infinitas.

Si en nuestro diseño 2N los sistemas son completamente diferentes y están físicamente separados, ninguna acción en un sistema debería tener impacto en el otro. Sin embargo, no es raro que se introduzcan ‘mejoras’ que al sistema 2N simple le agreguen enlaces de recuperación de desastres, como recipientes de almacenamiento comunes, proporcionando una interconexión entre los sistemas A y B. Además, los controles son mejorados para que los sistemas A y B no sean fácilmente interconectados. En proyectos de gran escala, esto se transforma en un sistema de control automático (SCADA, BMS), en lugar de simples enclavamientos mecánicos. Los principios básicos del sistema 2N se han comprometido y la complejidad del sistema ha aumentado exponencialmente, como también lo han hecho las habilidades requeridas por el equipo de operaciones.

Una revisión en oficina del diseño seguirá mostrando que se ha logrado un sistema 2N.

Sin embargo, la complejidad resultante y los desafíos de operabilidad vulneran los requerimientos fundamentales de un diseño de alta disponibilidad.

Generalmente, la secuencia particular de eventos que llevan a una falla es imprevista y, hasta que no ocurre, no hay conocimiento de que lo hará, es decir, esta secuencia de eventos es desconocida hasta que se vuelve conocida.

Por lo tanto, no formarán parte de un análisis de árbol de fallas (FTA).

Ludwig Von Boltzmann desarrolló una ecuación de entropía que ha sido aplicada a estadísticas y en particular a ‘información faltante’:

S = k log W.

En este simple ejemplo tenemos ocho cajas y una moneda. Boltzmann nos permite determinar el número de preguntas inteligentes que debemos realizar para ubicar la moneda.

En este caso, aplicando la fórmula, nos da una respuesta de 3 y podemos ver que es correcto:

¿Está en la fi la de arriba o de abajo?

¿Está en las cajas de la derecha o de la izquierda?

¿Está en la caja derecha o izquierda?

Si sustituimos componentes del sistema por cajas y eventos de falla desconocidos por monedas, podemos ver cómo la disponibilidad del sistema es comprometida por la complejidad.

En cualquier sistema hay un número de partes componentes, y entre estos sistemas habrá combinaciones desconocidas de eventos que llevarán a una falla de la función principal.

Cabe señalar que no se trata de un análisis de riesgo como en un análisis de árbol de fallas, sino de la reducción del número de incógnitas.

COMPONENTES, INCÓGNITAS Y COMBINACIONES

El gráfico anterior muestra un sistema de 100 variables (componentes). En este esquema, 5 eventos desconocidos que ocurran al mismo tiempo resultarán en la pérdida de la función del negocio. Si el número de eventos desconocidos es reducido de 5 a 4 y luego a 3, habrá una reducción signifi cativa en la combinación de formas en las que el sistema puede fallar. A partir de esto podemos ver que, aumentando nuestro conocimiento detallado de los sistemas y descubriendo eventos desconocidos, se reducirá la combinación en la que el sistema puede fallar y, .por lo tanto, el riesgo. Hay que tener en cuenta que el eje “y” tiene escala logarítmica.

El siguiente gráfico da una comparación ilustrativa entre tres sistemas flexibles: 2N, 2N con interconexiones entre los sistemas A y B, y finalmente 2N con interconexiones múltiples entre los sistemas A y B (la información proporcionada en la tabla es genérica y abierta al debate). Las interconexiones tienen el efecto de aumentar la complejidad (número de componentes) del sistema y el número de eventos de falla desconocidos. Hay que tener en cuenta que el eje “y” tiene escala logarítmica.

PENSANDO EN SIMPLE

Ha sido bien establecido que la interfaz humana es el único gran riesgo en el entorno de los centros de cómputos. Depender de que un individuo haga lo correcto en el momento adecuado sin ninguna inversión en capacitación específica puede resultar probablemente en más fallas y aumentar el tiempo de inactividad.

Como industria deberíamos considerar cómo mejorar el proceso de traspaso de información, luego de finalizado un nuevo proyecto.

Los procesos de “aterrizajes suaves” de BSRIA son un buen comienzo para desarrollar un proceso de traspaso que sea mejor al que se utiliza hoy en día en la industria de centros de cómputos.

El continuo entrenamiento específico en sitio del personal aumentará el conocimiento e identificará combinaciones de fallas desconocidas.

Así se reduce drástica mente el número de combinaciones de fallas desconocidas y el tiempo de inactividad.

Los sistemas complejos aumentan la necesidad de este entrenamiento, pero sería mucho mejor si los diseños fuesen simples con controles locales y monitoreo global. El viejo dicho ‘keep it simple, stupid’ sigue siendo una filosofía apropiada para la industria de centros de cómputos.

Si el 70% de las fallas en centros de cómputos son resultado de errores humanos, ¿es probable

que haciendo sistemas más complejos se reduzca este valor?

Autor principal del artículo: David Cameron. Co-autores: Robert Tozer y Sophia Flucker.

Traducción: Alejandra Romano. Operational Intelligence (www.dc-oi.com).

 
Last modified on Miércoles, 07 Septiembre 2016 13:30