Jueves, 05 Septiembre 2013 18:26

Sistemas complejos y error humano.

Reducir el riesgo en el centro de datos implica aumentar el conocimiento y conciencia en todos los niveles y aceptar que las fallas son inevitables.

 
Una reducción significativa del riesgo y de la energía en los centros de cómputos solo se puede alcanzar con una participación activa de los equipos de operaciones de todas las disciplinas y con el compromiso de todas las partes.
Es evidente que, identificando riesgos y aumentando la conciencia sobre los mismos, es posible mejorar la gestión y minimizar los impactos.
Es también evidente que la mayor barrera para la reducción de riesgos es la falta de intercambio de conocimientos y de conciencia sobre estos riesgos. Muchos sitios poseen documentación sobre Puntos Singulares de Falla (SPOF), Análisis de Modos de Falla y Efectos (FMEA) y Análisis de Modos de Falla, Efectos y Criticidad (FMECA), pero en muchos casos estos estudios no son compartidos con el personal que tiene una interfaz práctica con los sistemas. Por lo tanto, no se aprovecha el valor de estos documentos.
El gráfico 1 muestra la curva universal de aprendizaje, aplicada a organizaciones e individuos. La experiencia acumulada de la compañía y la profundidad de experiencia del individuo interactúan, y ambos factores son importantes en la reducción del riesgo y en la forma de hacer frente al desperdicio de energía.
 
CURVA UNIVERSAL DE APRENDIZAJE
El intercambio de conocimiento se vuelve más importante a medida que la complejidad del sistema aumenta. Aquí es importante el ciclo de aprendizaje Kolb. Kolb dice que el aprendizaje se logra mejor cuando nos movemos a través de los cuatro cuadrantes del ciclo de aprendizaje: reflexión, teoría, práctica y experiencia.
 
Cuando consideramos cómo es compartida y transferida la información técnica en la industria de la construcción y la comparamos con el ciclo de aprendizaje de Kolb, vemos que diferentes roles habitan las diferentes áreas, que están generalmente separadas por límites contractuales. La transferencia de información a través de estos límites es pocas veces, o nunca, perfecta.
En el momento de traspaso del equipo de instalación/puesta en marcha al equipo de operaciones, gran parte del conocimiento involucrado en el proyecto se pierde y el equipo de operadores es dejado a cargo de una instalación viva y crítica con solo algunas horas de entrenamiento y un conjunto de documentos para apoyarlos.
Los centros de cómputos son llevados a cabo por una industria de construcción más acostumbrada a trabajar con oficinas, escuelas, hospitales, etc., donde el proceso de ejecución se ha mantenido prácticamente igual en los últimos 30 años. Este método de ejecución es totalmente diferente en las industrias aeronáutica, náutica y espacial, donde se requieren extensas pruebas de rendimiento y horas de capacitación. Esto es luego seguido por muchas horas de entrenamiento con simulaciones durante toda la vida útil.
Las pruebas de sistemas integrados (IST) son muy comunes hoy en día en los proyectos de centros de cómputos, pero todavía es, en gran parte, dominio del equipo del proyecto, con limitada participación del equipo de operaciones. Las pruebas son usadas para satisfacer requerimientos contractuales, en lugar de una forma de impartir conocimiento desde la fase de construcción a la fase de operación.
En muchos casos -en particular, pero no solamente, en los centros de cómputos antiguos-, el equipo de operaciones tiene muy poco o ningún acceso al contratista de diseño o de instalación, lo que resulta en un déficit en la transferencia de conocimiento a la gente que debe operar la instalación, optimizar la performance del sistema y mantenerlo vivo.
Como resultado, los operadores no se sienten suficientemente informados para comenzar a realizar cambios que puedan mejorar la performance, por miedo a introducir riesgos. Otra consecuencia es la falta de compromiso de los operadores, que introduce un riesgo debido al desconocimiento.
Esta falta de conciencia tal vez no sea un problema durante la operación estable, pero en momentos de baja flexibilidad debido a mantenimiento o fallas pueden surgir errores operacionales.
El problema es más evidente cuando los diseños se vuelven complejos, con múltiples escenarios operacionales y sistemas automáticos de control complicados. Esto se ve agravado cuando los sistemas de monitoreo no son lo suficientemente comprensibles para proveer retroalimentación y estado en tiempo real.
Uptime Institute afirma que el 70% de las fallas de centros de cómputos son debidas a errores humanos. Duffey y Saul, en su libro ‘Gestión de riesgo: El elemento humano’, informan de que el valor para industrias similares dependientes de la tecnología puede ser un 80%. Ambos sugieren que el error humano es responsable de la mayoría de las fallas.
 
EL ELEMENTO HUMANO
Existen suficientes investigaciones para poder estar seguros de que cualquier sistema con una interfaz humana fallará en algún momento.
No significa que haya que eliminar las fallas, sino reducir el riesgo aprendiendo sobre el sistema en detalle y compartiendo ese conocimiento entre los que están involucrados.
Desarrollar un conocimiento específico de la instalación es fundamental para reducir el riesgo de falla.
Tradicionalmente en el sector de las instalaciones, colocamos a las personas en silos en función de su disciplina, experiencia y posición en la empresa. Donde se adopta una cultura de culpas, estos silos se convierten en fortalezas y la información es retenida dentro de ellas, para no darle al ‘enemigo’ una ventaja en la batalla para evitar la culpa. Esto puede parecer una actitud antigua y pasada de moda, pero es muy evidente en nuestra industria.
Si queremos reducir el riesgo debemos aumentar el conocimiento y conciencia en todos los niveles y áreas del negocio y aceptar que las fallas son inevitables, como también lo son los “accidentes evitados”. Cuando ocurre un accidente es importante que aprendamos de él, adoptando un diálogo abierto y franco con todas las partes, y que usemos esa experiencia para evitar incidentes similares en el futuro.
La función de los managers debe ser crear un ambiente donde el personal sienta que tiene voz y sea reconocido por su papel en la creación de un entorno de alto rendimiento. El conjunto de habilidades del personal con el conocimiento más relevante tal vez no incluya la capacidad de escribir un informe técnico de 2.000 palabras sobre un incidente, sin embargo debería existir un foro para facilitar la transferencia de este conocimiento a alguien que sí pueda hacerlo. Esto solo puede ocurrir en un entorno abierto sin una cultura de culpas.
 
 
Last modified on Miércoles, 07 Septiembre 2016 13:30