banner

Noticias

Jun 23, 2023

Predecir el riesgo de falla de la tubería utilizando árboles de decisión impulsados ​​por gradiente y análisis de riesgo ponderado

npj Clean Water volumen 5, Número de artículo: 22 (2022) Citar este artículo

3618 Accesos

2 citas

3 altmétrico

Detalles de métricas

Los modelos de predicción de fallas de tuberías son esenciales para informar decisiones de gestión proactivas. Este estudio tiene como objetivo establecer un modelo de predicción confiable que devuelva la probabilidad de falla de la tubería utilizando un modelo de árbol impulsado por gradiente y una segmentación y agrupación específica de tuberías en una cuadrícula de 1 km que asocia características localizadas. El modelo se aplica a una extensa red del Reino Unido con aproximadamente 40.000 kilómetros de tuberías y un historial de fallas de 14 años. El modelo se evaluó utilizando la curva del operador del receptor y el área bajo la curva (0,89), la puntuación de Briers (0,007) y el coeficiente de correlación de Mathews (0,27) para determinar su precisión, lo que indica predicciones aceptables. Se utiliza un análisis de riesgo ponderado para identificar las consecuencias de una falla de una tubería y proporcionar una representación gráfica de las tuberías de alto riesgo para los tomadores de decisiones. El análisis de riesgo ponderado proporcionó un paso importante para comprender las consecuencias del fallo previsto. El modelo se puede utilizar directamente en la planificación estratégica, que establece decisiones clave a largo plazo con respecto al mantenimiento y posible reemplazo de tuberías.

Muchas redes de distribución de agua (WDN) están envejeciendo y se encuentran en la fase final de su vida útil de diseño, lo que provoca fallas en las tuberías, fugas y desperdicio de agua, lo que provoca impactos ambientales, económicos y sociales. Ante la creciente presión provocada por el aumento de la demanda de agua y los impactos del cambio climático, que provocan estrés en el suministro de agua, y los reguladores del agua imponen fuertes multas por no cumplir los objetivos de desempeño1, existe la urgencia de reducir los efectos de las fallas de las tuberías mediante una gestión proactiva adecuada. La gestión proactiva es el enfoque deseado para gestionar las WDN, buscando anticiparse a los problemas y establecer niveles de riesgo aceptables. Tradicionalmente, la gestión proactiva se logra priorizando el reemplazo o reparación de tuberías utilizando modelos de probabilidad de rango simplistas, juicio de expertos y conocimiento detallado de la red para apuntar a áreas críticas de la red que históricamente han fallado con regularidad2. Sin embargo, este enfoque simplista no es adecuado para gestionar redes de distribución de agua con mecanismos complejos de falla de tuberías y riesgos asociados compuestos que incluyen pérdida de agua que causa daños a propiedades e infraestructura, posibles interrupciones durante la reparación, discontinuidad del suministro de agua y costos económicos de reparación y reemplazo. La gestión proactiva requiere comprender el rendimiento futuro de las tuberías y evaluar el riesgo potencial3.

Los modelos estadísticos de fallas de tuberías brindan un medio para respaldar la gestión proactiva, prediciendo el desempeño futuro mediante el discernimiento de patrones de fallas a partir de datos históricos y sus factores causales contribuyentes4. Shamir y Howard (1979)5 desarrollaron uno de los primeros modelos en una pequeña WDN de tuberías, con un modelo exponencial de tiempo de una sola variable que utiliza la edad de la tubería para predecir el número de fallas por año por cada 1000 pies de tubería. Los modelos de variable única son limitados ya que a menudo múltiples factores operan simultáneamente para formar mecanismos complejos de falla que resultan en diferentes modos de falla. Estos factores se pueden clasificar en términos generales en intrínsecos de las tuberías, ambientales y operativos6. Se lograron mayores avances utilizando modelos multivariados, que incluyen variables estáticas (tuberías y suelo) y dinámicas relacionadas con el tiempo (clima) para predecir el número de fallas o tasas de fallas7, que pueden usarse para clasificar las tuberías entre sí8. Predecir el número de fallas de tuberías a nivel de activos es matemáticamente problemático porque los incidentes ocurren con poca frecuencia9. Por lo tanto, los estudios basados ​​en la tasa de fallas se centran en agrupar las fallas de tuberías por características similares en una red, proporcionando suficientes fallas por longitud de tubería agrupada para tener significancia estadística10,11. Sin embargo, agrupar tuberías a nivel de red supone que todas las tuberías con características similares comparten condiciones localizadas similares (influencias localizadas como condiciones de lecho, carga de tráfico y trabajos de la red local) y tasas de falla similares, lo que rara vez es el caso.

A menudo se informa que los modelos deterministas son demasiado simplistas, ya que no pueden manejar la aleatoriedad o los datos truncados a la izquierda que normalmente se encuentran en los conjuntos de datos de fallas de tuberías, que surgen de fallas faltantes debido a registros de fallas cortos y limitados12. Los datos truncados a la izquierda tienen el potencial de enmascarar tuberías con altas tasas de falla y potencialmente reducir la precisión de las predicciones finales. Además, es necesario predecir fallas a nivel de tubería para respaldar una toma de decisiones de gestión eficaz. Los modelos de probabilidad, como el análisis de supervivencia, predicen fallas de tuberías en cualquier fase del ciclo de vida13, consideran la probabilidad de variables aleatorias14 y acomodan datos truncados a la izquierda abordados analíticamente mediante la adaptación de la función de probabilidad15. Dos modelos de análisis de supervivencia ampliamente utilizados incluyen los métodos de Riesgo Proporcional (PH) de Cox PH y Weibull PH, que demuestran una buena precisión predictiva en comparación con los modelos deterministas2,16. Sin embargo, el análisis de supervivencia es complejo y sólo útil para registros de fallas prolongados, que muchas WDN no mantienen17. Otros modelos de probabilidad incluyen el uso de la distribución de probabilidad, como la regresión logística. Tanto Motiee como Ghasemnejad18 y Yamijala et al.19 consideraron múltiples modelos, incluidos los modos Poisson, lineal, exponencial y logístico desarrollados para predecir tuberías individuales. Ambos estudios encontraron que la regresión logística proporciona los resultados más útiles, ya que la probabilidad de falla es a menudo suficiente para informar las decisiones de gestión y es más precisa que tratar de predecir el número total de fallas a nivel de tubería, un enfoque donde los modelos de regresión han demostrado ser deficientes. precisión predictiva3,17,18,19. Sin embargo, los datos desequilibrados todavía presentan un problema que debe considerarse cuidadosamente20. Kleiner y Rajani21 concluyen que, en general, debido a la incertidumbre inherente y a la falta de datos, analizar el comportamiento de una sola tubería es inviable. Por lo tanto, parece sensato agrupar las tuberías, pero en un nivel espacial inferior al de toda la red. Pocos estudios hasta la fecha han intentado esto, siendo Chen et al.4 una excepción notable, agrupando a nivel censal (áreas homogéneas basadas en el número de personas con respecto a las características de la población, con un tamaño óptimo de 4000 personas22, dejando espacio para estudios adicionales). Exploración en torno a agrupar tuberías en diferentes niveles.

Los modelos de aprendizaje automático se utilizan cada vez más en el modelado de fallas de tuberías y se prefieren porque los pasos de procesamiento matemático son innecesarios20, con datos complejos resumidos de una manera que mejora la precisión de la predicción y con el ajuste de los términos de interacción que ofrecen mayor flexibilidad que con los modelos tradicionales11. Los métodos de aprendizaje automático se basan en datos y los métodos más adecuados para modelar fallas de tuberías se supervisan, ya que se consideran enfoques de caja gris, lo que permite cierto grado de flexibilidad e idoneidad para datos estructurados23. Los métodos de aprendizaje automático supervisados ​​​​comúnmente utilizados incluyen redes neuronales artificiales, regresión polinómica evolutiva y máquinas de vectores de soporte. Sin embargo, los modelos de aprendizaje automático son costosos desde el punto de vista computacional, especialmente cuando se ajustan varios hiperparámetros y tienen un alcance limitado para interpretar relaciones casuales entre la variable de respuesta y las covariables24. Los modelos de conjuntos de árboles de decisión superan estas limitaciones porque son más intuitivos y transparentes y pueden superar a otros métodos estadísticos. Los estudios han utilizado predominantemente árboles de aumento de gradiente (GBT), que superan a otros métodos de conjunto. Winkler et al.20, compararon un modelo de árbol de decisión, bosque aleatorio, Adaboost y RUSboost y encontraron que RUSboost tiene la mayor precisión (AUC de 0,93). Chen et al.4 compararon un modelo de aumento de gradiente con un modelo lineal generalizado, un modelo aditivo generalizado, un bosque aleatorio y un modelo lineal mixto generalizado (GLMM). Los autores concluyeron que el modelo de aumento de gradiente funciona bien y arroja las puntuaciones de Brier más bajas entre 0,558 y 0,808. Giraldo-González y Rodríguez compararon una máquina de vectores de soporte, una red neuronal artificial, Bayes y un modelo de aumento de gradiente, y descubrieron que el modelo de aumento de gradiente tenía el mejor rendimiento (AUC 0,998 para tuberías de CA y 0,990 para tuberías de PVC). Estos estudios normalmente se han centrado en intervalos de predicción de cinco años11,20, o intervalos de predicción mensuales cortos4; sin embargo, algunas decisiones de gestión de redes de agua se toman anualmente, por lo que es sensato comprender el desempeño de los modelos GBT en las predicciones anuales.

Para los administradores de WDN, el concepto de riesgo es importante y, sin embargo, a menudo se pasa por alto en el modelado de fallas de tuberías25. Los intentos anteriores de modelar el riesgo incluyen el uso de una clasificación ordenada de predicciones basada en el número de rupturas8,26,27 o la probabilidad de falla11,20. Sin embargo, este enfoque es limitado ya que las empresas de agua necesitan entender el riesgo de cada falla potencial como una combinación de fallas, ya sea la probabilidad de fallas o el número de fallas, y las consecuencias. Christodoulou y Deligianni28 intentaron incluir un nivel de riesgo diferente utilizando la proximidad a edificios de valor público y áreas residenciales para priorizar los trabajos de reparación y reemplazo. Pietrucha-Urbanik y Tchórzewska-Cieślak29 propusieron un marco para calcular el riesgo basado en la agrupación de criterios y la ponderación en función de las posibles pérdidas financieras que surjan. Existen potencialmente numerosas consecuencias de las fallas inherentes a cada red, pero las consecuencias comunes incluyen pérdida de agua, posibles interrupciones, reducción de la calidad del agua, confiabilidad, costos directos (daños a la propiedad e infraestructura y reparación y reemplazo de tuberías) y costos indirectos (ambientales y social). El riesgo de fracaso es complejo, requiere varios conjuntos de datos de las empresas de agua y exige la difícil tarea de cuantificar las consecuencias30. Existe un vacío en la literatura a la hora de considerar nuevos avances en la determinación del riesgo de fallas de las tuberías.

Aunque muchos estudios comparan varios modelos, es difícil determinar cuál es superior, ya que los datos de WDN varían entre redes y regiones geográficas, lo que no puede ser capturado por el modelo. En cambio, el rendimiento del modelo depende de la calidad de los datos, la disponibilidad y el desarrollo del modelo31. Por lo tanto, basándose en las lagunas de la literatura, este estudio tiene como objetivo establecer un modelo de predicción GBT confiable para una WDN del Reino Unido. La WDN del Reino Unido tiene muchos de los problemas típicos que presenta la infraestructura obsoleta, lo que significa que la mayor parte del mantenimiento se realiza de forma reactiva y desea avanzar hacia una gestión proactiva de las fallas mediante la predicción de fallas anuales en toda la red. La WDN contiene aproximadamente 40.000 km de tuberías que cubren unos 27.476 km2 de un entorno urbano y rural, con un historial de fallos disponible durante 14 años. El estudio se centrará en los materiales de tubería que ocurren con más frecuencia, ya que se ha establecido el mecanismo de falla y puede explicarse por las variables utilizadas. Los materiales representan aproximadamente el 97 % de la red WDN del Reino Unido e incluyen hierro, acero y hierro dúctil (SDI), fibrocemento (AC), cloruro de polivinilo (PVC) (colectivamente cloruro de polivinilo no plastificado, posclorado y de orientación molecular) y polietileno. (PE) (densidad media y alta). Para intervalos de tiempo más cortos, agrupar tuberías por características similares es apropiado para producir predicciones estadísticamente más precisas, aunque los grupos de toda la red a menudo no son útiles. Este estudio utiliza una segmentación específica de tuberías según características espaciales y agrupa las tuberías segmentadas en un intervalo de 1 km. El uso de este intervalo de 1 km se considera útil ya que captura influencias localizadas del clima y el suelo, elimina el problema de agrupar a una escala espacial mayor que a menudo combina tuberías con tasas de falla dispares, y presenta longitudes de tubería más pequeñas y presenta tuberías con menos fallas, lo que Es adecuado para predecir la probabilidad de falla. Los estudios anteriores a menudo han limitado los modelos de falla a predecir la probabilidad de falla. Dado que la probabilidad de falla por sí sola a menudo no es suficiente para respaldar las decisiones de gestión, este estudio se basa en esfuerzos anteriores mediante el desarrollo de un enfoque práctico para identificar el riesgo de falla utilizando un análisis de riesgo ponderado.

La curva del operador del receptor (ROC) se utiliza para visualizar cómo se desempeña el modelo independientemente del umbral de decisión, lo que proporciona una herramienta útil para visualizar qué tan bien el clasificador evita clasificaciones falsas32. El gráfico ROC muestra una compensación entre la tasa de verdaderos positivos (TPR) o la sensibilidad, la fracción de observaciones que están clasificadas correctamente, calculada en la ecuación. (1) como

donde TP es Verdadero Positivo y FN Falso Negativo, y las Tasas de Falsos Positivos (FPR) o especificidad, la fracción de observaciones que están clasificadas incorrectamente, calculada en la Ec. (2) como

El paso de dos líneas correspondientes a un 100% TPR y un 0% FPR = 1 (TPR versus 1−FPR) se considera una habilidad discriminatoria perfecta. Esto se representa gráficamente mediante la curva ROC que pasa por la esquina superior izquierda del gráfico. El paso de la curva por la diagonal y = x representa un modelo que no es mejor que una suposición aleatoria33. El área bajo la curva (AUC) es una medida agregada de rendimiento para todos los umbrales de clasificación y representa la medida de separabilidad al describir la capacidad de las predicciones para distinguir entre las clases. Una medida AUC se devuelve entre cero y uno, donde cero representa una prueba perfectamente inexacta y uno una prueba perfecta. En general, un AUC de 0,7 a 0,8 se considera aceptable, de 0,8 a 0,9 se considera excelente y >0,9 es excelente34. La Figura 1 muestra la curva ROC para el conjunto de datos de prueba cerca de la esquina superior izquierda y un valor AUC de 0,89, lo que sugiere que el modelo tiene una excelente capacidad discriminativa para distinguir entre las clases, y el TPR y el FPR parecen lo suficientemente sólidos para predecir fallas. en los datos de prueba invisibles.

La línea roja es la curva ROC y la línea gris representa la diagonal y = x y un punto donde la curva es aleatoria.

La curva de calibración proporciona un medio para observar qué tan cerca están las predicciones de las observadas. Dado que el resultado en este modelo es la probabilidad de falla entre 0 y 1, es apropiado utilizar un método de agrupación. La combinación es ventajosa ya que promedia la probabilidad de falla de cada categoría, lo que proporciona una representación gráfica útil de qué tan bien está calibrado el modelo. Luego, la probabilidad media se compara con la frecuencia de fallas observadas en cada contenedor. En este caso, se utiliza un enfoque de agrupamiento de ancho fijo, en el que los datos se dividen en diez contenedores, lo que se conoce como análisis de deciles, y es un enfoque utilizado en estudios similares35. Una curva de confiabilidad proporciona un medio para visualizar esta comparación, mediante la cual las probabilidades perfectamente calibradas se ubicarían en una línea diagonal que pasa por el centro de la gráfica. La puntuación de Briers es una medida útil de precisión para predicciones probabilísticas y es equivalente al error cuadrático medio mediante el cual la función de costo se minimiza a cero para un modelo perfecto y se maximiza a 1 para un modelo sin precisión4. La puntuación de Brier (BS) se calcula en la ecuación. (3) como

donde N es el número total de observaciones, Pi es la probabilidad de predicción y Oi es igual al resultado del evento fallado o no fallado. La Figura 2 muestra el gráfico de calibración del modelo y sugiere que el modelo está bien calibrado para los deciles inferior y superior, ya que la mayoría de los contenedores se ajustan a la diagonal. Los deciles medios superiores no se ajustan a la diagonal donde la curva de calibración está por debajo o por encima de la diagonal, lo que sugiere que las predicciones tienen una probabilidad menor que las observadas en los datos. La puntuación de Briers de 0,007 es baja, lo que sugiere predicciones precisas en general.

La línea roja es la curva de calibración; la línea gris representa un ajuste perfecto.

La matriz de confusión describe la frecuencia de los resultados de la clasificación definiendo explícitamente el número de Verdaderos Positivos (TP o Precisión), Verdaderos Negativos (TN), Falsos Positivos (FP) y Falsos Negativos (FN). La decisión de convertir una probabilidad predicha en una etiqueta de clase está determinada por un umbral de probabilidad óptimo tal que el valor de la respuesta \(y_i = \left\{ {\begin{array}{*{20}{c}} {{ \rm{no}}\,{\rm{fallo}}\,{\rm{if}}\,P_i \le {\rm{umbral}}} \\ {{\rm{fallo}}\,{ \rm{if}}\,P_i > {\rm{umbral}}} \end{array}} \right.\). El umbral de probabilidad de incumplimiento dentro del modelo es 0,536. Según esta definición, sigue existiendo una necesidad práctica de optimizar el umbral de probabilidad específicamente para el comportamiento de fallas de tuberías dentro de los datos de prueba desequilibrados. Un umbral de probabilidad óptimo normalmente logra un equilibrio entre sensibilidad y especificidad. Sin embargo, existe una compensación entre TPR y FPR cuando se modifica el umbral, donde aumentar o disminuir la TPR generalmente resulta en lo mismo para la FPR y viceversa. La optimización del umbral de probabilidad es un paso importante en el proceso de toma de decisiones y es específica de cada problema. En el caso del reemplazo de tuberías, se debe utilizar el juicio de expertos, razonando que las compañías de agua tratarían de evitar reemplazar innecesariamente tuberías que pueden tener una longevidad de varias décadas más, lo que resultaría en un desperdicio de esfuerzos y costos de mantenimiento. Además, normalmente sólo se reemplaza entre el 0,5% y el 1% de la red cada año debido a restricciones presupuestarias37. Por lo tanto, es importante identificar únicamente las tuberías con mayor probabilidad de falla. Teniendo esto en cuenta, el umbral óptimo se establece para reducir los FN (es decir, tuberías que se prevé que fallarán cuando no lo hicieron). Esto reduce la cantidad de TP previstos como se analizó anteriormente, pero se enfoca en aquellas tuberías con mayor probabilidad de fallar.

Se utilizó un diseño experimental factorial, mediante el cual el umbral se repitió desde 0,01 hasta 0,99, observando cada umbral para revelar el punto donde la precisión más alta se encuentra con el valor FN más bajo. El coeficiente de correlación de Matthews (MCC) se utilizó para medir la precisión y es útil para datos desequilibrados, ya que tiene en cuenta la diferencia en el tamaño de la clase y solo arroja una puntuación de precisión alta si las cuatro categorías de la matriz de confusión están representadas con precisión. Por esta razón, Chicco (2017) sostiene que es la medida correcta para conjuntos de datos desequilibrados. El MCC describe la precisión de la predicción como peor valor = −1 y mejor valor = +1 y se calcula como se muestra en la ecuación. (4) de la siguiente manera:

La Tabla 1 muestra un pequeño rango de umbrales de brevedad. El umbral óptimo en este caso se ha identificado primero con la precisión MCC más alta y luego con el FN más bajo. El MCC de 0,27 sugiere que el modelo es mejor que un ajuste aleatorio, pero un valor bajo de MCC también representa un alto porcentaje de falsos positivos (es decir, valores identificados incorrectamente como no fallidos). La precisión equilibrada también es una buena medida de la precisión para clases desequilibradas, donde 1 es alto y 0 es bajo. La precisión equilibrada de este modelo es 0,65. En términos prácticos, los resultados son útiles para que las empresas de agua se concentren en áreas para mayor investigación y posible reemplazo, ya que se centran en aquellas tuberías que tienen la mayor probabilidad de fallar; sin embargo, todavía hay predicciones incorrectas que podrían llevar a un posible reemplazo de tuberías innecesariamente. El modelo predice el 20,20% de todas las fallas que ocurren en la WDN, que se encuentran en el 7,83% de la red de tuberías de la WDN. Los resultados muestran que aproximadamente el 32,80% de las fallas de tuberías observadas se predijeron correctamente como fallas, mientras que aproximadamente el 67,20% de las fallas de tuberías observadas se predijeron erróneamente como ninguna falla. Si lo desean, las compañías de agua podrían elegir un umbral alternativo, uno que elimine las predicciones de FN; sin embargo, el número de predicciones de TP también se reducirá.

La influencia relativa de la variable muestra la mejora empírica \(I_t^2\) explicada por el intervalo variable xj, promediado en todos los árboles potenciados como se presenta en la ecuación. (5) como sigue38:

La influencia de las variables ayuda a comprender qué variables contribuyen más a la hora de predecir fallas de tuberías. Para los modelos GBT, esta es la suma de la influencia del predictor acumulada en todos los clasificadores. La Figura 3 muestra los resultados, lo que sugiere hallazgos similares en comparación con la literatura existente. Las variables más importantes son el número de fallas previas y la longitud de la tubería, ambos indicadores del desempeño y deterioro de la tubería. Vale reiterar que ambas variables representan la tubería agrupada y no consideran el historial de la tubería individual. El déficit de humedad del suelo (SMD) es la variable climática más importante y está relacionada con la contracción de los suelos arcillosos y el posterior movimiento del suelo en fallas de tuberías de aire acondicionado. Por el contrario, los suelos arcillosos y los suelos con potencial de contracción-hinchazón, ambos que representan movimiento del suelo, muestran una influencia menor.

Gráfico de barras, clasificando de mayor a menor, la importancia de cada variable según lo determinado por el resultado del modelo.

El diámetro de la tubería y el material son factores menos importantes en esta red que lo informado en estudios comparables11,20,21,39. La influencia variable relativa de las heladas del aire y la temperatura del día no es tan alta como se esperaba, dada su correlación con la alta frecuencia de fallas en las tuberías de hierro y el gran porcentaje de tuberías de hierro en la WDN. Es probable que sea el resultado de resumir demasiado los datos para facilitar el intervalo de predicción anual. Es necesario un intervalo de predicción más corto (semana o mes) para grupos de tuberías de toda la red para capturar con precisión la variación interanual, pero, según la experiencia de los autores, intervalos de predicción cortos pueden dar como resultado una precisión predictiva baja. La influencia variable relativa general del suelo (pozo de contracción, corrosividad del suelo, hidrología del tipo de suelo) es baja. Desde la literatura y la perspectiva de la ingeniería, la corrosión del suelo está fuertemente relacionada con el deterioro de las tuberías metálicas y su capacidad para resistir fuerzas internas y externas3. Es posible que muchas tuberías de esta red hayan sido rehabilitadas y protegidas contra la corrosión; sin embargo, esta información no estaba disponible en el momento de este estudio. La fuente de agua es la única variable operativa y muestra poca influencia en comparación con muchas otras variables. La fuente de agua más importante es el agua superficial, lo que resulta en temperaturas más bajas durante el invierno debido a su exposición al clima. Esto provoca mayores tasas de falla en las tuberías metálicas, pero en comparación con otras variables, la influencia es baja. Se pueden imaginar otras variables, como detalles de instalación como material de cama y relleno, entornos circundantes que proporcionan evidencia de carga, como carga de tráfico y obras de construcción, datos operativos como presión de tubería y transitorios, calidad del agua y características de falla espacial. Estos no se investigan aquí, pero probablemente darán como resultado mejoras en el rendimiento.

Para que el mapeo sea efectivo desde el punto de vista de la gestión de activos, los resultados del análisis de riesgo ponderado deben poder separar fallas bajas, medias y altas. Se espera que el número de fallas elevadas sea pequeño por dos razones: (1) las tuberías rara vez fallan más de una vez y (2) las empresas de servicios públicos solo pueden asignar inversiones a aquellos con mayor riesgo debido a limitaciones presupuestarias y, por lo tanto, solo están interesadas en el 1-2% superior de las tuberías. El resultado del análisis de riesgo ponderado se presenta en la Fig. 4, que representa una pequeña sección de la WDN para mayor claridad. Natural Jenks organiza el nivel de riesgo en tres categorías: bajo [0; ≤0,02], medio [>0,02; ≤0,06] y alta [>0,06; ≤0,92]. En este escenario, la longitud de la tubería en la categoría de alto riesgo es 13,9 km de los 300,7 km o el 4,6% de la red de tuberías presente en la Fig. 4, un porcentaje útil de la red al que apuntar para las decisiones de gestión. El enfoque del mapa de riesgo coroplético es un medio importante para visualizar tuberías individuales o grupos de tuberías con el mayor riesgo en la WDN, como se evidencia en la Fig. 4. La Figura 4 también resalta cuántas tuberías en esta sección de la red tienen un riesgo bajo, lo que Esto es de esperarse ya que muchas tuberías tienen una baja probabilidad de fallar y tienen diámetros pequeños, lo que potencialmente causa menos daño si fallan.

El riesgo se calcula como una medida de la probabilidad de falla de la tubería y las consecuencias del daño a la propiedad más cercana y la pérdida de agua según el diámetro de la tubería. El mapa representa aproximadamente el 2% de toda la WDN del Reino Unido.

La creación de grupos de tuberías fue un paso importante dada la baja frecuencia de fallas en el conjunto de datos de la WDN del Reino Unido. Agrupar tuberías de esta manera supone que todas las tuberías del grupo comparten tasas de falla similares, lo cual no es el caso y, por lo tanto, el enfoque adoptado aquí presenta una solución adecuada a esta limitación. Agrupar tuberías en una escala espacial inferior puede capturar influencias localizadas en el rendimiento de las tuberías, que a menudo pueden confundirse al generalizar a toda la red. Sin embargo, el enfoque utilizado puede no ser tan útil para áreas rurales donde hay menos tuberías, donde escalas más pequeñas pueden ser más apropiadas (por ejemplo, 1:100.000 es una escala menor que 1:100). Se merece una mayor investigación sobre las escalas de agrupación. La optimización del umbral es un desafío e inevitablemente conduce a fallas clasificadas de manera inapropiada en ambos lados del umbral. La optimización es aún más difícil con conjuntos de datos desequilibrados, ya que los métodos de clasificación convencionales están diseñados para asumir que todas las clases son iguales. En este estudio se aplicó un enfoque alternativo, que utilizó la precisión de MCC y FN para establecer un umbral, reduciendo la posibilidad de desperdiciar presupuestos reemplazando tuberías que no fallarán. En el proceso, el número de TP se redujo al 32,80 % de las fallas de tuberías observadas, mientras que el número de FP fue del 67,20 % de las fallas de tuberías observadas, lo que puede no presentar un buen argumento para los profesionales. A pesar de esto, los resultados se pueden utilizar directamente en la planificación estratégica, que establece decisiones clave a largo plazo en materia de mantenimiento y posible reemplazo de tuberías. Predecir la probabilidad de falla es una respuesta esencial ya que permite identificar y priorizar el riesgo en toda la red. Esta metodología también podría usarse para proporcionar predicciones a más largo plazo para respaldar el desarrollo del Plan de Gestión de Activos, que cubre un período de cinco años de inversión regulada.

Categorizar las tuberías en función de un análisis de riesgo ponderado y presentarlas visualmente utilizando Natural Jenks ofrece un método útil para priorizar las tuberías en función de las consecuencias de su falla y es una presentación cartográfica fácilmente evaluable. Extiende la probabilidad de falla a una medida de riesgo más útil, proporcionando más información a los tomadores de decisiones. El uso de la distancia a la propiedad en este estudio es un método simple para determinar las inundaciones. Para proporcionar una determinación realista de las inundaciones, se requiere una comprensión de las características geográficas clave para la ruta del flujo terrestre40. La lista de consecuencias fue limitada en este estudio y podría ampliarse cuando dichos datos estén disponibles. Existen potencialmente numerosas consecuencias de falla inherentes a cada red, pero las consecuencias comunes incluyen pérdida de agua, posibles interrupciones, reducción de la calidad del agua, confiabilidad, costos directos (daños a la propiedad e infraestructura y reparación y reemplazo de tuberías) y costos indirectos (ambientales y sociales)8. En este estudio, las estimaciones de riesgo se basaron en conocimientos expertos, y cualquier discrepancia contextual entre las ponderaciones podría potencialmente sesgar los resultados. Por lo tanto, los profesionales de la red deben considerar cuidadosamente las ponderaciones. A nivel de ingeniería, el mapeo de riesgos se puede utilizar además para determinar áreas de la red que conducen a una alta probabilidad de falla, lo que se puede utilizar para tomar acciones preventivas constructivas para extender la vida útil de la futura construcción de tuberías41.

Los beneficios económicos de este modelo se manifestarán al realizar un mantenimiento proactivo, evitando potencialmente los riesgos asociados que pueden surgir al dañar propiedades e infraestructura. Se anticipa que el enfoque de modelado propuesto mejorará la toma de decisiones a nivel local, facilitada a través de resultados numéricos que informan sobre la capacidad de servicio de la WDN y ayudan a cumplir los objetivos de desempeño regulatorio evitando fuertes multas. Operacionalmente, el enfoque ayudará a resaltar segmentos de tubería cortos para reparación y reemplazo a través de resultados gráficos; estas son longitudes prácticas de tubería para equipos operativos que normalmente no reemplazan kilómetros de tubería en un momento dado42. Este enfoque muestra un rendimiento similar al de estudios GBT comparables11,20, pero es beneficioso ya que el método proporciona predicciones confiables en un período de tiempo anual más corto. El método aquí también es computacionalmente más fácil de desarrollar que otros métodos de aprendizaje automático más complejos, como las redes neuronales y las redes neuronales bayesianas.

Las predicciones se basan en la calidad de los datos, y se presentaron varios desafíos durante la limpieza y el procesamiento, en particular la ubicación de las fallas en las tuberías, muchas de las cuales estaban desplazadas geográficamente y algunas a una distancia considerable, pero era necesario retener todas las fallas en el conjunto de datos. Estos fueron acoplados a la tubería más cercana de similares características, sin embargo es posible que algunos estuvieran colocados incorrectamente a pesar de los protocolos establecidos para el proceso de fracturamiento. Otras limitaciones del estudio incluyen datos limitados, donde los datos de presión u otros datos operativos pueden haber resultado útiles, cuya ventaja puede consistir en una mayor precisión e interpretabilidad del modelo. Las condiciones locales demasiado resumidas también pueden afectar la precisión del modelo y, en este estudio, las condiciones locales del suelo se presentaron a partir de un mapa de suelo a escala 1:250.000. Asimismo, las variables climáticas se resumieron en gran medida a una escala anual a partir de una fuente de cuadrícula de 40 × 40 km. Inevitablemente, estas limitaciones afectarán al modelo, lo que potencialmente puede obstaculizar una toma de decisiones eficaz. Se enfrentan varios desafíos al modelar fallas de tuberías, desde incertidumbres en la recopilación y gestión de datos hasta soluciones específicas de procesamiento de datos. Es necesario comprenderlos de manera integral y desde el punto de vista de la práctica actual para tener una perspectiva más profunda de los desafíos actuales en la práctica que pueden obstaculizar la recopilación de datos útiles. Además, las investigaciones futuras destinadas a comprender cómo los profesionales entienden los modelos de fallas de tuberías, sus limitaciones y oportunidades son beneficiosas, ya que a menudo existe una discordia entre las capacidades del modelado y las expectativas de los usuarios. Esta investigación adicional puede ayudar a mejorar los modelos de fallas de tuberías al fomentar mejoras en el proceso del modelo de fallas de tuberías que promueve la captura de datos de calidad.

Este estudio consideró la predicción de fallas de tuberías utilizando un modelo GBT y estableciendo el riesgo basado en un análisis de riesgo ponderado para priorizar las tuberías para una gestión proactiva. En este modelo se incluyó una escala espacial de 1 km al agrupar las tuberías, cuyo objetivo era capturar condiciones localizadas y eliminar las disparidades en la tasa de fallas compartidas al agrupar tuberías a través de una red. Esta escala espacial, junto con un intervalo de predicción corto, la ausencia de algunas variables esenciales y problemas inherentes adicionales con los conjuntos de datos de fallas de tuberías, ha resultado en última instancia en una precisión aceptable. Sin embargo, en términos prácticos, cuando se utilizan junto con el conocimiento de expertos, los resultados proporcionan una aproximación útil de fallas potenciales y una mejor comprensión de la WDN actual para ayudar a planificar los esfuerzos de rehabilitación y reemplazo. Se puede mejorar la precisión del modelo aumentando el intervalo de predicción a un plan de gestión de activos de cinco años, lo que podría acumular más fallas por grupo de tuberías a partir del cual predecir. Sin embargo, esto puede no ser tan útil para las empresas de agua donde las decisiones de gestión suelen ser anuales. Además, comprender los problemas que se enfrentan con la recopilación y la calidad de los datos a partir de la práctica actual puede ayudar a fomentar la cantidad y la calidad de los datos y podría proporcionar mejoras notables en las predicciones finales.

Otras investigaciones sugeridas incluyen explorar diferentes variaciones de grupos de tuberías, recopilar más datos sobre las consecuencias de fallas para mejorar el análisis de riesgo ponderado y, ampliar esta idea, comprender la cantidad de datos y los problemas de calidad de la práctica actual, y explorar técnicas de ingeniería de características para derivar más valiosos conjuntos de datos que pueden mejorar la precisión del modelo.

El modelo de árbol de decisión es un método de aprendizaje automático simple de implementar, computacionalmente eficiente y adecuado para modelar relaciones complejas como las que se encuentran en fallas de tuberías20. Un árbol de decisión T divide (o segmenta) el espacio de todas las variables explicativas en regiones disjuntas R1, R2,…, Rj mediante una partición recursiva a lo largo del eje (conocida como particiones paralelas a los ejes) utilizando un enfoque codicioso de arriba hacia abajo para identificar regiones dentro de regiones. basado en el índice de Gini, una medida de la varianza total entre las clases. El procedimiento de partición continúa hasta que se cumple el criterio de detención, momento en el cual el árbol llega al nodo terminal (el espacio final dividido en regiones que no se superponen). En este caso, el modelo describe la probabilidad de falla a través de una distribución de Bernoulli P(x,y), donde uno indica una falla segura y cero ninguna falla. Todas las probabilidades devueltas están dentro de este intervalo [uno-cero]. Un árbol de decisión se describe formalmente en la ecuación. (6) como sigue43:

donde I es una función indicadora, igual a 1 si la condición es verdadera (fracaso) o 0 en caso contrario (no fallo). Se aplica una cR constante a cada región dividida que determina la probabilidad en esa región.

Los árboles de decisión son relativamente simples de interpretar y visualizar (Fig. 5), pueden usar variables de múltiples tipos, no se ven afectados por variables en diferentes escalas, pueden acomodar variables faltantes y son insensibles a los valores atípicos. Sin embargo, los árboles de decisión modelan mal las funciones fluidas y pueden observar diferentes particiones basadas en pequeños cambios en los datos de entrenamiento, lo que introduce incertidumbre y da como resultado predicciones deficientes. Por tanto, es importante incorporar métodos como el boosting para mejorar sustancialmente las predicciones.

(i) muestra el espacio de datos bidimensional. (ii) primera condición para dividir los datos por la variable x2 en 200, donde la región disjunta R1 es ≤200 y la región disjunta R2 > 200. (iii) segunda condición para dividir los datos por la variable x1 tanto en 30 como en 60 para crear dos más disjuntos región R3 y R4 (Tomado de Barton et al.55).

El uso de un conjunto de árboles resulta beneficioso ya que el modelo aprende más lentamente y reduce la varianza y el sesgo del sobreajuste43. Uno de esos modelos de conjunto es el aumento de gradiente, una forma de descenso de gradiente funcional, que describe un procedimiento por etapas que ajusta múltiples árboles de forma iterativa a los datos de entrenamiento, con el objetivo de minimizar la función de pérdida en la colección existente de árboles agregando, en cada paso, otro árbol que reduce mejor la función de pérdida. La función de pérdida es una medida de qué tan bien se ajustan los coeficientes del modelo a los datos y, en este estudio, se utiliza el gradiente negativo de la desviación, que para los modelos de clasificación es el residual de la respuesta menos la media de probabilidad ajustada, donde \({ {{\mathbf{r}}}} = {{{\mathbf{y}}}} - {{{\hat{\mathbf y}}}}\). El proceso se describe construyendo una función\(\hat f_{{{\mathrm{B}}}}(x)\) que es la suma del conjunto de árboles. El primer árbol está equipado con la iteración de refuerzo m1 para los datos de entrenamiento y la respuesta y, reduciendo al máximo la función de pérdida, a partir de la cual los residuos se determinan como \(r_1 = y_1 - \hat y_1\). Los árboles posteriores se ajustan de la misma manera, pero los siguientes árboles se actualizan en función de los residuos de los árboles anteriores de modo que \(r_i = r_{n - 1} - \hat r_{n - 1}\). El sobreajuste se evita utilizando la regularización aplicada como un factor de penalización de contracción de 0 < λ < 1 para escalar la contribución del árbol. La regularización mediante contracción ofrece una alternativa sólida a los métodos tradicionales de selección de variables, como la selección de variables por pasos24. La regularización se necesita mutuamente. optimizando la cantidad de árboles, la tasa de aprendizaje y la complejidad de los árboles. Otra ventaja de la regularización es que se pueden incluir varias covariables en el modelo y, si tienen un efecto limitado en la respuesta, su contribución simplemente se ponderará a la baja. Esto es más fácil que agregar y eliminar variables para construir un modelo parsimonioso24. Luego, el árbol reducido se agrega a la función: \(\hat f_{{{\mathrm{B}}}}\left( x \right) \leftarrow \hat f_{{{\mathrm{B}}}}\ left( x \right) + \lambda\) T(x;γ) donde x es el argumento multivariado caracterizado por un conjunto de parámetros γ. Los siguientes árboles con iteración de impulso m2,m3,…, m se entrenan utilizando los datos de entrenamiento y los residuos de cada árbol de forma iterativa. Cada árbol se reduce y se agrega sucesivamente a la función, y los residuos se actualizan de modo que \(r_i \leftarrow r_i - T(x;\gamma _b)\). El modelo final de refuerzo de gradiente de regresión se representa en la Fig. 6 y la notación presentada en la ecuación. (7) como sigue43:

El proceso describe la construcción de la suma del conjunto de árboles \(\hat f_{\mathrm{B}}(x)\), ajustando las iteraciones del árbol potenciado (T1, T2,...,Tn) y reduciendo al máximo la pérdida. función de los residuos (tomado de Barton et al.55).

El modelo de aumento de gradiente tiene muchos hiperparámetros que controlan la ejecución del aprendizaje. Se realizó una búsqueda de cuadrícula secuencial en los diferentes hiperparámetros para optimizar el rendimiento y generar el mejor modelo. Cada hiperparámetro se ajustó utilizando un rango apropiado y la cantidad de árboles utilizados en el conjunto de refuerzo aumentó hasta que los resultados dejaron de mejorar24. Se utilizó una validación cruzada quíntuple para equilibrar la complejidad computacional del modelo y su precisión. La técnica de validación cruzada K-fold divide aleatoriamente los datos de entrenamiento en K submuestras iguales, donde se retiene una única submuestra para las pruebas y las submuestras restantes se utilizan para el entrenamiento24. El proceso se repite K veces para que cada una de las submuestras se utilice una vez como submuestra de prueba. La validación cruzada calcula múltiples estimaciones de "error fuera de la muestra", devolviendo el más pequeño para minimizar el sobreajuste43. Se utilizó la versión R 3.6.2 para desarrollar los modelos44. La versión 2.8.145 del paquete 'gbm' y la versión 6.046 del paquete 'caret' se utilizaron desde el repositorio CRAN.

Hay varias formas de determinar el riesgo29. En este estudio, el riesgo R es una combinación de la probabilidad de falla Pf y la suma de las consecuencias \(\mathop {\sum }\limits_i C_i^{{{\mathrm{f}}}}\), es decir, la pérdida de agua. (diámetro de la tubería) y daños por inundación (proximidad a la propiedad más cercana). La ponderación está asociada a la importancia de cada consecuencia. Como suele haber más de una consecuencia, las consecuencias se suman y ponderan según su importancia25. El cálculo final se expresa en la ecuación. (8) de la siguiente manera:

La Tabla 2 muestra las consecuencias, sus pesos y las puntuaciones de gravedad asociadas. La puntuación de consecuencia se determinó mediante el uso de cuatro categorías. Los diámetros se clasificaron según bandas de diámetro y se asumió un aumento en la pérdida de agua para diámetros más grandes. El daño potencial a la propiedad se determinó junto con el conocimiento de expertos, estimando que una falla en la tubería probablemente causará más daño a las propiedades más cercanas. Dado que aproximadamente el 71% de la red tiene un diámetro de tubería <166 mm, es poco probable que se produzcan eventos catastróficos y grandes volúmenes de pérdida de agua; por lo tanto, las propiedades dentro de un radio de 10 m corren mayor riesgo.

El análisis de riesgo ponderado utiliza la probabilidad de falla, el tamaño del diámetro y la proximidad de la tubería a la propiedad más cercana, ya que estos eran los únicos datos disponibles. Las unidades determinadas para la puntuación de consecuencias se determinaron mediante el diálogo con los gestores de riesgos de las empresas de servicios de agua del Reino Unido. La distancia desde la tubería hasta la propiedad más cercana se calculó utilizando OS OpenMap building47 y el paquete SIG ArcGIS Pro48 para calcular la distancia plana más corta entre la tubería y la propiedad más cercana. El resultado del análisis de riesgo ponderado se presenta utilizando Natural Jenks para organizar los datos en tres categorías de riesgo: bajo, medio y alto. Natural Jenks es un método de agrupamiento que busca minimizar la desviación promedio en cada clase basándose en agrupamientos naturales inherentes a los datos. Los Jenks naturales son ventajosos porque identifican clases reales dentro de los datos y proporcionan visualizaciones más significativas49.

Los métodos se aplicaron a una WDN del Reino Unido, que opera en un área de aproximadamente 27.476 km2 y suministra agua potable a aproximadamente 4,3 millones de personas. El conjunto de datos de la WDN del Reino Unido incluye registros de fallas recopilados entre 2005 y 2018, con información sobre la ubicación, longitud, tipo de material, edad, diámetro y fuente de agua de la tubería, y ubicación y hora de la falla. Las fallas de tuberías recopiladas en el sitio a menudo estaban geográficamente desplazadas del evento de falla de la tubería. Por lo tanto, todas las fallas en las tuberías se reubicaron en la tubería más cercana para garantizar que no se perdieran datos. Primero, cada tubería fallaba se reubicaba dentro de 3 m (una distancia que toma en cuenta el error del GPS) y, si no se lograba ninguna coincidencia, el proceso se repetía secuencialmente hasta 1 km hasta encontrar una tubería con características equivalentes de diámetro y tipo de material. La Tabla 3 muestra un resumen de los datos de la WDN.

Los datos de temperatura y déficit de humedad del suelo (SMD) se obtuvieron del sistema de cálculo de evaporación y lluvia de Met Office (cuadrícula de 40 × 40 km de MORECS) en un formato resumido semanal. Los datos del número total de días de heladas en el aire se obtuvieron de los conjuntos de datos resumidos de Met Office50, descargados en un formato resumido mensual. Los datos de suelo recopilados del Directorio de peligros naturales relacionados con mapas nacionales de suelos y los datos y mapas de suelos LandIS de la Universidad de Cranfield51 se presentan como mapas 1:250.000 basados ​​en datos de campo recopilados entre 1939 y 1987. Utilizando ArcGIS Pro, los datos de la red de tuberías se segmentaron por las características del suelo subyacente y los datos del suelo asociados atribuidos al segmento de tubería. Los datos meteorológicos resumidos y de MORECS se agregaron al conjunto de datos según el valor de la cuadrícula MORECS de 40 × 40 km que se asoció con la tubería mediante el software R (versión 4.0.0), y el diámetro y la edad de la tubería se colocaron en bandas categorizadas. Las covariables finales que se muestran en la Tabla 4 se seleccionaron en función de los datos disponibles y de aquellos factores que se sabe que se correlacionan con fallas de tuberías, como se descubrió en estudios complementarios realizados por los autores6,52.

Las tuberías se segmentan y agrupan en función de características similares, incluido el material, la banda de diámetro, la banda de edad y las características del suelo, expresadas en una cuadrícula de 1 km para capturar condiciones localizadas y eliminar las disparidades en la tasa de fallas compartidas al agrupar tuberías a través de una red. Cada variable climática se resume en condiciones climáticas extremas (valores máximos y mínimos) y se une al conjunto de datos. El conjunto de datos final contiene 80.107 cohortes, con una longitud media de 433 m, una longitud mínima de 2 my una longitud máxima de 11.995 m. Los datos están desequilibrados: uno o más fallos representan sólo el 0,1%. Dado que el propósito es predecir la probabilidad de falla de la tubería, que generalmente es información suficiente para los tomadores de decisiones, el número de fallas se sustituye por falla o ninguna falla. Algunos estudios han separado los tipos de materiales en distintos conjuntos de datos para la modelización, ya que los mecanismos de falla suelen ser únicos para cada tipo de material. Sin embargo, aquí los datos se utilizan en un modelo global que incluye todos los materiales, ya que varios estudios han sugerido que los modelos globales son el enfoque más adecuado20,36,53 por tres razones principales: (1) no están disponibles muchas variables que son específicamente únicas para cada material por lo tanto, la mayoría de las variables influyen en todos los materiales, (2) el aspecto más singular de los materiales es la diferencia estacional en la tasa de fallas, que, debido a las predicciones anuales, no se incluye aquí, y (3) algunos materiales como SDI no No tenemos suficientes fallas en las tuberías para una buena convergencia del modelo; sin embargo, a través de un modelo global, este problema se elimina al aprender de una mayor cantidad de fallas.

Los datos se dividen en un 70 % de entrenamiento y un 30 % de prueba, un enfoque común para este tipo de estudio11,16,18, donde grandes conjuntos de datos de entrenamiento han mostrado un mejor rendimiento del modelo12. La partición aleatoria a lo largo del período también es útil, ya que la partición por año puede introducir un sesgo en el modelo en años particularmente extremos (por ejemplo, el año más caluroso registrado)19,54. Se utilizó un muestreo aleatorio estratificado durante la partición para garantizar que se incluyera una muestra representativa de cada material tanto en el conjunto de datos de entrenamiento como en el de prueba, de modo que: \(N = \mathop {\sum}\nolimits_{i = 1}^k {N_i ,}\)donde k es el número de estratos (en este caso los cinco materiales) y Ni el número de unidades de muestreo en el iésimo estrato.

Los autores no tienen permiso para compartir los datos de la red debido a su naturaleza comercial. Los datos meteorológicos y del suelo que respaldan los hallazgos de este estudio están disponibles, pero se aplican restricciones a la disponibilidad de estos datos, que se utilizaron bajo licencia para el estudio actual y no están disponibles públicamente. Los datos meteorológicos están disponibles bajo licencia en www.metoffice.gov.uk. Los datos del suelo utilizados están disponibles bajo licencia en www.landis.org.uk. OS OpenMap está disponible en Ordnance Survey en https://www.ordnancesurvey.co.uk.

El código fuente para el modelado se proporciona en el Material complementario, Metodología complementaria: modelo R Markdown.

De wat. PN 22/18: El fracaso de Thames Water para abordar las fugas da como resultado un paquete de £65 millones para los clientes. (2020). Disponible en: https://www.ofwat.gov.uk/pn-22-18-thames-waters-failure-tackle-leakage-results-65m-package-customers/ (Consulta: junio de 2022).

Snider, B. & McBean, EA Mejora de la seguridad hídrica urbana mediante modelos de predicción de roturas de tuberías: aprendizaje automático o análisis de supervivencia. J. Medio Ambiente. Ing. 146, 04019129 (2019).

Artículo de Google Scholar

Tang, K., Parsons, DJ & Jude, S. Comparación de aprendizaje automático y guiado para redes bayesianas para analizar fallas de tuberías en el sistema de distribución de agua. Confiable. Ing. Sistema. Seguro. 186, 24-36 (2019).

Artículo de Google Scholar

Chen, TY-J., Beekman, JA, David Guikema, S. y Shashaani, S. Modelado estadístico en ausencia de datos específicos del sistema: análisis empírico exploratorio para la predicción de roturas de tuberías de agua. J. Infraestructura. Sistema. 25, 04019009 (2019).

Artículo de Google Scholar

Shamir, U. y Howard, CDD Un enfoque analítico para programar el reemplazo de tuberías. Mermelada. Asociación de Obras Hidráulicas. 71, 248–258 (1979).

Artículo de Google Scholar

Barton, NA, Farewell, TS, Hallett, SH y Acland, TF Mejora de las predicciones de fallas de tuberías: factores que afectan las fallas de tuberías en redes de agua potable. Agua Res. 164, 114926 (2019).

Artículo CAS Google Scholar

Kleiner, Y. & Rajani, B. Consideración de factores dependientes del tiempo en la predicción estadística de roturas de tuberías de agua. En: Conferencia de infraestructura de la Asociación Estadounidense de Obras Hidráulicas (AWWA 2000) 1–12 (2000).

Kakoudakis, K., Farmani, R. & Butler, D. Predicción de fallas de tuberías en redes de distribución de agua utilizando las condiciones climáticas como factores explicativos. J. Hidroinformática 20, 1191–1200 (2018).

Artículo de Google Scholar

Economou, T., Kapelan, Z. & Bailey, TC Sobre la predicción de fallas en las tuberías de agua subterránea: inflación cero y efectos específicos de las tuberías. J. Hidroinformática 14, 872–883 (2012).

Artículo de Google Scholar

Asnaashari, A., McBean, EA, Shahrour, I. y Gharabaghi, B. Predicción de frecuencias de fallas en tuberías de agua mediante regresión múltiple y de Poisson. Abastecimiento de agua 9, 9–19 (2009).

Artículo de Google Scholar

Giraldo-González, MM & Rodríguez, JP Comparación de modelos estadísticos y de aprendizaje automático para el modelado de fallas de tuberías en redes de distribución de agua. Agua 12, 1153 (2020).

Artículo de Google Scholar

Snider, B. & McBean, EA Watermain rupturas y datos: la intrincada relación entre la disponibilidad de datos y la precisión de las predicciones. Agua Urbana J. 17, 163–176 (2020).

Artículo de Google Scholar

Wilson, D., Filion, Y. & Moore, I. Revisión de los últimos avances de los modelos de predicción de fallas de tuberías de agua y su aplicabilidad a tuberías principales de gran diámetro. Agua Urbana J. 14, 173–184 (2017).

Artículo de Google Scholar

St. Clair, AM & Sinha, S. ¡Revisión del estado de la tecnología sobre el estado de las tuberías de agua, el deterioro y los modelos de predicción de la tasa de fallas! Agua urbana J. 9, 85-112 (2012).

Artículo de Google Scholar

García, AC, Solano, H., Gamiz, ML & Debón, A. Evaluación de la confiabilidad de una red de suministro de agua a partir de datos de corte censurados por la derecha y truncados por la izquierda. Recurso Acuático. Gestionar. 24, 2917–2935 (2010).

Artículo de Google Scholar

Kimutai, E., Betrie, G., Brander, R., Sadiq, R. y Tesfamariam, S. Comparación de modelos estadísticos para predecir fallas de tuberías: ejemplo ilustrativo con la falla de la tubería principal de agua de la ciudad de Calgary. J. Sistema de tuberías. Ing. Practica. 6, 04015005 (2015).

Artículo de Google Scholar

Chen, TY, Beekman, JA & Guikema, SD Gestión de activos de sistemas de distribución de agua potable: modelado estadístico de roturas de tuberías. En (eds Pridmore, A. y Geisbush, J.) Pipelines. 173–186 ASCE: 2017.

Motiee, H. & Ghasemnejad, S. Predicción de la tasa de fallas de tuberías en las redes de distribución de agua de Teherán mediante la aplicación de modelos de regresión. Suministro de agua 19, 695–702 (2019).

Artículo de Google Scholar

Yamijala, S., Guikema, SD y Brumbelow, K. Modelos estadísticos para el análisis de datos de rotura de tuberías del sistema de distribución de agua. Confiable. Ing. Sistema. Seguro. 94, 282–293 (2009).

Artículo de Google Scholar

Winkler, D., Haltmeier, M., Kleidorfer, M., Rauch, W. y Tscheikner-Gratl, F. Modelado de fallas de tuberías para redes de distribución de agua utilizando árboles de decisión potenciados. Estructura. Infraestructura. Ing. 14, 1402-1411 (2018).

Artículo de Google Scholar

Kleiner, Y. & Rajani, B. Comparación de cuatro modelos para clasificar la probabilidad de falla de tuberías individuales. J. Hidroinformática 14, 659–681 (2012).

Artículo de Google Scholar

Oficina del Censo de Estados Unidos. Glosario. (2021). Disponible en: https://www.census.gov/programs-surveys/geography/about/glossary.html. (Consulta: junio de 2022).

Rudin, C. Deje de explicar modelos de aprendizaje automático de caja negra para decisiones de alto riesgo y utilice modelos interpretables en su lugar. Nat. Mach. Intel. 1, 206–215 (2019).

Artículo de Google Scholar

Elith, J., Leathwick, JR y Hastie, T. Una guía de trabajo para árboles de regresión potenciados. J.Anim. Ecológico. 77, 802–813 (2008).

Artículo CAS Google Scholar

Suddle, S. El análisis de riesgo ponderado. Seguro. Ciencia. 47, 668–679 (2009).

Artículo de Google Scholar

Chen, TYJ y Guikema, SD Predicción de fallas en tuberías de agua con agrupación espacial de roturas. Confiable. Ing. Sistema. Seguro. 203, 107108 (2020).

Artículo de Google Scholar

Berardi, L., Giustolisi, O., Kapelan, Z. & Savic, DA Desarrollo de modelos de deterioro de tuberías para sistemas de distribución de agua utilizando EPR. J. Hidroinformática 10, 113-126 (2008).

Artículo de Google Scholar

Christodoulou, S. & Deligianni, A. Un marco de decisión Neurofuzzy para la gestión de redes de distribución de agua. Recurso Acuático. Gestionar. 24, 139-156 (2010).

Artículo de Google Scholar

Pietrucha-Urbanik, K. & Tchórzewska-Cieślak, B. Enfoques para el análisis del riesgo de fallo de la red de distribución de agua con respecto a la seguridad de los consumidores. Agua 10, 1679 (2018).

Artículo de Google Scholar

Farewell, TS, Jude, S. & Pritchard, O. Cómo los impactos de las tuberías de agua rotas están influenciados por el contenido de arena del suelo. Nat. Peligros Sistema Tierra Ciencia. 18, 2951–2968 (2018).

Artículo de Google Scholar

Kerwin, S., García de Soto, B., Adey, B., Sampatakaki, K. & Heller, H. Combinación de fallas registradas y opinión de expertos en el desarrollo de modelos de predicción de fallas de tuberías ANN. Sostener. Infraestructura resiliente. 1–23. https://doi.org/10.1080/23789689.2020.1787033 (2020).

Saito, T. & Rehmsmeier, M. El gráfico de recuperación de precisión es más informativo que el gráfico ROC cuando se evalúan clasificadores binarios en conjuntos de datos desequilibrados. MÁS UNO 10, e0118432 (2015).

Artículo de Google Scholar

Fawcett, T. Una introducción al análisis de la República de China. Reconocimiento de patrones. Letón. 27, 861–874 (2006).

Artículo de Google Scholar

Hosmer, DW y Lemeshow, S. Regresión logística aplicada (John Wiley & Sons, Inc., 2000). https://doi.org/10.1002/0471722146

Kumar, A. y col. Uso del aprendizaje automático para evaluar el riesgo y prevenir roturas de tuberías de agua. En: Proc. 24.a Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos 2657, 472–480 https://dl.acm.org/action/showFmPdf?doi=10.1145%2F3219819 (ACM, 2018).

Robles-Velasco, A., Cortés, P., Muñuzuri, J. & Onieva, L. Predicción de fallas en tuberías en redes de abastecimiento de agua mediante regresión logística y clasificación de vectores de soporte. Confiable. Ing. Sistema. Seguro. 196, 106754 (2020).

Artículo de Google Scholar

Bruaset, S. & Sægrov, S. Un análisis del impacto potencial del cambio climático en la confiabilidad estructural de las tuberías de agua potable en regiones de clima frío. Agua (Suiza) 10, 411 (2018).

Ridgeway, G. Modelos potenciados generalizados: una guía para el paquete gbm (CiteSeerX, 2019).

Konstantinou, C. & Stoianov, I. Un estudio comparativo de métodos estadísticos y de aprendizaje automático para inferir las causas de las roturas de tuberías en las redes de suministro de agua. Agua Urbana J. 17, 534–548 (2020).

Artículo de Google Scholar

Ozcelik, C. y Gorokhovich, Y. Un modelo de inundaciones terrestres para sistemas de información geográfica. Agua (Suiza) 12, 2397 (2020).

Fitchett, JC, Karadimitriou, K., West, Z. & Hughes, DM Aprendizaje automático para evaluaciones del estado de las tuberías. Mermelada. Asociación de Obras Hidráulicas. 112, 50–55 (2020).

Artículo de Google Scholar

De Oliveira, DP, Garrett, JH & Soibelman, L. Un enfoque de agrupación espacial basado en la densidad para definir indicadores locales de rotura de tuberías de distribución de agua potable. Adv. Ing. Informar. 25, 380–389 (2011).

Artículo de Google Scholar

Hastie, T., Tibshirani, R. y Friedman, J. Los elementos del aprendizaje estadístico. Serie Springer en Estadística (Springer, 2009). https://doi.org/10.1007/978-0-387-84858-7.

Equipo central de R. R: El Proyecto R para Computación Estadística. (2018). Disponible en: https://www.r-project.org/ (Consulta: febrero de 2019).

Greenwell, B., Boehmke, B. y Cunningham, J. Paquete 'gbm': modelos de regresión potenciados generalizados. Repositorio CRAN 39 (2019).

Kuhn, M. y col. Paquete 'caret': entrenamiento de clasificación y regresión. 1–223 (2020).

Encuesta de artillería. SO OpenMap: local. (2021). Disponible en: https://www.ordnancesurvey.co.uk/business-government/products/open-map-local. (Consulta: abril de 2021).

ESRI. ArcGIS Pro. (2021). Disponible en: https://www.esri.com/en-us/arcgis/products/arcgis-pro/overview. (Consulta: febrero de 2021).

North, MA Un método para implementar un número estadísticamente significativo de clases de datos en el algoritmo Jenks. En: 2009 Sexta Conferencia Internacional sobre Sistemas Difusos y Descubrimiento de Conocimiento 1, 35–38 https://dl.acm.org/doi/proceedings/10.5555/1674647 (IEEE, 2009).

Oficina Meteorológica. Resúmenes climáticos regionales del Reino Unido 1981-2018. Oficina Meteorológica (2018). Disponible en: https://www.metoffice.gov.uk/research/climate/maps-and-data/regional-climates/index.

Hallett, SH, Sakrabani, R., Keay, CA y Hannam, JA Desarrollos en sistemas de información territorial: ejemplos que demuestran capacidades y opciones de gestión de recursos terrestres. Gestión de Uso del Suelo. 33, 514–529 (2017).

Artículo de Google Scholar

Barton, NA, Farewell, TS y Hallett, SH Uso de modelos aditivos generalizados para investigar los efectos ambientales sobre fallas de tuberías en redes de agua limpia. npj Limpio. Agua 3, 31 (2020).

Artículo de Google Scholar

Jafar, R., Shahrour, I. y Juran, I. Aplicación de redes neuronales artificiales (RNA) para modelar el fallo de las redes de agua urbanas. Matemáticas. Computadora. Modelo. 51, 1170-1180 (2010).

Artículo de Google Scholar

Kabir, G., Tesfamariam, S., Loeppky, J. y Sadiq, R. Predicción de fallas en tuberías principales de agua: un enfoque de actualización del modelo bayesiano. Sistema basado en el conocimiento. 110, 144-156 (2016).

Artículo de Google Scholar

Barton, NA, Hallett, SH, Jude, SR y Tran, TH Una evolución de los modelos estadísticos de fallas de tuberías para redes de agua potable: una revisión específica. Abastecimiento de agua (2022). https://doi.org/10.2166/ws.2022.019.

Descargar referencias

Este trabajo fue apoyado por el Consejo de Investigación del Medio Ambiente Natural del Reino Unido [NERC Ref: NE/M009009/1] y Anglian Water plc., que no tuvo ningún papel directo en este estudio. Los autores agradecen su apoyo.

Escuela de Agua, Energía y Medio Ambiente, Universidad de Cranfield, Bedfordshire, MK43 0AL, Reino Unido

Neal Andrew Barton, Stephen Henry Hallett y Simon Richard Jude

Centro de Diseño Creativo Competitivo (C4D), Escuela de Agua, Energía y Medio Ambiente, Universidad de Cranfield, Bedfordshire, MK43 0AL, Reino Unido

Trung Hieu Tran

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

NB: conceptualización, metodología, software, pruebas, análisis formal, investigación, recursos, curación de datos, redacción (borrador original), redacción: revisión y edición, visualización y administración del proyecto. SH: Redacción: revisión y edición, supervisión, adquisición de financiación. SJ: revisión y edición, supervisión, adquisición de financiación. THT: Pruebas, análisis formal y revisión y edición.

Correspondencia a Stephen Henry Hallett.

Los autores declaran no tener conflictos de intereses.

Los patrocinadores fundadores no tuvieron ningún papel en el diseño del estudio, en la recopilación, el análisis o la interpretación de los datos, en la redacción del manuscrito ni en la decisión de publicar los resultados.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Barton, NA, Hallett, SH, Jude, SR y col. Predecir el riesgo de falla de la tubería utilizando árboles de decisión impulsados ​​por gradiente y análisis de riesgo ponderado. npj Agua Limpia 5, 22 (2022). https://doi.org/10.1038/s41545-022-00165-2

Descargar cita

Recibido: 26 de julio de 2021

Aceptado: 27 de mayo de 2022

Publicado: 17 de junio de 2022

DOI: https://doi.org/10.1038/s41545-022-00165-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

COMPARTIR