Inferencia estadística robusta basada en divergencias para dispositivos de un sólo uso





pcod_tesis


Los dispositivos de un sólo uso (one-shot devices en inglés) son aquellos que una vez utilizados quedan inservibles, por lo que deben ser desechados o, en el mejor de los casos, reparados para darles más uso. Estamos rodeados de dispositivos de un sólo uso, pudiendo ser muchos de ellos de gran utilidad para protegernos: los paracaídas, el airbag del coche o los extintores contra incendios. En particular, este tipo de dispositivos está jugando un papel muy importante en la crisis sanitaria del COVID, basta con pensar en la prueba de antígenos como el más claro representante.

Desde un punto de vista estadístico, la modelización de los dispositivos de un solo uso o más en concreto de su tiempo de vida supone todo un reto. La única información que tendremos es si bajo unas condiciones particulares el dispositivo presenta o no un fallo al utilizarlo en un momento determinado. En el caso de que ese fallo se produzca, no podremos saber exactamente en qué momento dejó de funcionar, sólo sabremos que en un momento previo a la inspección. En el caso de que el dispositivo funcione con éxito, no sabremos en qué momento o en qué condiciones habría dejado de funcionar. Se trata, por tanto, de un problema de censura interválica extrema. Por otra parte, y gracias al desarrollo tecnológico de la actualidad, la mayoría de los dispositivos presenta una tasa de fallo muy baja en condiciones normales, ocurriendo el fallo además en tiempos elevados. Evidentemente, este es un aspecto positivo pero que puede suponer una dificultad añadida en la modelización, ya que estadísticamente es complicado trabajar con datos binarios tan descompensados y económicamente no sería factible hacer experimentos de una duración tan larga. Para solucionar este problema, es habitual trabajar con los llamados tests de vida acelerados (Accelerated Life Tests, ALTs, en inglés). La idea consiste en someter a los dispositivos a condiciones extremas (la temperatura o humedad ambiente, por ejemplo) para provocar en tiempos moderados más fallos, lo cual facilitará la modelización. Una vez estimado el modelo se extrapolan los resultados a condiciones normales.

En la última década han sido numerosos los trabajos dedicados a este tema. Lo más habitual es tratarlo como un problema paramétrico, en el que se asume que el tiempo de vida sigue una distribución estadística previamente prefijada: exponencial, gamma, Weibull, etc. Una vez definido el modelo, se procede a estimar los parámetros por el método de máxima verosimilitud. Al tratarse de un problema de censura, son varios los artículos en los que se desarrolla algoritmos de Esperanza-Maximización (EM) para este fin. Ahora bien, aunque es sabido que el estimador de máxima verosimilitud (EMV) es el más eficiente posible, también es conocida su falta de robustez ante la presencia de observaciones anómalas u outliers.

En esta tesis (Castilla 2021) desarrollamos estimadores robustos basados en medidas de divergencia como alternativa al EMV para la modelización de los dispositivos de un sólo uso. Para entender esta idea es importante explicar que el EMV, además de ser el que maximiza la verosimilitud conjunta, puede definirse como el que minimiza la divergencia de Kullback-Leibler entre los vectores de probabilidades observadas y predichas. La pregunta surge entonces de manera natural, ¿por qué no minimizar otras divergencias, diferentes a la de Kullback-Leibler para obtener estimadores alternativos al de máxima verosimilitud? En particular, tomamos la familia de divergencias de densidad potencia (density power divergence, DPD, en inglés) que contiene al EMV como caso particular, y que es conocida en la literatura por dar lugar a estimadores y pruebas estadísticas robustas. Comenzamos considerando el caso más sencillo posible, que es en el que sólo tenemos una variable explicativa o factor de estrés y en el que asumimos que el tiempo de vida sigue una distribución exponencial. Sin embargo, es más lógico pensar que en un test de vida acelerado sometemos al dispositivo a más factores de estrés, precipitando el fallo y recogiendo más información sobre el producto. Además, la distribución exponencial puede resultar demasiado simple para modelizar los tiempos de vida. Por estos motivos, a lo largo de la tesis se ha desarrollado inferencia robusta para el modelo de dispositivos de un sólo uso con varios factores de estrés y diferentes distribuciones del tiempo de vida como son la propia distribución exponencial o las distribuciones Lindley, gamma, Weibull o lognormal. Aunque en general consideramos una respuesta binaria (éxito o fallo) son muchos los dispositivos que pueden tener diversas causas de fallo. Al modelo que recoge esta respuesta multinomial se le llama modelo de riesgos competitivos. De igual manera, en esta tesis, desarrollamos inferencia robusta también para el modelo de riesgos competitivos, asumiendo en este caso tiempos de vida exponenciales.

Para cada modelo se estudia de manera teórica los estimadores propuestos obteniendo sus ecuaciones de estimación y su distribución asintótica. También se desarrollan pruebas de tipo Wald para realizar contrastes de hipótesis. La robustez de los estimadores y pruebas propuestas es demostrada de manera teórica mediante el estudio de su función de influencia y es ilustrada mediante estudios de simulación y la aplicación a datos reales. Como conclusión, se ha obtenido que los estadísticos propuestos presentan un comportamiento mucho más robusto que aquellos basados en el EMV cuando trabajamos con datos contaminados, mostrándose como una alternativa muy interesante para el estudio de los dispositivos de un sólo uso.

Referencias

Castilla, Elena. 2021. “Robust Statistical Inference for One-Shot Devices Based on Divergences.” PhD thesis, Universidad Complutense de Madrid. https://eprints.ucm.es/id/eprint/67473/.

Más BEIO

Una mirada feminista y cariñosa a la Sociedad de Estadística e Investigación Operativa

Descripción gráfica y numérica de la composición de las socias y socios de la Sociedad de Estadística e Investigación Operativa cuyo objetivo es conocer con más detalle las características de sus miembros, especialmente en relación a su género binario, edad, tipo de membresía en relación a la sección en la que se integran, antigüedad y comunidad autónoma de procedencia.