Phase-Type distributions: computational aspects and applications in electronics

J. E. Ruiz Castro
Juan Eloy Ruiz Castro
Departamento de Estadística e Investigación Operativa y IMAG Universidad de Granada jeloy@ugr.es

C. J. Acal González
Christian J. Acal González
@chracal@ugr.es

A. M. Aguilera del Pino
Ana María Aguilera del Pino
aaguiler@ugr.es

Abstract

Reliability is an area of statistics that analyzes the behaviour of systems subject to failures where probability plays a fundamental role in modeling, solving and optimization problems. It is usual to develop me- thodologies that allow a detailed study through classic distributions. An important aspect is the estimation of the parameters. A class of non-negative distributions, called phase-type distributions, makes it possible to model complex problems with well-structured results, thanks to its matrix-algebraic form. The computational aspects of the estimation in this field, through statistical programmes or applications such as R, Matlab or EMpht, are revised and applied to a real data set from RRAM memories in order to prove that this approach is better than the classic statistical analysis employed in this area.

Keywords: Reliability, Modeling, Probability, Phase-type distributions, Resistive memories.

AMS Subject classifications: 97K80, 97K60, 62N05, 62P30.

Introducción

El análisis de la fiabilidad o supervivencia es un conjunto de técnicas del campo de la Estadística y la Probabilidad en diversas áreas de la ciencia como pueden ser la ingeniería o la medicina. En términos generales, esta rama del conocimiento es la encargada de estudiar el comportamiento de los sistemas, cuyo funcionamiento está condicionado y afectado por ciertas variables que son incontrolables (generalmente por condiciones ambientales) y provocan que estos sistemas estén sometidos a un continuo desgaste. Sirva como ejemplo el estudio del tiempo de vida de una bombilla (sistema), que puede estar influenciado por el ambiente y el trato que reciba la propia bombilla. Otro aspecto a destacar es que el tiempo de vida (o análogamente la ocurrencia de fallo) es aleatorio entre las distintas unidades experimentales, ya que no todas vivirán el mismo tiempo aunque hayan sido fabricadas y estén operando en igualdad de condiciones. Siguiendo con el ejemplo de la bombilla, es claro que el tiempo de vida de cada una de ellas será diferente. En consecuencia, es aquí donde la Estadística, y especialmente la Probabilidad, juegan un papel fundamental en la modelización de los sistemas, puesto que dichos tiempos de vida o fallo podrán ser ajustados mediante una distribución de probabilidad conocida. Además, otro matiz a tener en cuenta es que, aunque por comodidad se hable de tiempo, hay que poner de manifiesto que un análisis de fiabilidad puede tratar de estudiar otras variables diferentes que no sean específicamente el tiempo, pero que estén altamente relacionadas con él. Por ejemplo, la aplicación que se muestra en el presente trabajo se refiere al caso particular de las memorias resistivas que son actualmente una de las tecnologías de memoria más prometedoras y están llamadas a reemplazar, o al menos complementar en algunos nichos de aplicación, las actuales memorias no volátiles de tipo flash que dominan el mercado ([1]). El functionamiento de estas memorias está basado en la formación y ruptura de un filamento conductor, cuyo proceso depende del voltaje que se suministre. Sin embargo, aunque la variable de interés sea el voltaje y no el tiempo, es claro que estos aparatos han estado funcionando en paralelo un determinado tiempo hasta el mencionado voltaje de fallo. Para más información acerca del caso particular de la modelización del tiempo de fallo de las memorias resistivas véase el trabajo de Long et al. [2].

La primera distribución empleada en un análisis de fiabilidad fue la distribución Exponencial en el trabajo de Epstein y Sobel en 1953 ([3]), que ha sido la distribución de referencia durante décadas para modelizar el tiempo de fallo en multitud de áreas, debido en gran medida a sus buenas propiedades, sencillez y aplicabilidad. Con el paso de los años, sin embargo, esta distribución quedó obsoleta, ya que modela el comportamiento de las unidades que fallan a una tasa constante, independientemente del tiempo acumulado, y esto no siempre ocurre en el mundo real. Este hecho provocó que se empezaran a usar otros tipos de distribuciones algo más complejas. Normalmente, las distribuciones más empleadas en este campo en la actualidad son la distribución Erlang, la distribución Weibull, la distribución Log-Normal o la distribución Gamma, entre otras. En la mayoría de los estudios de fiabilidad no se suele profundizar mucho más allá y se entiende que estas distribuciones, que son bien conocidas y ampliamente aplicadas en ramas de la ciencia, ingeniería o medicina, son suficientes para lidiar con los problemas reales que puedan surgir. No obstante, y especialmente en sistemas tecnológicos que están en continuo desarrollo por el auge e importancia que está sufriendo este sector, los sistemas sometidos a estudio en el día a día suelen ser mucho más complejos, con estructuras internas más sofisticadas, que provocan que estas distribuciones no se ajusten bien a los datos, lo que impide una correcta interpretación de la realidad a través de los resultados. Ante esta situación, el analista se encuentra obligado a utilizar un enfoque diferente que solucione el problema planteado y mejore el ajuste.

Bajo el contexto descrito anteriormente, en los últimos años y gracias al desarrollo computacional, se han introducido las distribuciones Tipo Fase, que aún siendo un tipo de distribuciones muy poco conocidas, presentan una gran flexibilidad y unas excelentes propiedades que hacen que sean un candidato a tener en cuenta en estudios de fiabilidad. Por ejemplo, en [4] se demuestra mediante un estudio de simulación que las distribuciones Tipo Fase funcionan mejor que otras distribuciones clásicas consideradas en el sentido de que el ajuste que proporcionan es más preciso, poniendo de manifiesto que las distribuciones Tipo Fase deben ser tenidas en cuenta cuando se analicen datos experimentales relacionados con el fallo de un sistema. Asimismo, en [5] y en [1] se aplican estas distribuciones al caso específico de las memorias resistivas.

Las distribuciones Tipo Fase fueron introducidas por Neuts en 1975 (ver [6] y [7] para un estudio detallado). Esta clase de distribuciones no negativas generalizan una amplia colección de distribuciones conocidas como pueden ser la distribución Exponencial, la distribución Erlang o la distribución Coxiana, entre otras. Entre sus principales ventajas destacan que permiten modelizar problemas no exentos de dificultad, proporcionando resultados con una estructura clara y sencilla de interpretar gracias a su forma algebraico matricial. No obstante, uno de los resultados más interesantes de las distribuciones y razón fundamental por la que son aplicadas en múltiples ocasiones (no solamente en estudios de fiabilidad) fue el que obtuvo Asmussen en [8]. Este resultado detalla que cualquier distribución de probabilidad no negativa puede ser aproximada tanto como se desee mediante una distribución Tipo Fase. De esta manera, conocida la distribución ideal para modelizar el tiempo de vida del sistema, se puede extraer información adicional de cómo funciona el sistema, cuáles son sus principales características o cuánto se espera que viva, entre otros resultados.

El ajuste por máxima verosimilitud de los parámetros involucrados en una distribución Tipo Fase se consigue a través del algoritmo iterativo EM, el cual alterna dos pasos: esperanza y maximización. Este método fue desarrollado por Asmussen en [9] y asumido por Buchholz en [10]. En la red están disponibles una serie de paquetes implementados en Matlab y en R, e incluso existen aplicaciones para ordenador, que pueden ser utilizados para determinar la estructura de las distribuciones Tipo Fase y para la estimación de sus parámetros. Sin embargo, el coste computacional de estas funciones implementadas en los paquetes estadísticos nombrados puede ser alto si el número de fases óptimo es elevado. Entonces, en situaciones donde es conocida la estructura de las distribuciones Tipo Fase, puede ser recomendable implementar un código que rebaje el costo computacional mencionado. En este trabajo se ha desarrollado un algoritmo en R que puede ser utilizado cuando los datos experimentales siguen una distribución Tipo Fase con estructura Erlang, como es el caso del voltaje de fallo en memorias resistivas.

Este trabajo queda estructurado de la siguiente manera. La Sección 2 está centrada en definir las distribuciones Tipo Fase y en describir sus características más importantes. También se muestra la expresión que toman algunas de las funciones más comunes en un estudio de fiabilidad en el caso de que las distribuciones Tipo Fase sean consideradas. En la Sección 3 se consideran algunos de los paquetes encargados de estimar la estructura y parámetros de una distribución Tipo Fase y se describe el código desarrollado por los autores del trabajo. La aplicación a los datos reales se puede ver en la Sección 4. Finalmente, se incluye una sección en la que se muestran las conclusiones obtenidas en el presente trabajo.

Distribuciones Tipo Fase

Las distribuciones Tipo Fase, introducidas por primera vez por Neuts, son consideradas en diversas ramas de la ciencia e ingeniería gracias a que aceptan representaciones algorítmico-matriciales que son muy útiles de cara al análisis teórico y cálculo numérico. Asimismo, las distribuciones Tipo Fase constituyen una clase versátil que permite que cualquier distribución de probabilidad no negativa pueda ser aproximada tanto como se desee mediante una distribución Tipo Fase.

Una variable aleatoria no negativa \(X\) sigue una distribución Tipo Fase si su función de distribución viene dada por la siguiente expresión: \[F(t)=1-\alpha e^{\textbf{T}t}\textbf{e}, \ \ t\geq 0,\] donde \(\textbf{e}\) es un vector columna de dimensión apropiada cuyos elementos son 1, \(\alpha\) es un vector sub-estocástico de orden m, es decir, un vector cuyos elementos son no negativos y \(\alpha \textbf{e}\leq 1\), donde \(m\) es un entero positivo, \(\textbf{T}\) es un sub-generador de orden \(m\), es decir, \(\textbf{T}\) es una matriz \(m \times m\) tal que todos los elementos de la diagonal principal son negativos, todos los elementos fuera de la diagonal son no negativos o cero, todas las filas suman valores no positivos o cero y es invertible.

De la definición anterior se pueden extraer otras funciones empleadas en el ámbito de la fiabilidad como son la función de densidad, \(f(t)\), la función de fiabilidad, \(R(t)\), la función razón de fallo, \(h(t)\) y la función de fallo acumulada, \(H(t)\). Las expresiones que adoptan estas funciones en las distribuciones Tipo Fase figuran a continuación:

\[\begin{array}{l}
\ f(t)=\displaystyle \alpha e^{\textbf{T}t}\textbf{T}^0, \ \ t\geq 0, \ \ \textbf{T}^0=-\textbf{Te}, \\
\ \\
\ R(t)=\displaystyle \alpha e^{\textbf{T}t}\textbf{e}, \ \ t\geq 0,\\
\ \\
\ h(t)=\displaystyle \frac{\alpha e^{\textbf{T}t}\textbf{T}^0}{\alpha e^{\textbf{T}t}\textbf{e}}, \ \ t\geq 0, \\
\ \\
\ H(t)=\displaystyle \int_0^t \frac{\alpha e^{\textbf{T}t}\textbf{T}^0}{\alpha e^{\textbf{T}t}\textbf{e}}, \ \ t\geq 0. \\
\end{array}\]

Una definición alternativa a la dada anteriormente, puede ser la que dio Neuts por primera vez basándose en la idea de que estas distribuciones son definidas en el campo de las cadenas de Markov. Supongamos que se dispone de una cadena de Markov absorbente en tiempo continuo \(\lbrace I(t), \ t\geq 0 \rbrace\) con generador infinitesimal Q que será absorbida por el estado \(m+1\) con probabilidad uno. Entonces, una variable aleatoria Tipo Fase \(X\) se define como el tiempo de absorción por el estado \(m+1\) de la cadena de Markov en tiempo continuo, dado que la distribución inicial de la cadena de Markov es \((\alpha,1-\alpha \textbf{e})\). Ambas definiciones son equivalentes pero esta última es bastante útil en el modelado estocástico, ya que relaciona una variable aleatoria Tipo Fase con las cadenas de Markov en tiempo continuo. A modo de recordatorio, se aclara que un generador infinitesimal es una matriz finita/infinita para la cual todos los elementos fuera de la diagonal son no negativos, todos los elementos de la diagonal son negativos o cero y todas las filas suman cero (matriz conservativa).

En resumen, una distribución Tipo Fase se representa considerando solo los estados transitorios de la cadena de Markov asociada a través del par \((\alpha,\textbf{T})\), siendo \(\alpha=(\alpha_1, \dots ,\alpha_m)\) y \(\textbf{T}=(q_{ij})_{i,j=1, \dots,m}\) donde \(q_{ij}\) representa la intensidad de transición del estado i al estado j y \(\alpha_i\) la probabilidad de estar inicialmente en el estado \(i\).

Por otro lado, un importante resultado relacionado con estas distribuciones lo formuló Asmussen en [8] en forma de teorema en el que demostró que el conjunto de distribuciones Tipo Fase es denso en el conjunto de distribuciones de probabilidad no negativas. Este teorema implica una las razones principales por la que se usan ampliamente en el modelado estocástico: las distribuciones Tipo Fase pueden aproximar cualquier distribución de probabilidad no negativa tanto como se desee. Otra razón importante es la interpretación probabilística asociada a las representaciones de las Tipo Fase y sus buenas propiedades pudiendo expresar los resultados de forma algorítmico matricial. Además, esta clase de distribuciones es cerrada bajo una serie de operaciones tales como el mínimo, máximo, suma, etc. y poseen la propiedad de falta de memoria parcial.

En la introducción del presente trabajo se ha comentado que las distribuciones Tipo Fase engloban a una serie de distribuciones conocidas como la distribución Exponencial, distribución Erlang o la distribución Coxiana, entre otras. Estas distribuciones vienen precedidas porque las distribuciones Tipo Fase tienen representaciones matriciales que no son únicas, originando las distribuciones mencionadas. A modo de ejemplo, si se obtiene que el vector de probabilidades iniciales \(\alpha\) y la matriz de transición \(\textbf{T}\) toman las siguientes expresiones: [eq1]\[\alpha=(1,0,\dots,0,0); \ \ \textbf{T}=\left( \begin{array}{cccc}
-\lambda & \lambda & & \\
& -\lambda & \ddots & \\
& & \ddots & \lambda \\
& & & -\lambda
\end{array} \right)_{mxm},\]
entonces, esta estructura es bien conocido que corresponde a una distribución Erlang con estructura Tipo Fase. En [11] se recopila una colección de las expresiones que adoptan otras distribuciones mediante estructura Tipo Fase.

Finalmente, en cuanto a la estimación de las distribuciones Tipo Fase en estudios de fiabilidad, se suele utilizar un método gráfico para estimar los parámetros de las distribuciones de probabilidad clásicas cuando las estimaciones de sus parámetros presentan serias dificultades de cálculo como puede suceder, por ejemplo, con la distribución Weibull. Esta técnica paramétrica, que está basada en el principio de mínimos cuadrados, es utilizada con bastante frecuencia debido a su sencillez y porque permite una primera idea gráfica del ajuste. En [4] se detalla metodológicamente como funciona dicha técnica. Sin embargo, las distribuciones Tipo Fase no se pueden linealizar y por lo tanto, este método queda descartado para la estimación de los parámetros involucrados en ellas. Hay que tener en todo momento claro que en el ajuste de las distribuciones Tipo Fase se trabaja con un problema de optimización difícil dado que la representación de una distribución Tipo Fase es, en general, altamente redundante. Es por ello por lo que normalmente se recurre a un algoritmo iterativo, denominado algoritmo EM, para estimar los parámetros de una distribución Tipo Fase mediante máxima verosimilitud. Este algoritmo fue desarrollado por Asmussen en [9] y asumido por Buchholz en [10] y se basa en dos pasos principalmente: esperanza y maximización, de ahí su nombre. Debido a la dificultad de la notación y puesto que no es el objetivo del presente trabajo, se invita al lector a redirigirse a las referencias mencionadas si se estuviera interesado en la formulación del mismo.

Aspectos computacionales

Matlab ([12]) y R ([13]) quizás sean los dos programas informático-estadísticos más empleados en los últimos tiempos en el ámbito de la investigación en el campo de la Estadística. Incluso, se podría concluir que en los últimos años R ha sido, probablemente, el programa rey en la cima de la colina, aunque también es cierto que últimamente le ha salido un duro competidor en el mercado como es Python ([14]). Centrándonos en Matlab y especialmente en R, estos programas contienen paquetes en los que vienen implementadas funciones que trabajan con las distribuciones Tipo Fase.

En Matlab está disponible el paquete butools.ph (desarrollado por BuTools Team ([BuTools?,Team?])) el cual requiere que se inicie el script BuToolsInit para poder cargar dicho paquete. Este paquete contiene una serie de funciones básicas (momentos de una distribución tipo fase, la función de distribución, generación de números aleatorios de una Tipo Fase, etc.) y funciones algo más complejas referidas a herramientas de caracterización inversa y métodos de transformación de representaciones (distribuciones Tipo Fase de orden 2 y orden 3 en forma canónica y transformación de una representación exponencial en una representación acíclica de Tipo Fase, entre otros resultados).

Con respecto a R, existen al menos los tres siguientes paquetes dedicados a las distribuciones Tipo Fase:

  • mapfit ([15]): implementa métodos de estimación para la distribución Tipo Fase y procesos de llegada Markovianos a partir de datos empíricos (datos puntuales y agrupados) y función de densidad.
  • PhaseType ([16]): incluye funciones para realizar inferencia bayesiana en datos de tiempo de absorción para distribuciones Tipo Fase, con la idea de incluir también inferencia frecuentista y herramientas de simulación.
  • actuar ([17]): ha sido publicado recientemente y contiene las famosas funciones de R encargadas de generar números aleatorios, dar la función de densidad o la función de distribución o los cuantiles para una distribución Tipo Fase con vector \(\alpha\) y matriz de transición T (mapfit también cuenta con ellas). Es decir, las funciones análogas a las funciones dnorm(x, mean, sd), pnorm(q, mean, sd), qnorm(p, mean, sd) y rnorm(n, mean, sd) para el caso de la distribución Normal.

Para estimar los parámetros de las distribuciones Tipo Fase (y el valor de la log-verosimilitud), los autores de este trabajo recomiendan utilizar la función phfit.point del paquete mapfit de R o la aplicación EMpht que está disponible en la red. Ambas herramientas calculan los parámetros de las distribuciones Tipo Fase mediante el algoritmo EM, fijando de antemano el número de fases. Una vez que es fijado el número de fases, el usuario puede indicar si desea obtener una estructura Tipo Fase general para la representación \((\alpha, \textbf{T})\) o por el contrario está interesado en obtener una estructura más específica como puede ser la correspondiente a una Erlang o Coxiana.

Existen ocasiones en las que al seleccionar una estructura Tipo Fase general, ésta converge a una estructura que le corresponde a una distribución conocida como sucede en [5]. La aplicación EMpht acepta las estructuras Tipo Fase general, hiper-exponencial, hypo-exponencial, Coxiana y Coxiana general, mientras que mapfit solo cuenta con las estructuras Tipo Fase general, canónica e Hyper-erlang. La forma de presentación de los resultados obtenidos es más clara utilizando la aplicación EMpht, pero surge el problema de que si se quisieran realizar análisis complementarios, como por ejemplo realizar un gráfico, esta aplicación no dispone de la posibilidad de poder exportar la estimación obtenida a un fichero de datos que pueda ser utilizado en un programa estadístico posteriormente, teniendo el usuario que copiar a mano las estimaciones conseguidas, proceso realmente laborioso especialmente cuando el número de fases es elevado. Sirva como ilustración que si se seleccionan 3 fases, el número de parámetros estimados sería 12 (3 del vector \(\alpha\) y 9 de la matriz \(\textbf{T}\) considerando que la distribución se encuentra inicialmente en un estado transitorio), mientras que para un número de fases fijado en 6 , el número de parámetros estimados sería 42 (6 del vector \(\alpha\) y 36 de la matriz \(\textbf{T}\)). Por este motivo, los autores recomiendan utilizar la función implementada en mapfit si se piensa realizar un estudio más completo y usar la aplicación EMpht simplemente para comprobar la estructura que siguen los datos experimentales.

El problema que presentan estas herramientas computaciones cuando el número de fases es elevado y se dispone de una gran cantidad de datos experimentales es que el coste computacional es demasiado elevado. Si la estructura que sigue dichos datos es desconocida, no habrá más remedio que tener paciencia y trabajar de la manera usual. Sin embargo, en muchas ocasiones es sabido (por estudios previos, por creencias, por la forma que han sido registrados, etc.) que dichos datos pueden ser ajustados mediante una distribución conocida con estructura Tipo Fase. Siguiendo con el ejemplo de las memorias resistivas, después de varios análisis exhaustivos y pormenorizados se ha concluido que el voltaje de fallo de estas memorias puede ser modelado a través de una distribución Erlang con estructura Tipo Fase ([5]; [1]). Esto permite que el usuario se pueda saltar la primera parte de la estimación referida a la estructura que siguen los datos experimentales. En esta situación, donde la estructura de \((\alpha, \textbf{T})\) es conocida, el usuario puede elaborar un programa que estime los valores de estos parámetros de manera más eficiente que reduzca el coste computacional. En esta línea los autores del presente trabajo han elaborado un código R para el caso particular en que los datos puedan ser ajustados mediante una distribución Erlang con estructura Tipo Fase.

Como se ha comentado en el apartado anterior, la representación mostrada en ([eq1]) corresponde con una distribución Erlang con estructura Tipo Fase. El valor del parámetro \(\lambda\) es estimado mediante el cociente entre el número de fases \(m\) y la media de los valores experimentales \(\overline{x}\), es decir, \(\hat{\lambda }=\frac{m}{\overline{x}}.\) De esta manera, es realmente sencillo obtener el vector \(\alpha\) y la matriz \(\textbf{T}\), puesto que sería suficiente con elaborar un programa que, en función del número de fases fijado, determine la estructura de ([eq1]). Para el número de fases óptimo basta con crear una función que determine el valor de la log-verosimilitud de una distribución Erlang clásica para distintos números de fases dados (esto es fijar el valor del parámetro forma de una distribución Gamma) y quedarse con el valor que mejor ajuste proporcione. Asimismo, ya se tendrían a disposición las expresiones que adoptan el vector \(\alpha\) y la matriz \(\textbf{T}\), y a partir de ellas se podrían obtener de manera inmediata las expresiones de la función de distribución, la función de fiabilidad, etc., realizar representaciones con ellas, e incluso, realizar el test de Kolmogorov-Smirnov para comprobar si los datos experimentales se ajustan a dicha distribución.

Aplicación

Con el fin de mostrar el potencial de las distribuciones Tipo Fase en estudios de fiabilidad, se van a considerar datos experimentales provenientes de memorias RRAMS (resistive random access memories). Este tipo de memorias está presente en multitud de aparatos cotidianos (móviles, ordenadores, etc) gracias a sus excelentes propiedades físicas (tiempos de escritura/lectura más cortos, bajo consumo, alta retención, durabilidad,…), y son una de las fuentes de ingresos más importantes a nivel mundial en la industria de los semiconductores. El funcionamiento de las memorias RRAM está basado en los procesos de conmutación resistiva, que en la mayoría de los casos, crean y rompen un filamento conductor que provoca que la resistencia del aparato cambie drásticamente. Estos procesos de creación y ruptura del filamento conductor se conocen en los ámbitos de la investigación e industrial como procesos set y reset, respectivamente. Los cambios de resistencia provocan una muestra de curvas de tensión-intensidad correspondientes a los ciclos set y reset. Las curvas set/reset se caracterizan por la evolución del voltaje frente a la intensidad hasta que en un determinado punto (lo que se conoce como punto set/reset) se produce una subida/caída repentina de intensidad. Estos puntos set/reset son distintos en cada ciclo, lo que provoca diferentes intensidades set/reset y voltajes set/reset. A modo de ejemplo, nos centraremos únicamente en los ciclos reset. En la Figura 1 se muestran algunas curvas reset del estudio.

curvas

En esta área es de suma importancia ajustar una distribución a las intensidades o voltajes set/reset con el objetivo de estudiar el comportamiento de estos dispositivos. Por lo tanto, previo paso al análisis, se han obtenido todos los \(V_{reset}\) de todas las curvas reset de los 300 ciclos considerados. Una vez obtenidos estos puntos, el primer paso ha sido realizar el análisis estadístico habitual basado en la distribución Weibull que se aplica en la rama de la ingeniería cuando se está trabajando con datos experimentales correspondientes a memorias RRAM. En consecuencia, se han obtenido los Weibits calculados como \(ln(-ln(1-F(t)))\) y se han representado frente a los \(ln(V_{reset})\). Si el ajuste por la distribución Weibull fuera adecuado, los datos experimentales deberían seguir la línea correspondiente al ajuste, en el cual la pendiente corresponde al parámetro de forma \(\beta\) (\(\beta\) mide la dispersión estadística) y \(V_{63\%}\) es el inverso del parámetro escala. Los resultados del ajuste se muestran en la Figura 2.

Como se observa en la Figura 2, los Weibits de los datos experimentales no son lineales. Por tanto, aunque se podría realizar una aproximación más o menos precisa bajo el contexto de la distribución Weibull, parece razonable intentar ajustar otra distribución, en cuyo caso se utilizarán las distribuciones Tipo Fase.

weibull

Después de un análisis progresivo basado en la estimación paso a paso de las distribuciones Tipo Fase, se ha concluido que la distribución Erlang proporciona un buen ajuste para la variable \(V_{reset}\). Asimismo, se ha obtenido que el número de fases óptimo es 210, por lo que \(\lambda=203.415\). Una vez estimados los parámetros de la distribución Erlang con estructura Tipo Fase, se procede a comparar gráficamente la precisión del ajuste de esta distribución sobre los datos experimentales medidos. La tasa de fallo acumulada experimental estimada por las distribuciones Erlang y Weibull se muestran y se comparan en la Figura 3. A tenor de lo que muestra la gráfica, el mejor resultado se logra cuando se considera la distribución Erlang, obteniéndose un ajuste preciso que explica en gran medida los datos experimentales.

Por otro lado, la función de fiabilidad o la función de supervivencia, como se la conoce en ramas científicas no relacionadas con la ingeniería, principalmente en el campo de la biomedicina, es interesante para analizar las propiedades estadísticas de los datos con los que estamos tratando. La función de fiabilidad describe la probabilidad de que el filamento conductivo no se rompa para tensiones más pequeñas que el voltaje de fallo. La función de fiabilidad ha sido representada en la Figura 4 para los datos experimentales, además del ajuste por Weibull y Tipo Fase. Aunque ninguna distribución muestra una reproducción cercana de los valores experimentales, la distribución Tipo Fase funciona mejor que la distribución Weibull y logra un rendimiento razonablemente bueno.

weibull fase
fiabilidad

En consecuencia, podemos concluir que las distribuciones Tipo Fase, en particular, la distribución Erlang proporciona un ajuste más aproximado a los datos reales que la distribución Weibull. Finalmente se comprueba si estas distribuciones son aceptadas para los datos experimentales considerados. En la Tabla [Tabla 1] se muestra el estadístico y el p-valor asociado del test de Kolmogorov-Smirnov para cada distribución. Se aprecia que la única distribución que puede ser considerada es la distribución Tipo Fase.

[Tabla 1]

Valor del estadístico y del p-valor asociado del test de Kolmogorov-Smirnov al considerar la distribuciones Weibull y Tipo Fase.
Estadístico P.valor
Weibull 0.13329 \(<\)0.001
Tipo Fase 0.070634 0.1002

Conclusiones

El objetivo principal que persiguen los estudios de fiabilidad es analizar el comportamiento de sistemas mediante la modelización de los tiempos de vida (análogamente, los tiempos de fallo) o de otros valores relacionados directamente con el tiempo. En el ámbito de la docencia y en la mayoría de aplicaciones se suelen desarrollar metodologías que permiten un estudio detallado del funcionamiento de los sistemas a través del empleo de técnicas estadísticas clásicas basadas en el uso de las distribuciones de probabilidad clásicas (Weibull, Exponencial, Log-Normal, etc.). Sin embargo, en la vida cotidiana se plantean situaciones en las que estas distribuciones no se ajustan adecuadamente a los datos reales. Ante esta situación, se debe utilizar un enfoque diferente que solucione la falta de ajuste. Desde un punto de vista teórico y práctico, existen un tipo de distribuciones denominadas Tipo Fase con unas excelentes propiedades algebraicas que generalizan otras distribuciones clásicas, y facilitan el desarrollo metodológico mejorando considerablemente el ajuste que se obtiene al considerar las distribuciones clásicas de probabilidad.

La complejidad que presentan las distribuciones Tipo Fase se debe principalmente al desconocimiento que hay sobre ellas, que sumado a que el proceso de ajuste de las mismas es un problema de optimización difícil, dado que la representación de una distribución Tipo Fase es altamente redundante, hace que disponer de herramientas que permitan su estimación en fiabilidad sea de principal interés para el usuario.

En este trabajo se muestra una pequeña introducción a las distribuciones Tipo Fase, así como la bibliografía fundamental referida a ellas, y se revisan una serie de programas estadísticos (R, Matlab y la aplicación EMpht) que permiten trabajar directamente con ellas sin necesidad de disponer de unos amplios conocimientos sobre el tema. Por último, se realiza una aplicación a un conjunto de datos reales de memorias resistivas con el fin de demostrar el potencial que tienen las distribuciones Tipo Fase frente al análisis estadístico habitual empleado en esta área.

Agradecimientos

Este trabajo ha sido financiado por la Junta de Andalucía (grupo FQM-307) y por el Ministerio de Ciencia, Innovación y Universidad a través del proyecto MTM2017-87708-P (fondos FEDER incluidos). El trabajo de Christian Acal ha sido también subvencionado por la beca de doctorado FPU18/01779.

Acerca de los autores

Juan Eloy Ruiz Castro es Profesor Titular del Departamento de Estadística e I.O. de la Universidad de Granada y miembro del grupo de investigación Modelización y Predicción con Datos Funcionales de la Junta de Andalucía (FQM-307). Obtuvo la licenciatura y el doctorado en Ciencias Matemáticas por la Universidad de Granada y sus principales líneas de investigación son, análisis de datos de tiempo de vida con aspectos teóricos y aplicados en fiabilidad y supervivencia. Fruto de su dedicación docente e investigadora es la participación y dirección de proyectos financiados, autoría de artículos de investigación en revistas de alto impacto, libros docentes, y múltiples aportaciones en congresos nacionales e internacionales relevantes. Su actividad editorial es muy activa siendo en la actualidad editor asociado de diferentes revistas indexadas en Journal Citation Reports y revisor permanente en múltiples de ellas. Además, es miembro del Grupo de Trabajo GENAEIO de la SEIO, del International Group on Reliability (Gnedenko e-Forum), miembro del grupo Survival Analyisis del ERCIM WG Computational and Methodological Statistics y miembro del Instituto de Matemáticas de la UGR (IMAG).

Christian J. Acal González es estudiante de doctorado en el Programa de Doctorado en Estadística Matemática y Aplicada en el Departamento de Estadística e Investigación Operativa de la Universidad de Granada. Actualmente disfruta de una beca para la Formación de Profesorado Universitario (FPU) otorgada por el Ministerio de Ciencia, Innovación y Universidad de España y es miembro del grupo de investigación FQM-307 de la Junta de Andalucía y de los Grupos de Trabajo FDA y GENAEIO de la SEIO y del Instituto de Matemáticas de la UGR (IMAG). Fue el mejor expediente de la promoción 2013-2017 del Grado en Estadística en la Universidad de Granada y recibió el XII Premio Andaluz a la Mejor Trayectoria Académica en el Ámbito de la Estadística otorgado por la Fundación Bancaria Unicaja y la Academia de C.C. Sociales del Medio Ambiente de Andalucía. Su principal línea de investigación es el análisis de datos funcionales y sus aplicaciones en diversas áreas del conocimiento, aunque también trabaja habitualmente en temas de fiabilidad de sistemas.

Ana M. Aguilera del Pino es Catedrática del Departamento de Estadística e I.O. de la Universidad de Granada y miembro del grupo de investigación FQM-307: Modelización y Predicción con Datos Funcionales de la Junta de Andalucía. Licenciada y Doctora en Ciencias Matemáticas, sus principales líneas de investigación son el análisis de datos funcionales, el análisis de datos categóricos y sus aplicaciones en diversas áreas como la economía, el medioambiente, las ciencias de la salud y la ingeniería. Fruto de su dedicación docente e investigadora es la coordinación de proyectos financiados, la autoría de artículos en revistas de alto impacto, además de libros sobre cursos de probabilidad, datos categóricos y modelización funcional, y las aportaciones a congresos relevantes. Realiza también una intensa actividad editorial siendo actualmente Co-editora Jefe de la revista Test de la SEIO y Editora Asociada de Computational Statistics. Además, es miembro activo de los Grupos de Trabajo FDA y GENAEIO de la SEIO, del grupo Statistics for Functional Data del ERCIM Working Group Computing and Statistics, y pertenece al Consejo de Investigadores y la Comisión de Relaciones Externas del IEMath-Granada.

[1]
Pérez E, Maldonado D, Acal C, others. (2019). Analysis of the Statistics of Device-to-Device and Cycle-to-Cycle Variability in TiN/Ti/Al:HfO n.d.;214:104–9.
[2]
Long S, Cagli C, Ielmini D, others. (2012). Analysis and modelling of resistive switching statistics. J Appl Phys n.d.;111.
[3]
Epstein B. y Sobel M. Life testing. vol. 48. 1953.
[4]
Acal C, Ruiz-Castro J. E. y Aguilera AM. Distribuciones tipo fase en un estudio de fiabilidad. TEMat 2019;3:63–74.
[5]
Acal C, Ruiz-Castro JE, Aguilera AM, others. (2019b). Phase-Type Distributions for Studying Variability in Resistive Memories n.d.;345:23–32.
[6]
Neuts MF. Probability distributions of phase type. Liber Amicorum Professor Emeritus Dr. H. Florin; 1975.
[7]
Neuts MF. Matrix-geometric solutions in stochastic models: An algorithmic approach. Courier Corporation; 1994.
[8]
Asmussen S. Ruin probabilities. Hong Kong (Chinese: World Scientific; 2000.
[9]
Asmussen S, Nerman O. y Olsson M. Fitting phase-type distributions via the EM algorithm. Scand J Stat 1996;23:419–41.
[10]
Buchholz P, Kriege J. y Felko I. Input modeling with phase-type distributions and Markov models, theory and applications. Heidelberg: Springer; 2014.
[11]
He QM. Fundamentals of matrix-analytic methods. New York (EEUU: Springer Science+Business Media; 2014.
[12]
Works TM. Natick, MA: The Math Works, Inc. URL , title = MATLAB, year = 2020,; n.d.
[13]
Team RC. R: A language and environment for statistical computing. 2019.
[14]
Psf T. Python software. 2019.
[15]
Okamura H. Package “mapfit: A tool for PH/MAP parameter estimation.” En: 2015.
[16]
Aslett L. Package “PhaseType: Inference for phase-type distributions.” En: 2012.
[17]
Goulet V, Auclair S, Dutang C, others. (2019). Package ’actuar: Actuarial Functions; Heavy Tailed Distributions’. En; n.d.

Más BEIO

Una mirada feminista y cariñosa a la Sociedad de Estadística e Investigación Operativa

Descripción gráfica y numérica de la composición de las socias y socios de la Sociedad de Estadística e Investigación Operativa cuyo objetivo es conocer con más detalle las características de sus miembros, especialmente en relación a su género binario, edad, tipo de membresía en relación a la sección en la que se integran, antigüedad y comunidad autónoma de procedencia.