Técnicas estadísticas en geolingüística. Modelización onomástica

María José Ginzo Villamayor
Departamento de Estadística, Análisis Matemático y Optimización. Universidade de Santiago de Compostela
ORCid: 0000-0001-6392-3812 mariajose.ginzo@usc.es




Esta tesis ((Ginzo-Villamayor 2022)), se centra en la introducción de nuevas técnicas estadísticas para el tratamiento de datos y modelización en geolingüística, concretamente, en datos de onomástica en Galicia. El documento se estructura de acuerdo a dos problemas principales: (i) construcción de regiones de apellidos en Galicia y (ii) estudio y modelización de patrones espaciales y espacio-temporales de los apellidos.

Los apellidos pueden utilizarse como fuente de información para caracterizar la población de una región, dado que el análisis de los patrones que se observan en su distribución proporciona información sobre movimientos y características de las poblaciones. La identificación de estos patrones a través de medidas de isonimia es un problema que ha sido abordado por diferentes autores. A pesar de la amplia literatura existente sobre la construcción de regiones de apellidos mediante medidas de isonimia, no se aprecian avances metodológicos relevantes, y en la mayoría de las propuestas se utilizan medidas clásicas (Lasker, Nei o isonimia entre zonas, entre las más comunes).

Estas técnicas se emplearon en los datos de los apellidos de Galicia, obtenidos del censo, datos cedidos por el Instituto Gallego de Estadística (IGE). Se concluye junto con expertos consultados del Instituto de la Lengua Gallega, que la regionalización de apellidos en Galicia en cinco grupos a partir de la distancia de Lasker, coincide con el mapa de las diócesis de Galicia. Las semejanzas entre la estructura poblacional identificada en el estudio de los apellidos y estas divisiones eclesiásticas deben ser interpretadas en detalle por los historiadores y demógrafos.

Este análisis también se llevó a cabo para los apellidos de Asturias (datos cedidos por la Sociedad Asturiana de Estudios Económicos e Industriales (SADEI)), donde se realiza un análisis comparativo de los datos onomásticos y los datos lingüísticos.

El objeto de la investigación fueron los datos onomásticos y geolingüísticos de Asturias, que forma parte del dominio lingüístico histórico denominado asturleonés. Los métodos aplicados en el análisis de la distribución de los apellidos de Asturias, en parte similares a los utilizados desde hace años para estudiar la estructura de las poblaciones en otros espacios, nos han ayudado a descubrir la existencia de cuatro regiones onomásticas de configuración similar a las áreas dialectales tradicionalmente reconocidas en el dominio asturiano.

La división del territorio en cuatro clusters de apellidos pone de manifiesto las numerosas coincidencias con las cuatro variedades lingüísticas reconocidas del asturiano. Los resultados obtenidos en este análisis comparativo confirman la utilidad de los datos onomásticos en la investigación de los orígenes y causas históricas de la distribución espacial de las variedades lingüísticas. Este tipo de investigación, que hasta ahora se ha centrado en el análisis de dominios lingüísticos extensos, debería aplicarse también al estudio de áreas lingüísticas menores. Todas ellas contribuirán a ampliar nuestro conocimiento sobre las sociedades y la forma en que se relacionan y se relacionaron con las lenguas y el espacio. Los apellidos se revelan como una importante fuente de información para el estudio de las lenguas, tanto en la actualidad como en el pasado.

Estos resultados fueron publicados en (Sousa-Fernández and Ginzo-Villamayor 2020). Tienen resultados similares para el caso del catalán, en la región formada por las comunidades autónomas de Cataluña, Comunidad Valenciana e Islas Baleares. En otros países otros autores, han llegado a conclusiones semejantes entre estructura de apellidos y variedades lingüísticas, no ocurre así en el caso del gallego.

Teniendo en cuenta que las medidas tradicionales surgen como adaptación de índices de biodiversidad clásicos, el primer objetivo de esta tesis fue la adaptación y propuesta de nuevas técnicas de medidas de biodiversidad al contexto de la onomástica. Se realizaron las adaptaciones convenientes, estudiando mediante simulación su comportamiento en distintos escenarios. Se revisaron además otros índices de biodiversidad para evaluar su posible adaptación al contexto de estudio.

Los conceptos de isonimia ya citados están muy relacionados con los conceptos de diversidad en ecología, grandes valores de isonimia, indican menor diversidad de apellidos (es el caso del sur de Lugo y la provincia de Ourense, dominadas principalmente por apellidos de tipo patronímicos), entendiendo cada apellido como una especie diferente, y viceversa, valores pequeños de isonimia implican mayor diversidad (provincias de A Coruña y Pontevedra, con gran presencia de apellidos toponímicos y apelativos). En esta tesis también se hace una clasificación de los apellidos, empleando técnicas de web- scraping, rastreando diccionarios oficiales de la lengua gallega, española e incluso portuguesa. La lingüística considera diferentes clasificaciones de los apellidos en función de su motivación, morfología o semántica. (Boullón-Agrelo 2008) propone la siguiente clasificación para los apellidos gallegos: apelativos, patronímicos y toponímicos. Se realizaron estudios de migración estudiando los comportamientos de los apellidos y se tuvo en cuenta en muchos de los análisis el fenómeno de urbanización en Galicia entorno a los años 60-65 del pasado siglo.

Las investigaciones desarrolladas en el campo de la onomástica, hasta la fecha, no han tenido en cuenta la dimensión espacial y espacio-temporal de la evolución de los apellidos. Fijando regiones administrativas, como los ayuntamientos, se pueden usar métodos espaciales y espacio-temporales para el análisis de datos de conteo que permitan modelar el patrón subyacente a la evolución de los apellidos. Con este objetivo, se usaron métodos de modelización jerárquica. Para el ajuste, se empleó la metodología Integrated Nested Laplace Approximation.

Finalmente, el tercer objetivo fue la implementación de una librería en código abierto en R (OnomasticDiversity) que permite poner a disposición de los usuarios las técnicas desarrolladas.

Referencias

Boullón-Agrelo, A. I. 2008. “I Nomi Nel Tempo e Nello Spazio – V. Atti Del XXII Congresso Internazionale Di Scienze Onomastiche Pisa.” In, II:299–310. Edizioni ETS.
Ginzo-Villamayor, M. J. 2022. “Statistical Techniques in Geolinguistics. Onomastic Modeling.” PhD thesis, University of Santiago de Compostela.
Sousa-Fernández, X., and M. J. Ginzo-Villamayor. 2020. “Surname Regions and Dialectal Variation in the Asturian Linguistic Space.” Journal of Linguistic Geography 8 (2): 102–14.

Más BEIO

Can we really predict injuries in team sports?

This paper illustrates from a statistical perspective what challenges need to be addressed from data collection, analysis of player performance and scientific reflection on questions of interest for informed decision making in sports medicine.

What does the research tell us about the understanding of the random variables and its probability distributions?

La variable aleatoria representa uno de los conceptos clave en el modelamiento de fenómenos aleatorios a través de las distribuciones de probabilidad. Por tanto, este estudio tiene como objetivo analizar y describir las principales investigaciones que la literatura reporta sobre variable aleatoria y su distribución de probabilidad. Los resultados muestran la existencia de algunas propuestas de enseñanza en torno a estas nociones, las cuales se caracterizan por utilizar tecnología.

Técnicas estadísticas en geolingüística. Modelización onomástica

Esta tesis se centra en la introducción de nuevos métodos estadísticos para el tratamiento de datos y la modelización en geolingüística, concretamente, en los apellidos de Galicia. El trabajo realizado contempla dos problemas principales: (i) la construcción de regiones de apellidos en Galicia y (ii) la modelización de patrones espaciales y espacio-temporales de apellidos en esta región.

Conceptos de modelización en la formación universitaria de los analistas de datos

A lo largo de los años hemos observado que los titulados en programas universitarios relacionados con el análisis de datos solemos tener cuando finalizamos nuestros estudios una visión parcial del proceso de modelización de problemas. En este artículo repasamos algunos de los conceptos que los analistas de datos van a tener que manejar cuando se incorporen al entorno empresarial y que tal vez podrían ser incluidos en los planes de estudio de esas titulaciones.

Contributions to Close-Enough Arc Routing Problems

En esta tesis doctoral nos centramos en el estudio y la resolución de problemas de Rutas por Arcos basados en el concepto Close-Enough, que se refiere a servir a los clientes al pasar a una cierta distancia de ellos. Para resolverlos de manera óptima, se han diseñado e implementado algoritmos Branch and Price y Branch and Cut. Además, al ser un problema NP-hard, hemos propuesto algoritmos metaheurísticos para obtener soluciones buenas en un tiempo de computación considerable. Tesis defendida por Miguel Reula Martín.

Una mirada feminista y cariñosa a la Sociedad de Estadística e Investigación Operativa

Descripción gráfica y numérica de la composición de las socias y socios de la Sociedad de Estadística e Investigación Operativa cuyo objetivo es conocer con más detalle las características de sus miembros, especialmente en relación a su género binario, edad, tipo de membresía en relación a la sección en la que se integran, antigüedad y comunidad autónoma de procedencia.