Análisis de sentimiento usando Teoría de Cópulas

Invariablemente cada vez que hago mención acerca de la teoría de Cópulas escucho dos tipos de comentarios: El primero tiene que ver con dudas respecto al término, y el segundo, entre risas, tiene que ver con bromas de tipo sexual. Curiosamente esto último pudiera acercarse más a su  definición. Pero más importante, es saber para qué sirve y como se puede utilizar.

A mediados del siglo XIX, cuando audaces reverendos en toda Europa profetizaban el fin del mundo, nació el concepto de correlación lineal [Galton (1885)]. No hace falta mencionar que dicho término dominó la estadística durante casi todo el siglo XX. Sin embargo, lo más sorprendente del asunto es que a pesar de su aplicabilidad tan limitada y desventajosa, la correlación lineal ha servido como la única medida de dependencia generalmente aceptada, a pesar de resultar en ocasiones claramente inapropiada [Samuel Kotz (2001)].

Digamos que en una encuesta los resultados arrojan que la gente dice mejorar el sabor de sus alimentos al agregarles ‘sal’. Usar el concepto de correlación lineal para modelar este comportamiento, equivale a asegurar que agregar sal a la comida de forma indefinida mejorará siempre su sabor. Todos sabemos que no es cierto, que llegará el momento en que la comida quedará saturada y tendrá un sabor espantoso. Dados los datos de la encuesta, la falla en este concepto radica en considerar que a mayor cantidad de sal, mejor sabor ¡Y eso es un error!

Según Embrechts, profesor de Matemáticas de la Escuela Politécnica Federal de Zúrich, la correlación lineal es un campo minado para el desprevenido y no debiera tomarse como la medida canónica de dependencia, por lo tanto habrá que considerar dejarla descansar en paz [Embrechts (1999)].


Actualmente la manera moderna de modelar estructuras de dependencia entre variables aleatorias es a través de Cópulas. Nacida del teorema de Sklar (1959) una cópula es una función que liga o acopla el comportamiento de dos o más variables en forma conjunta. Dicho de otro modo, una Cópula posee la información de cómo interactúan sus variables conjuntamente [Sklar (1959)].

Imaginemos que tenemos una muestra de datos bivariados (X, Y) y queremos estudiar su dependencia. Usando la teoría de cópulas, y sin entrar en detalles acerca su tipo, tendríamos como resultado la imagen de la Figura 1. En esta figura se presentan 3 diferentes cópulas generadas a partir de distintas cantidades de datos: La cópula de la izquierda tiene 5 datos, la del centro 20 y la de la derecha tiene 380. La idea de presentar estas imágenes es hacer notar dos cosas: Primero, la interacción real entre X y Y, la cual es resultado de ligar o acoplar sus comportamientos individuales. La segunda, que a mayor cantidad de datos dicha interacción se vuelve más fina y por lo tanto más precisa, cosa que no necesariamente sucede con los modelos lineales.


Figura 1. Tres Cópulas empíricas construidas con diferente cantidad de información. De izquierda a derecha: 5, 20 y 380 datos.

La necesidad de establecer modelos de correlación o dependencia entre múltiples tipos de variables es muy poderosa, tanto que prácticamente existe en cualquier campo de las ciencias. Por ejemplo, en el Procesamiento de Lenguaje Natural (PLN), en particular en el análisis de sentimiento, existe la necesidad de establecer modelos de dependencia entre variables que contribuyen fuertemente a conocer una opinión. Con esta información es posible ayudar a compañías, marcas o gobiernos a mejorar la precepción que la gente tiene de ellos.

Para lograr hacer un buen análisis es necesario modelar la relación Sentimiento-Intensidad la cual exhibe una dependencia de tipo compleja y que no puede ser modelada a través de los métodos tradicionales. La figura 2 muestra el gráfico de dispersión de un conjunto de datos de esta relación. En ella se muestra claramente la insuficiencia del modelo de correlación lineal para representar a los datos (línea roja).


Figura 2. Diagrama de dispersión de la relación Sentimiento – Intensidad modelada con regresión lineal. La línea roja representa dicho modelo.

Dada la naturaleza de esta relación es necesario establecer modelos que sí reproduzcan la variabilidad de los datos de forma natural, sobre todo en aquellos casos en los que está involucrada una emoción humana. En la Figura 3 tenemos una representación muy cercana a los datos reales lograda con Cópulas. Las líneas de la Figura 3 representan un “encapsulamiento” de los datos por parte del modelo, de manera que se puede asegurar que ha sido atrapado su comportamiento natural.


Figura 3. Diagrama de dispersión de la relación Sentimiento – Intensidad modelada por cópulas. Cada línea representa una regresión a un cuantíl dado: Roja-cuantíl 0.1, verde - 0.5 y Azul – 0.9.

En el modelo pueden ser introducidas cuantas variables sean necesarias. Por lo que es posible generar la predicción de sentimiento de un texto usando información de distintas fuentes, en INFOTEC se está innovando la utilización de este tipo de modelos, en combinación con algunos métodos ya establecidos para la detección de sentimientos, y los avances que hasta ahora se tienen generan predicciones de hasta un 79% de exactitud (lo cual es muy elevado).

El uso de cópulas poco a poco ha comenzado a desplazar a los modelos tradicionales en distintas áreas de la ciencia. Justo ahora se están generando nuevas colaboraciones con investigadores de la Universidad de Berkeley para implementar dichos modelos. En específico en el área de la biología sintética, la cual  busca diseñar nuevos sistemas biológicos programables que no existen en la naturaleza. Estos biosistemas pueden ser desde biosensores ambientales, hasta “micro-fabricas para la producción de medicamentos que serían imposibles obtener con la química tradicional (Keasling, 2012) .  

Cuando un investigador de biología sintética está intentando diseñar una nueva función en un microorganismo,  un gran reto es lograr identificar el efecto multivariado de una gran cantidad de genes en elementos observables específicos, como son la capacidad de producción de un medicamento por parte del microorganismo sintético. Sin embargo, la capacidad de producción de este medicamento depende de un gran número de factores genéticos y moleculares, y es necesario considerar todas las posibles interacciones (Ajikumar et al., 2010). Es aquí donde las bondades de la optimización a través de la teoría de cópulas está permitiendo al investigador discernir y predecir con éxito estas relaciones,  promoviendo un rápido avance en el desarrollo de nuevos medicamentos y tratamientos (Kim et al. 2008).
   

  • D. D. Mari and S. Kotz (2001). Correlation and Dependence. London: Imperial College Press.
  • Sklar  A.,  1959.  Fonctions  de  répartition  á  n-dimensions et leurs marges, Publ. Inst.  Statist. Univ. Paris. 8, 229-231.
  • Sancetta A., Satchell S., 2004, The Bernstein  copula and its applications to modeling and approximations of multivariate distributions.  Econometric Theory. 20, 535-562.  
  • Hernandez-Maldonado V., Diaz-Viera M., Erdely A., (2114). A multivariate Bernstein copula model for permeability stochastic simulation. Geofísica internacional. 53-2: 163-181.
  • Embrechts P., McNeil A., Straumann, D., 1999, Correlation: pitfalls and alternatives, Risk  Magazine 5, 69-71.
  • Ajikumar, P. K., Xiao, W.-H., Tyo, K. E. J., Wang, Y., Simeon, F., Leonard, E.,  Stephanopoulos, G. (2010). Isoprenoid pathway optimization for Taxol precursor overproduction in Escherichia coli. Science (New York, N.Y.), 330, 70–74.
  • Keasling, J. D. (2012). Synthetic biology and the development of tools for metabolic engineering. Metabolic Engineering, 14, 189–195.
  • Kim, J.-M., Jung, Y.-S., Sungur, E.A., Han, K.-H., Park, C., and Sohn, I. (2008) A copula method for modeling directional dependence of genes. BMC Bioinformatics, 9, 225.


(Artículo publicado originalmente en la revista Develop Network No. 13 en su edición noviembre 2015).

Por Dr. Victor Hernández Maldonado, Investigador y Desarrollador en la Gerencia de Desarrollo de Nuevos Productos y Servicios de INFOTEC y Leonardo Ríos Solís, Investigador de la Universidad de Berkeley.


Comentarios

 

 

INICIA SESIÓN
Regístrate aquí
VIDEOS
JAVIER SOLÍS GONZÁLEZ

GALERÍA

¡ÉCHALE UN OJO A LAS IMÁGENES!

AQUÍ PODRÁS ENCONTRAR TODOS NUESTROS WALLPAPERS, INFOGRAFÍAS, ESQUEMAS Y MÁS.

LO MÁS VISTO