xG (Expected Goals) desde cero, #LVN1
En esta primera entrada de la newsletter introducimos una métrica clave en la "revolución" estadística del fútbol. Como veréis, no esconde gran dificultad, apto para ciencias y letras.
Bienvenidos a LaVitrina Semanal. La intención de este pseudo-blog es hacer entradas lo más amenas posible (10 minutos de lectura como máximo) sobre fútbol y Celta. Ya hemos dado bastante la lata en Twitter estos días así que, si estáis leyendo esto, damos por hecho que sabéis qué hacéis aquí. Por ello, iremos al grano.
En la Vitrina de hoy, #1 de la historia, introduciremos y explicaremos un concepto básico de la estadística avanzada en el fútbol. Será frecuente que utilicemos esta métrica en Vitrinas futuras por lo que puede ser útil entenderla desde el principio. Antes de empezar, tres apuntes:
Descargo de responsabilidad 1: Pedimos disculpas adelantadas por posibles errores dialécticos, sintácticos o de puntuación que dificulten la lectura. Por lo menos el que escribe la entrada de hoy (el otro miembro escribe mucho mejor) es consciente de que los va a cometer.
Descargo de responsabilidad 2: La métrica de la que vamos a hablar no ha sido creada o pensada por ninguno de nosotros. Simplemente extraemos lo más importante de la creación de otros, ya sean particulares, profesionales del análisis de datos o empresas futbolísticas. Intentaremos citar.
Descargo de responsabilidad 3: El contenido de esta entrada trata de mostrar una visión sobre el fútbol de hoy en día, que es la analítica; los datos que se pueden extraer del juego. Para entendernos, puede ayudar a ver el juego como una hoja de excel, lo que tiene ventajas y desventajas. De nada sirve sin complementarse con conocimiento táctico y futbolístico real.
Los Goles Esperados (xG). Qué es el famoso xG
En Twitter hemos hablado muchas veces del tema.
La premisa básica detrás del xG es cuantificar la probabilidad de que un chut desde una zona determinada del campo acabe siendo gol, es bastante intuitivo. Todos hemos escuchado ‘Eso tiene que ser gol’ cuando un delantero falla una ocasión, o ‘Necesitamos generar mejores ocasiones’ en una rueda de prensa d̶e̶ ̶F̶r̶a̶n̶ ̶E̶s̶c̶r̶i̶b̶á̶ post partido. Bien, el xG no es más que una cuantificación de esa noción.
Hoy en día se tiende a pensar que detrás de la estadística avanzada se esconde un conocimiento “científico” inaccesible para la mayoría de la población. Lo cierto es que no es así, la teoría no tiene más de lo que acabamos de contar. En serio. Sí, es cierto que para crear un modelo personalizado de xG es necesario saber de matemáticas, estadística y programación, pero para entender un poco mejor lo que sucede en el campo y escoger mejores jugadores en Biwenger no hace falta sumergirse en más de lo que vamos a contar. A los pseudo-científicos les gusta mucho darse autobombo y pensar que la sofisticación de su modelo va a darle la vuelta al fútbol cuando lo cierto es que nada más lejos de la realidad, el xG es una herramienta increíble (especialmente en términos agregados) y un complemento ideal para el eye-test, pero no nos debe cegar.
Tras este comentario pasivo-agresivo continuamos, pasemos al gol de Aspas en el Sánchez Pizjuán el pasado sábado. Diseccionemos.
Tras ver el “centro” de Hugo Mallo y el mal blocaje de Vaclik, ¿qué probabilidad le dais a Aspas de anotar una vez le cae el rechace en los pies? Tengamos en cuenta que no tiene defensas cerca, que el portero está vencido y que el balón cae cómodo sobre su pierna buena.
Un modelo de xG creado con líneas de código tendría en cuenta muchas variables (el objetivo es mecanizar lo que vemos con nuestros ojos) para darle un valor a la ocasión, por ejemplo:
1.- Posición y ángulo del disparo; para analizar proximidad y escora ante la portería. Cuánto más cerca y menos escorado, mejor, ergo xG crece.
2.- Altura del remate.
3.- Proximidad de defensas y portero. Cuánto más aislado (como en este caso), mejor.
4.- Parte del cuerpo del remate. Cabeza, zurdo, diestro…
5.- ¿Remata con la pierna buena? (¿es Aspas zurdo?)
Etc., etc., etc.
Analicemos ahora manualmente. Sin restarle méritos a Iago, pues hay que estar en el sitio cuando se dan estas ocasiones, no es ninguna tontería decir que, de repetirse 100, 1000 o 10k veces, este tiro en concreto se anota muchísimas de ellas. Pongamos que 8 o 9 (tirando por lo bajo) de cada 10 esa ocasión es gol. Dividiendo entre 10 para obtener el ratio entre 0 y 1 (para compararlo con los goles que se anotan en un partido) obtenemos el valor del xG. Según nuestros cálculos ese gol tiene un valor de 0.8.
Apunte: el xG de un penalti es alrededor de 0.75 puesto que se estima que un penalti tiende a anotarse tres de cada cuatro veces.
Veamos ahora el valor otorgado por el modelo de understat.com (fuente de data avanzada gratuita habitual), ¿será superior o inferior a nuestra estimación manual?

Sí, sé lo que estáis pensando. “¿0.67? ¿Cómo va a tener un valor tan bajo? ¿Me estás diciendo que ese tiro a puerta se anota sólo 2 de cada 3 veces?”
OK. De acuerdo, es un valor bajo para lo que debería ser. Pero es que precisamente por esto es necesario el ojo humano! De todos modos, la utilidad del xG crece cuando agregamos los datos a lo largo del partido o, mejor, períodos largos de tiempo [temporadas, años naturales, duración de entrenador (entrenadores, en plural, en el caso del Celta) en el cargo…], ¿por qué decimos esto?
Por lo mismo que sabemos que en el experimento de lanzamiento de una moneda las probabilidades del resultado son 50% cara y 50% cruz. Si repetimos el experimento n=10 veces puede que nos salga 8 veces cara (80%) y 2 cruz (20%) pero, con el aumento de las repeticiones a n=50, 100 o 1000, el error se va a compensar y nos saldrán unos valores bastante próximos al 50% por cada lado.
De la misma manera, en el caso del xG los errores por exceso y por defecto se compensan de forma que el cálculo del xG es más preciso en el largo plazo (38 partidos = 3500 minutos, por ejemplo) que si cogemos, como en el caso de Aspas, unos pocos segundos de fútbol y un sólo disparo.
Es por esto que el xG adquiere utilidad con el tiempo y, a seghún, puede no serlo en el corto plazo. La analítica gana con el tiempo y el ojo humano pierde, quizás es por esto que la optimización reside en la mezcla!
Bien pues, finalizando, *esto* es el xG. Otorgarle a cada disparo que se realiza en un partido una probabilidad de acabar siendo gol. De la misma manera, esto se puede aplicar en el apartado defensivo para conocer cuánto se le está concediendo al rival. No hay más.
Llegados al fin de la entrada, pedimos ayuda con la difusión del contenido. Si os ha gustado compartidlo en Twitter o mandádselo a quién le pueda interesar.
Recordad que debéis suscribiros y seguirnos en Twitter.
La utilidad del xG, ¿cómo optimizar su uso?
En nuestra próxima entrada explicaremos cómo usar el xG agregado para evaluar delanteros… con el ejemplo de un jugador que la está rompiendo.