Una base de datos enorme, tanto de música como de hábitos de consumo, tiene las puertas abiertas para cualquier curioso que quiera aventurarse a recorrerla. O mejor dicho, entreabiertas. Los hábitos de consumo están bajo llave -salvo los propios- pero una enorme cantidad de información respecto a la música que en ella se almacena está disponible para investigar de forma masiva. Siempre y cuando, se sepa qué es lo que se está buscando.
En particular, la creciente popularidad de Spotify en Argentina -desde su lanzamiento en el 2013- la ha convertido en el sitio predilecto para que toda clase de artistas carguen su música. Sean del género que fueren, sean conocidos o desconocidos, hayan grabado profesionalmente o con un celular -y lo hayan hecho hoy o hace 50 años-, todo músico tiene su presencia digital garantizada, si así lo desea.
Con cada canción publicada, también se carga una gran cantidad de información -directa e indirectamente relacionada- que la plataforma almacena. Estos datos se utilizan a diario para hacer toda clase de inferencias y análisis respecto a los vínculos y cualidades musicales de todo álbum, sencillo, compilado, y canción en el catálogo.
La página web para desarrolladores de la plataforma lo resume de la siguiente manera: “Basado en principios REST simples, la API web de Spotify provee información sobre artistas musicales, álbumes y canciones, directo del catálogo de Spotify Data. También, provee acceso a la información relacionada con un usuario, como sus listas de reproducción o música guardada. Tal acceso se autoriza de manera selectiva por el usuario.”
Una API es una interfaz de programación para una aplicación, los principios REST son un estilo de diseño de software para sistemas distribuidos -es decir con partes que se comunican independientemente- y, en este caso, ambos son el canal por el que se puede acceder a los datos que la plataforma tiene y quiere compartir.
Esta provee información sobre cuántos seguidores tiene un artista, qué tan popular es, a qué géneros -calcula- pertenece, y con quiénes se lo puede relacionar. Para cada uno de sus lanzamientos, sean albumes, singles o compilados, provee su fecha de publicación y una serie de atributos para cada canción: si es explícita, en qué tonalidad está, en qué modo (mayor o menor), su métrica y tempo, su duración, y su volumen percibido. Además, permite calcular una serie de características que -para Spotify- determinan la esencia de una canción.
La base de datos recolectada se compone de 5083 artistas argentinos curados de distintos medios: páginas enciclopédicas como www.rock.com.ar, diversas playlists de diversos géneros de música nacional, y una búsqueda reiterada a los ‘artistas relacionados’ -una información que provee la plataforma- de cada músico ya en la base de datos, y de los ‘artistas invitados’ para cada canción suya.
Dado que Spotify no comparte información sobre la procedencia de los artistas, cada uno fue seleccionado bajo algún claro indicio de pertenecer al país -o de tener miembros argentinos en el caso de las bandas-, sea por medio de una búsqueda por afuera de Spotify, o que en su ‘bio’ o ‘géneros’ se destaque su localidad.
Se tomaron precauciones en este último caso, ya que se encontraron artistas locales catalogados en referencia a otros países (el 0.47% del total). Por ejemplo, la histórica banda de rock progresivo Crucis es catalogada como perteneciente al rock progresivo italiano.
Para tener un pantallazo de toda esta información, podemos concentrarnos en tres aspectos principales: qué y cuánto se publica, cuáles son los géneros más comunes, y a quiénes se los escucha más.
Es moneda corriente entre los artistas emergentes decir que lo más importante ya no es lanzar álbumes, sino sencillos. Entre las razones, se suele citar la idea que lanzar poco material ‘seguido’ mantiene más el interés que lanzar mucho ‘cada tanto’. ¿Hasta qué punto se verifica está idea en los datos?
El siguiente gráfico describe la cantidad de lanzamientos, de álbumes y de sencillos, por mes, desde el año 2000 hasta el final del 2021 para todas las muestras con una fecha de lanzamiento exacta (el 95.4% del total):
Ya que es posible que los datos previos al lanzamiento de la plataforma no sean representativos, por incompletos -probablemente muchos de los sencillos y álbumes ‘menores’, que fracasaron o fueron olvidados, nunca se cargaron en el catálogo-, es mejor concentrarse en los años posteriores.
En estos, la diferencia es significativa. Del 2013 al 2017 hubo -al menos- 4,036 álbumes y 2,841 sencillos. Una relación de 0.7 sencillos por álbum. En cambio, en los últimos cuatro años se lanzaron -al menos- 4,017 álbumes y 15,258 sencillos. Es decir, 3.8 sencillos por álbum.
Los datos parecen confirmar el patrón mencionado más arriba y, además, muestran que la cantidad de lanzamientos, en general, comienza a acelerar pasado el 2013. Más allá, el aumento sigue siendo significativo hasta el día de hoy. Una explicación posible es que la masificación de los métodos de grabación caseros y la sencillez para publicar en esta plataforma, o similares -en comparación a la publicación por medio de sellos discográficos-, permiten que cada vez más bandas y artistas puedan producir y lanzar su música.
No solo eso: a pesar de las dificultades, el 2020 fue el año con mayor cantidad de lanzamientos de las últimas dos décadas. Fue el doble que tanto en el 2019 como en el 2021.
Acerca de los géneros, del total de la muestra, el 61% no tiene ninguno asociado o no se le han asignado. Para el resto, unos 1987 artistas, el siguiente gráfico resume cómo se distribuyen:
Un mismo artista puede pertenecer a más de un género pero no se considera que pertenezca a más de un subgénero dentro del mismo. Es decir, no hay necesariamente una relación uno a uno entre artistas y la cantidad de géneros a los que pertenecen, pero sí entre artistas y géneros en particular (cuando pertenecen a más de un subgénero dentro del mismo).
También, se optó por incluir aquellos subgéneros que hacen referencia explícita a otros países, ya que no necesariamente se refieren a la procedencia (y se verificó), sino que pueden referirse a tipos de música regional que bien pueden ser interpretados por algún artista argentino.
Si se considera que los datos son lo suficientemente representativos, el gráfico muestra cómo se distribuyen por cantidad algunos de los géneros más comunes de la música argentina.
A pesar de que Spotify no brinda una forma detallada de conocer los hábitos de consumo de los oyentes de su plataforma, se puede tener una idea del peso que tienen los diversos artistas por los datos que sí comparte: su ‘popularidad’ y su cantidad de seguidores.
La ‘popularidad’ -según la documentación de la plataforma-, se refiere a “la cantidad de reproducciones de cada track del artista” y de ”qué tan recientes son esas reproducciones”. En particular, se altera día a día. Como la muestra no registra estos cambios, resulta más conveniente enfocarse en la cantidad de seguidores.
El siguiente histograma muestra cómo se distribuyen los artistas de la muestra según este último dato. Se tomó una escala logarítmica para abarcar todo el rango. Salvo las primeras, las cajas representan medidas equidistantes.
Se puede observar que el 36.67% de los artistas tienen -a lo sumo- 100 seguidores, el 68.23% -3,468 artistas- no supera los 1,000 seguidores, y el 90.79% -4,615 artistas- no supera los 20,000 seguidores. Solo un 0.75% supera el millón: 38 artistas.
A pesar de las apariencias del gráfico (por la escala utilizada), la diferencia entre el 'primer' 90% y el artista con mayor cantidad de seguidores es de más de 14.5 millones.
El ranking al 31 de enero de 2022 es el siguiente:
Otra forma de entender la clase de música que se hace en el país es mirar aquellas propiedades que la hacen ser lo que es.
Los ‘features’, son -en el mundo de la estadística y el machine learning- propiedades mensurables, respecto a aquellas cualidades que se suponen describen a un fenómeno. Estos, además, se pueden utilizar como predictores para inferir nuevos datos, usualmente llamados respuestas. Spotify calcula y permite el acceso a una serie de atributos de audio y respuestas para cada canción que está cargada en la plataforma.
Los atributos que comparte la plataforma se pueden dividir en dos tipos: las respuestas y las mediciones. En las siguientes secciones se da un panorama de ambos para las canciones de la muestra. Se observan solo los últimos cuatro años para dar una mirada más actual y posiblemente más representativa (dada la madurez de la plataforma como medio de consumo en el país).
Las respuestas son el resultado de un proceso de inferencia. En este caso, dan un grado de confianza respecto a qué tan presente está una cualidad en una canción, acorde -por ejemplo- a cómo se compara con otras canciones que se usan de referencia o a la detección de otras cualidades que se usan como indicios. En general, se expresan con un porcentaje codificado entre 0 y 1.
Spotify calcula las siguientes respuestas: qué tan 'bailable' es un tema, cuán 'energético' es, qué emociones transmite, qué tan 'acustico' se siente, qué tan 'instrumental' es, qué tan 'en vivo' se escucha, y qué tan 'hablado' está.
La ‘danceability’ o ‘bailabilidad’ es una respuesta a qué tan bailable es una canción. Se calcula -según el manual para desarrolladores- por medio de “una combinación de elementos musicales que incluyen el tempo, la estabilidad rítmica, la fuerza del beat y la regularidad general del tema”.
En el siguiente gráfico se resume -con una serie de histogramas- la distribución de esta propiedad para el total de las canciones recolectadas en los últimos años:
Es interesante notar el pequeño sesgo por encima del 50% que tiene la distribución. En general, las canciones tienden a inclinarse hacia aquellas propiedades que las hacen más bailables, aunque solo por un poco. Por su parte, entre el 2018 y el 2021 se puede notar un aumento del 4.7% en temas bailables por encima del 0.6 (60%) de confianza.
La ‘energía’ o 'energy' de un tema es una métrica que describe la intensidad y actividad que se puede percibir en el mismo. Spotify detalla: “típicamente, una canción energética se siente rápida, fuerte y ruidosa. [...] las cualidades perceptuales que contribuyen a este atributo incluyen el rango de dinámicas, el volúmen percibido, el timbre, la tasa de ‘golpe’ de los sonidos (si ocurren repentinamente o de forma gradual), y la entropía general".
El siguiente gráfico describe su distribución para los últimos cuatro años:
Se puede notar que hay un sesgo más pronunciado hacia los valores altos de energía. Asimismo, también, hubo un decremento del 8.8% para los valores mayores al 0.7 (70%) entre el 2018 y el 2021. Esta diferencia, junto a la variación en la 'bailabilidad', se puede interpretar como un movimiento leve de la música hacia géneros menos energéticos y más bailables. Por ejemplo, de algo más rockero hacia algo más pop.
La ‘valencia’ -'valence'- predice cuánta ‘positividad’ transmite una canción. Valores cercanos a cero son descritos como “tristes, deprimentes o enojados” y valores cercanos a uno como “felices, alegres o eufóricos”.
El siguiente gráfico destaca la distribución de ésta propiedad durante los últimos cuatro años:
En general, parece no haber sesgos hacia ninguno de los dos extremos. Los temas no son ni muy ‘alegres’ ni muy ‘tristes’.
Otro atributo a considerar es su ‘acousticness’ o ‘acusticidad’. Esta cualidad representa el grado de confianza que tiene Spotify respecto a si un tema es acústico o no.
El siguiente gráfico describe la distribución de esta propiedad:
En general, Spotify considera que la mayoría de los temas no son acústicos. Alrededor del 30% de los datos -en cualquiera de estos años- registra entre un 0 (0%) y 0.05 (5%) de confianza. Mientras que alrededor del 65% presenta valores menores o iguales al 0.5 (50%).
Por otro lado, hubo un crecimiento del 7.5% en la confianza mayor a 0.7 (70%) entre el 2018 y el 2021. Es decir, hubo un aumento en los temas probablemente acústicos.
La ‘instrumentalidad’ o 'instrumentalness' de un tema predice si un tema tiene, o no, voces. El manual lo define del siguiente modo: “Los ‘aah’ y ‘ooh’ se tratan como sonidos instrumentales. El rap y la palabra hablada son claramente vocales. [...] La intención de esta medida es que los valores mayores a 0.5 representen tracks instrumentales”.
El siguiente gráfico muestra la distribución de ésta respuesta -para cada uno de los últimos cuatro años- sobre las canciones de la muestra:
Spotify predice, con alta probabilidad, que alrededor del 70% de las canciones en estos años no son instrumentales. Es decir, tiene una confianza entre el 0 (0%) y 0.05 (5%) de que lo sean. En cambio, entre el 14.29% (2018) y 19.5% (2020, 2021) de las canciones entran en el umbral de probablemente instrumentales (más de 50% de confianza). En el 2021, solo el 5.03% de las canciones fueron (muy) probablemente instrumentales (más del 90% de confianza).
El ‘liveness’ o ‘en vivo’ calcula la probabilidad de que haya una audiencia presente en una grabación. En este caso, valores mayores al 0.8 (80%) dan una probabilidad alta de que el tema sea en vivo.
El siguiente gráfico describe la distribución de éste atributo para los últimos años:
Se puede observar que más del 90% de las canciones tienen una probabilidad menor al 50% de ser en vivo.
En particular, el 4.12% (2018), 2.6% (2019), 2.98% (2020) y 2.49% (2021) de los datos obtuvieron un valor de ‘liveness’ mayor al 0.8 (80%). Se puede observar que el 2021 fue el año que registró el valor más bajo.
El último atributo es la ‘speechiness’ o ‘habladuría’. Éste mide qué tan presente está la palabra hablada en una grabación. La documentación explica: “Valores por encima de 0.66 describen tracks que están probablemente compuestos en su totalidad de la palabra hablada. Valores entre 0.33 y 0.66 describen tracks que pueden contener tanto música como palabra -tanto en capas como de forma seccionada-, e incluye a la música rap. Valores por debajo del 0.33 probablemente representan música y otros tipos de tracks sin palabra hablada."
El siguiente gráfico lo describe:
Siguiendo la interpretación provista por el manual, más del 97% de las canciones fueron probablemente música o tracks sin palabra hablada. Menos del 2% fue probablemente una mezcla entre palabra y música y, en promedio, solo el 0.32% fue probablemente palabra hablada sin música.
Si nos guíamos por Spotify y consideramos que una canción realmente se define por estas cualidades, y confiamos en que los métodos que utilizaron para identificarlas son sólidos, la conclusión a la que podemos llegar es la siguiente:
En general, las canciones argentinas de estos últimos años son bailables y energéticas. No son ni muy alegres ni muy tristes y, en su mayoría son eléctricas, vocales, y mucho más musicales que habladas, mientras que muy pocas son en vivo.
A diferencia de las respuestas, las medidas son atributos que describen numéricamente las propiedades más directamente mensurables de un fenómeno. Como puede ser su color, o tamaño. En el caso de Spotify, catalogan aspectos técnicos de las grabaciones subidas a la plataforma.
Estas son: su tonalidad, su modo, su tempo, su volúmen y su duración.
La ‘tonalidad’ o 'key' clasifica a las canciones de acuerdo a la notación de clases del temperamento igual. Estas son: do (C) - do# (C#Db) - re (D) - re# (D#Eb) - mi (E) - fa (F) - fa# (F#Gb) - sol (G) - sol# (G#Ab) - la (A) - la# (A#Bb) y si (B). Internamente, Spotify las codifica con valores enteros entre 0 y 11. En general, la tonalidad se suele referir al contexto en el que se enmarcan los tonos -las frecuencias de sonido- dentro de una canción, o sección. Tanto en el sentido del reposo -qué sonidos se sienten 'resolutivos'-, como en el sentido de la escala utilizada -qué tonos se utilizan para la composición-.
El siguiente gráfico describe la distribución de las tonalidades para los últimos cuatro años. Las mismas fueron ordenadas de acuerdo al círculo de quintas, ya que este ordenamiento presenta la relación entre tonos consecutivos lo más estrecha posible.
Para el análisis de este gráfico, es importante considerar que el círculo de quintas es justamente eso: un círculo. Por lo que a A#Bb (La sostenido) le sigue F (Fa).
Una interpretación común al respecto de este gráfico, es que las tonalidades alteradas son más difíciles de tocar en varios instrumentos. En particular, en la guitarra. Que D#Eb tenga el valor más bajo refleja esta idea, ya que es la tonalidad más alejada a la afinación estándar del instrumento (Mi).
Desde una mirada estructural, y en relación a la tonalidad, el 'modo' o 'mode' hace referencia a grupos de tonos alternativos -escalas- que se usan para componer una misma tonalidad. Spotify considera solo dos modalidades: mayor y menor, pero hay más. El siguiente gráfico muestra su distribución para los últimos años:
En general, se mantuvo una relación de alrededor de '3 cada 2' a favor del modo mayor.
La medida 'duración' -‘duration_ms’- se refiere a la duración de una canción en milisegundos. El siguiente gráfico describe la distribución de esta medida -en intervalos de a 5 segundos- para los últimos cuatro años. Se tomó el rango de 0 a 600 segundos (10 minutos), pero hubo algunos tracks que excedieron este límite (por mucho).
El intervalo 120s (2 minutos) a 300s (5 minutos) representa el grueso de los datos para los cuatro años, abarcando alrededor del 83% de las canciones. En estos años, el promedio fue de aproximadamente 3:35 minutos.
Se puede notar también que los temas se fueron volviendo un poco más cortos cada año.
El atributo ‘tempo’ describe el tempo promedio del tema en BPM (pulsos por minuto). Esta medida se puede pensar como la velocidad de la pieza en relación a la duración de cada pulso, donde un pulso es aquello que provee la regularidad y subdivisión temporal más básica a una canción. El gráfico muestra la distribución de ésta medida para los últimos cuatro años. El histograma está dividido en intervalos de 5 BPM, en un rango de 40 a 220 BPM.
Los picos corresponden a los tempos más comunes: 90, 120 y 170 BPM. Siendo estos, respectivamente, los más usados para las canciones de pop, de rock y de metal.
El último atributo a considerar es el volúmen general del tema -su 'loudness'-, en decibeles. El siguiente histograma describe su distribución para los últimos cuatro años en el rango -36 a 6 db.
El pico en -6db no debería sorprender, ya que se considera un volumen ideal para plataformas como Spotify. En todo caso, da indicios de que una gran cantidad de los temas fueron grabados (o, al menos, masterizados) por técnicos de sonido.
Desde esta otra perspectiva -la de las medidas-, Spotify nos permite concluir estas cosas respecto a la música local:
En general, las canciones argentinas de estos últimos años siguieron las tonalidades naturales por sobre las alteradas, siguieron un modo mayor por sobre el menor, duraron alrededor de los 3:30 minutos, fueron mayormente rápidas y en general parecieron estar grabadas (o masterizadas) profesionalmente.
Aparte del análisis general, también es interesante detenerse en cada artista por particular. El siguiente widget fue diseñado para permitir la comparación entre la mayoría de ellos de una manera dinámica.
Se divide de la siguiente manera:
La pestaña 'ACP' -para análisis de componentes principales- condensa todos las respuestas y medidas de cada canción -salvo las categóricas (tonalidad y modo)- en un punto en el plano cartesiano. Es decir, reduce la información de todos estos atributos en dos nuevos, para simplificarlos. Uno representado por el eje X y otro por el eje Y. Como esta es una reducción grosera, sólo se conserva el 43.51% de la información original. Este gráfico sirve para dar una idea de qué tan similares son los distintos temas por su proximidad, pero no sirve para hacer una comparación exhaustiva.
Las pestañas 'Respuestas' y 'Medidas' capturan esta misma información pero acorde a los números de resúmen para la totalidad de los temas del artista, o para cada uno de sus álbumes. La información está presentada en diagramas de caja. Cada caja representa cómo se distribuye el 50% de los datos centrales, siendo la línea interna la mediana (el valor del medio), y el punto interno la media (el promedio). Los puntos externos representan el mínimo y el máximo y los ‘bigotes’ (las T), representan un límite en la dispersión de los datos a partir del cual se empiezan a considerar anómalos. Los diagramas de caja dan una idea general de la distribución de los datos y de su dispersión, lo cual es útil para compararlos.
La pestaña 'Tonalidad', por su parte, grafica un histograma de la distribución de las tonalidades y modos, por álbum o por artista.
Para finalizar, estas son algunas observaciones interesantes respecto a la muestra:
Los cinco artistas con más cantidad de álbumes publicados son:
La mayoría de estos álbumes son recopilados o reediciones creados para mercados extranjeros. En algunos casos, también son interpretaciones o tributos realizados por otros músicos. En particular, Astor Piazzolla tiene adjudicados -por ser el compositor- algunos discos de intérpretes japoneses, como ピアソラ:バンドネオン協奏曲 他 ('Piazzolla: Concierto para bandoneón, etc', según google translate) de Ryota Komatsu, y ブエノスアイレスの四季 ('Las cuatro estaciones de Buenos Aires') interpretado por Kazuma Miura.
Por su parte, los cinco artistas con más sencillos publicados son:
Los cinco temas más largos son dj sets:
Y los cinco álbumes más largos, que no son antologías o compilados post-mortem, son:
A pesar del desarrollo extenso de esta nota, hubo muchos más datos que no se exploraron. Por ejemplo, las relaciones entre los artistas de la muestra, o cómo se relacionan los atributos de las canciones con la popularidad. Por mencionar algunas ideas.
Todos los archivos utilizados se encuentran subidos en formato csv en este repositorio. Allí también está subido todo el proceso de recopilación de datos, armado de las bases de datos, de los datasets y del widget, para explorar.