Trabajo elaborado para la asignatura “Programación y manejo de datos en la era del Big Data” de la Universitat de València durante el curso 2021-2022. El repo del trabajo está aquí.
La página web de la asignatura y los trabajos de mis compañeros pueden verse aquí.
INTRODUCCIÓN
Hoy en día el cine se ha convertido en uno de los medios más populares para la difusión del arte, cultura y sobre todo entretenimiento. Es por eso que en este trabajo vamos a mostrar de una forma algo más detallada los aspectos más relevantes del cine en estos últimos años. Recorreremos a lo largo del proyecto las películas favoritas por la audiencia. Esperamos que este trabajo os sirva para incrementar vuestra cultura cineasta y os incite a ver alguna de las películas mencionadas.
1.- PRIMERA PARTE (10K PELICULAS)
1.1 DATOS A ANALIZAR
A continuación, vamos a mostrar una lista de las 10000 películas con las que vamos a trabajar inicialmente.
peliculas <- top10mil %>%
select(original_title)
reactable(peliculas, defaultPageSize = 8, paginationType = "jump", showPageSizeOptions = TRUE , pageSizeOptions = c ( 10 , 50 , 100, 150, 200, 260 ),defaultColDef = colDef(
align = "center",
minWidth = 70,
headerStyle = list(background = "#FFD700"),
filterable = TRUE), highlight = TRUE, outlined = TRUE,
columns = list(
`Item` = colDef(style = function(value) {
if (value > 0) {
color <- "#F5C710"}
else {
color <- "#B22222"
}
list(color = color, fontWeight = "bold",background = "#CD2626")
})))
1.2 IDIOMA ESTRELLA
En este apartado hemos querido representar cual es el idioma que predomina como lengua original en el paquete de datos con el que estamos trabajando. Claramente, de entre las diez mil películas, el idioma en la que la mayoría de ellas está es en Inglés (sin hacer distinción entre inglés británico o americano).
topmil_pais <- top10mil %>%
group_by(original_language) %>%
mutate(numpelis = sum(NN=n())) %>%
distinct(original_language, numpelis) %>%
arrange(desc(numpelis)) %>%
filter(numpelis>200) %>%
mutate(idioma = case_when(original_language == "en" ~ "Inglés",
original_language == "ja" ~ "Japonés" ,
original_language == "es" ~ "Español",
original_language == "fr" ~ "Francés"))
ggplot(topmil_pais, aes(x = idioma, y = numpelis, fill = idioma)) +
geom_bar(stat="identity") +
scale_fill_manual(values = c("yellow", "white", "blue", "red") ) +
scale_y_continuous( breaks = seq(0, 8000, 1000),
limits = c(0, 8000))
1.3 TOP PELÍCULAS
La siguiente gráfica es probablemente una de las más interesantes del trabajo, ya que básicamente nos muestra las 7 películas con más popularidad. Como podemos observar, el top 1 es Venom: Let There Be Carnage
popularidad <- top10mil %>%
arrange(desc(popularity)) %>%
filter(popularity > 1300)
ggplot(popularidad, aes(x=original_title, y=popularity)) +
geom_bar(stat="identity") +
coord_flip() +
xlab("") +
theme_bw() +
scale_y_continuous( breaks = seq(0, 5500, 500),
limits = c(0, 5500))
1.4 MÁXIMA VOTACIÓN
A continuación mostraremos en un gráfico animado las cuatro películas con una votación más elevada.
votos <- top10mil %>%
arrange(desc(vote_average)) %>%
filter(vote_average > 9.1) %>%
filter(original_language %in% c("zh", "es", "fr"))
votos$original_title <- iconv(votos$original_title, from = "UTF-8", to = "LATIN1")
ggvotos <- ggplot(votos, aes(x = original_title, y = vote_average)) +
geom_point() +
geom_segment( aes(x = original_title, xend = original_title, y = 0, yend = vote_average))
ggplotly(ggvotos)
2.- SEGUNDA PARTE (4K PELICULAS)
2.1 DATOS A ANALIZAR
La idea ahora es mostrar algunos de los apartados vistos anteriormente pero cambiando el paquete de datos usando ahora uno con menos películas y algo más recientes.
Mostramos a contiuación pues, los datos con los que vamos a trabajar ahora.
names(top4mil)[names(top4mil) == 'Movie Title'] <- 'movietitle'
peliculas4 <- top4mil %>%
select(movietitle)
reactable(peliculas4, defaultPageSize = 8, paginationType = "jump", showPageSizeOptions = TRUE , pageSizeOptions = c ( 10 , 50 , 100, 150, 200, 260 ),defaultColDef = colDef(
align = "center",
minWidth = 70,
headerStyle = list(background = "#FFD700"),
filterable = TRUE), highlight = TRUE, outlined = TRUE,
columns = list(
`Item` = colDef(style = function(value) {
if (value > 0) {
color <- "#F5C710"}
else {
color <- "#B22222"
}
list(color = color, fontWeight = "bold",background = "#CD2626")
})))
2.2 MAYOR PIB DOMÉSTICO
En este otro punto ordenamos las películas de forma descendente, las películas que han generado mayor PIB nacional.
names(top4mil)[names(top4mil) == 'Domestic Gross'] <- 'domesticPIB'
PIB <- top4mil %>%
arrange(desc(domesticPIB)) %>%
filter(domesticPIB > 543638042)
ggplot(PIB, aes(x=movietitle, y=domesticPIB)) +
geom_bar(stat="identity") +
coord_flip() +
xlab("") +
theme_bw() +
scale_y_continuous( breaks = seq(0, 80000, 858373000),
limits = c(0, 8583730000))
Como vemos en el gráfico, la pelicula que más ha aportado al PIB doméstico ha sido Star Wars Ep. VII: The Force Awakens
2.3 MAYOR PIB MUNDIAL
Muy parecido al apartado anterior, ahora las distinguimos pero mediante la aportación al PIB mundial.
names(top4mil)[names(top4mil) == 'Worldwide Gross'] <- 'PIB'
PIB <- top4mil %>%
arrange(desc(PIB)) %>%
filter(PIB > 1654367425)
ggplot(PIB, aes(x=movietitle, y=PIB)) +
geom_bar(stat="identity") +
coord_flip() +
xlab("") +
theme_bw() +
scale_y_continuous( breaks = seq(0, 429186500, 858373000),
limits = c(0, 8583730000))
En este otro gráfico podemos observar que las películas que más PIB mundial han aportado han sido, Avatar y Avengers: Endgame, con números bastante similares.
3.- TERCERA PARTE ( MÁS PELIS)
3.1 DATOS A ANALIZAR
Cambiamos ahora otra vez el conjunto de datos con el que vamos a trabajar y disminuimos el paquete a tan solo 118 películas. Pasaremos a analizar otros aspectos distintos de los anteriores.
peliculas <- maspelis %>%
select(Title)
reactable(peliculas, defaultPageSize = 8, paginationType = "jump", showPageSizeOptions = TRUE , pageSizeOptions = c ( 10 , 50 , 100, 150, 200, 260 ),defaultColDef = colDef(
align = "center",
minWidth = 70,
headerStyle = list(background = "#FFD700"),
filterable = TRUE), highlight = TRUE, outlined = TRUE,
columns = list(
`Item` = colDef(style = function(value) {
if (value > 0) {
color <- "#F5C710"}
else {
color <- "#B22222"
}
list(color = color, fontWeight = "bold",background = "#CD2626")
})))
3.2 GÉNERO DE LAS PELÍCULAS
categorias <- maspelis %>%
group_by(Genre1) %>%
mutate(numeroxgenero = sum(NN=n())) %>%
distinct(Genre1, numeroxgenero) %>%
arrange(desc(numeroxgenero))
ggplot(categorias, aes(x = Genre1, y = numeroxgenero, fill = Genre1)) +
geom_bar(stat="identity") +
scale_fill_manual(values = c("pink", "black", "purple", "red", "yellow", "green", "brown", "grey") ) +
scale_y_continuous( breaks = seq(0, 29, 6),
limits = c(0, 29))
Hemos querido representar con este gráfico tan colorido, los géneros de las películas. Podríamos decir que hay muchas más películas de acción y drama que de los otros géneros. Es cierto que es aquí en este conjunto de datos que se da así, pero si cogiésemos todas las películas que existen, las proporciones serían parecidas ya que son los géneros que más venden y más gustan a la mayoría de la población.
3.3 DURACIÓN PELÍCULAS
duration <- maspelis %>%
group_by(Runtime) %>%
mutate(sameduration = sum(NN=n())) %>%
distinct(Runtime, sameduration, Title) %>%
filter(Runtime >0) %>%
filter(Runtime > 166) %>%
filter(Runtime < 9) %>%
arrange(desc(Runtime))
grafduration <- ggplot (duration, aes(x = Title, y = Runtime)) + geom_bar(stat = "identity", fill = "steelblue")
grafduration + labs(title = "Gráfico: Duración de las películas",
subtitle = "(diferenciando por año)",
x = "Películas",
y = "Duración",
color = "Especie de lirio")
A través de este gráfico vemos las películas que más duran. En este top 3 están: - Interstellar (un peliculón, vale la pena la duración) - El hobbit (para gustos colores yo no la he visto) - El lobo de Wall Street, bastante conocida y famosa, con una duración de 3horas.
4.- CUARTA PARTE ( AÚN MÁS PELIS)
Con este cuarto y último paquete de datos que vamos a utilizar en este trabajo, vamos a mostrar la recaudación bruta de las películas en los Estados Unidos.
recaud <- aunmaspelis %>%
select(movie_name, us_grossMillions) %>%
head(us_grossMillions, n = 10)%>%
group_by(movie_name, us_grossMillions) %>%
arrange(desc(us_grossMillions))
recaud
movie_name
|
us_grossMillions
|
Avengers: Endgame
|
858.37000
|
Joker
|
335.45000
|
Knives Out
|
165.36000
|
1917
|
159.23000
|
Once Upon a Time… in Hollywood
|
142.50000
|
Little Women
|
108.10000
|
The Ten Commandments
|
93.74000
|
The Gentlemen
|
69.04371
|
Parasite
|
53.37000
|
The Shawshank Redemption
|
28.34000
|
wordcloud2(data=recaud, size=0.35)
En este gráfico interactivo se muestran las películas con más recaudación con un tamaño más grande y a medida que los títulos se hacen más pequeños significa que la recaudación es menor. Si mantenemos el cursor encima de los títulos de las películas nos dice exactamente el importe de la recaudación bruta. Destacaríamos sin duda Avengers: End Game y seguidamente Joker.
