Hoje vou mudar um pouco do que venho apresentando nos últimos posts, focando menos em como fazer (código) e mais no resultado em si (como interpretar/analisar). Para isso, convidei o Fernando Sola, colega de trabalho e Cientista de Dados do Observatório da Despesa Pública, para mostrar o verdadeiro poder da Ciência de Dados.

Sei que está soando meio clichê, né?! Bom, vamos explicar e aí, se tudo der certo, vai parecer menos marketeiro e mais realista no final desse post! 😉

A ideia principal é mostrar como a Análise de Dados ganha outra dimensão quando usamos bons e velhos conceitos da Ciência da Computação

A ideia principal é mostrar como a Análise de Dados ganha outra dimensão quando usamos bons e velhos conceitos da Ciência da Computação, como abstração, generalização e desenvolvimento de soluções flexíveis que processam assuntos completamente diferentes com apenas pequenos ajustes.

Resumindo, vamos apresentar a vocês como automatizar um processo que à princípio foi feito manualmente para um tópico específico (análise das redes sociais nas últimas eleições — veja o blog que escrevi junto com outro Fernando, o Fernando Santos, nas últimas eleições presidenciais em http://eleicoesnasredessociais.blogspot.com.br/ para mais detalhes –, mas que agora pode ser aplicado de forma automática para qualquer tema. Isso sim é Ciência de Dados! 😀

Se você for minimamente desconfiado, como nós, deve estar duvidando de tanto blá blá blá e já querendo ver resultados, né?! Para tornar nosso ponto ainda mais claro e indiscutível, resolvemos radicalizar os temas abordados nessa semana e vamos mostrar que a mesma ferramenta e técnica serão utilizadas para analisar tanto o que as pessoas estão falando sobre a banda Fifth Harmony (escolhida porque o Rommel conhece alguns parentes — @ShanaPriesz, @themikeinator e @WeLuvAllyB — de duas cantoras da banda :-P), como o que, provavelmente outras pessoas, estão falando sobre a Lava Jato. Não dava pra escolher temas mais divergentes, ou dava?! 😛

O que estão falando sobre a banda Fifth Harmony?

Para entender o que os fãs andam falando sobre a banda Fifth Harmony, coletamos mil tweets de  24/04/2017 às 20:02 a 25/04/2017 às 18:40 (na verdade fizemos um search que retornou tweets entre essas datas/horários, mas apresentaremos detalhes sobre a implementação em outro post).

Começaremos analisando esses tweets através da técnica de nuvem de palavras que aprendemos no post Entendendo a Lava Jato com Ciência de Dados. No entanto, para isso, criamos um aplicativo genérico e um pouco mais interativo feito em Python (há muita discussão sobre R x Python, qual é melhor, etc. — no meu trabalho mesmo há discussões super interessantes e brincadeiras super comédias [nerds] à la raiz/nutella — essa discussão também ficará para outro post, mas vou resumindo dizendo: aprenda os dois! rs).

A imagem abaixo apresenta o resultado da nuvem de palavras feita em Python com D3.js para os mil tweets sobre o termo fifthharmony. Como podemos ver no gráfico abaixo, uma das palavras mais frequentes, além da hashtag e da conta da própria banda, é a hashtag #dwts e a conta @dancingabc. No entanto, o que isso quer dizer? Será que tem uma forma de tornar essa nuvem de palavras mais útil?!

Nuvem de palavras dos mil tweets sobre a banda Fifth Harmony. Fonte: Aplicativo para nuvens de palavras de datasets pré-carregados da República Digital

Felizmente, nossa resposta é sim! Além de destacar as palavras que aparecem com mais frequência, o aplicativo que criamos especialmente para esse post é interativo, pois permite que você clique em uma palavra e automaticamente filtre os tweets onde essa palavra aparece. Veja na imagem abaixo alguns dos 444 tweets vinculados à hashtag #dwts.

Tweets sobre a banda Fifth Harmony que possuem a hashtag #DWTS. Fonte: Aplicativo para nuvens de palavras de datasets pré-carregados da República Digital

Bom, apesar de conhecer alguns parentes das cantoras, não acompanho tão de perto, logo, imagino que devem ter ficado com as mesmas dúvidas que eu e não devem ter entendi muita coisa dos tweets da imagem! rs Percebam que boa parte são retweets do tweet original da conta @DancingABC, que é a conta oficial do Dancing With The Stars e que consequentemente me fez entender o que é #DWTS! 😀

Ao realmente ver o tweet original (acima) as coisas começam a fazer sentido! Parece que a @NormaniKordei, integrante da banda Fifth Harmony, arrasou na sua apresentação no dia 25/04/2017 no DWTS, gerando milhares de likes e retweets!

Percebam o quanto aprendemos, com um simples aplicativo de nuvem de palavras, sobre um tema novo e diferente, pelo menos para a maioria dos seguidores da República Digital.

Percebam o quanto aprendemos, com um simples aplicativo de nuvem de palavras, sobre um tema novo e diferente, pelo menos para a maioria dos seguidores da República Digital. Além disso, conseguimos encontrar um hot/trending topic dentro desse tema. Mas… será que esse foi o único hot topic sobre a banda?! Como poderíamos encontrar os diferentes assuntos do momento que estão sendo discutido sobre um determinado tema?! Tem como?!

O que estão falando sobre a Operação Lava Jato?

Como estamos chegando ao limite de sua paciência e tempo disponível para leitura de nosso post, vamos explicar como encontrar os principais assuntos sobre a famosa Operação Lava Jato, ao invés de continuar a análise dos tweets da Fifth Harmony. Pode ser?! Então vamos lá!

Para tentar entender o que está sendo discutido nas redes sociais é preciso mais que a frequência das palavras. Precisamos de mais contexto, precisamos entender a correlação entre as palavras, entre aquelas mais importantes, que destacam/resumem o texto. Ué, como fazer isso?! E tem como?! Ahhhhh! Achou que eu só sabia fazer nuvem de palavras, né?! rs

Lembra que eu comentei que achamos tudo na Internet?! Que “googlar” é tudo?! Então, um dos links que eu já apresentei para vocês foi o tutorial sobre grafo de palavras [primeira promessa de more on that later paga!] do Gaston Sanchez. Ele foi a base para boa parte do que fiz durante as análises da última eleição presidencial com o Fernando Santos, com alguns improvements and tweaks.

Com a ajuda do Fernando Sola, colaborador nesse post, desenvolvemos outro aplicativo para analisar as relações entre as principais palavras, nesse caso, dos mil tweets sobre a Operação Lava Jato (usando o search da API do Twitter com o termo lavajato), que retornou tweets de 24/04/2017 às 14:07 a 25/04/2017 às 18:36.

O grafo abaixo mostra as principais relações (eliminamos relação entre palavras que aparecem conjuntamente em poucos tweets) das principais palavras (eliminamos palavras que aparecem em poucos tweets) dos tweets analisados, depois de fazer um pré-processamento já discutido em outro post.

Principais relações entre as principais palavras de mil tweets sobre a Operação Lava Jato, agrupados por assunto. Fonte: Aplicativo para relação entre palavras de datasets pré-carregados da República Digital

Percebam que embora tenhamos um miolo altamente conectado (nós em azul), alguns grupos (clusters) se destacam (como os grupos nas extremidades em verde, vermelho e laranja — todos tanto claro quanto escuro –, entre outros). Ao analisar esses grupos com mais cuidado, percebemos que se tratam de assuntos distintos dentro do tema Lava Jato, exatamente o que estávamos querendo saber! Vamos conferir?!

Vejam as palavras relacionadas no grupo verde escuro na parte de baixo do grafo. Só de ler algumas das palavras, já é possível entender mais ou menos o que está sendo discutido. Quer ver?! Tenta aí antes de continuar lendo… spoiler: g1 leiloar bens cabral casa praia lanchas… E aí? Já sabe do que se trata?! Para deixar mais claro, no aplicativo também permitimos que você clique em uma das palavras para filtrar os tweets que possuem aquela palavra. Tenta lá, vai, entra no aplicativo, escolha o dataset da operação, gere o gráfico (use 0.9 em limite para nós menos frequentes e e 0.92 em limite para arestas menos frequentes [more on that later]) e clique na palavra “leiloar”, por exemplo. Você verá uma lista de 39 tweets dos mil que estamos analisando como apresentado na figura abaixo.

Tweets que contém a palavra “leiloar” dentre os mil tweets coletados sobre a Operação Lava Jato. Fonte: Aplicativo para relação entre palavras de datasets pré-carregados da República Digital

Notem que a maioria dos tweets são retweets de uma notícia do @g1 sobre possível leilão de R$ 1 bi em bens de Cabral. Fez mais sentido agora? Para deixar ainda mais claro, segue twitter original abaixo.

Não gerou os milhares de tweets da notícia sobre a performance da Normani da Fifth Harmony, mas para notícia séria, até que deu ibope! rs

Duvido que dê pra achar outros assuntos fácil assim! Só acredito vendo!

Ah! Pode deixar que não vou parar por aqui! Afinal, se você é minimamente parecido com um colega de trabalho nosso (né Cláudio?!), você deve estar achando que foi pura sorte! Duvido que dê pra achar outros assuntos fácil assim! Só acredito vendo! (diria nosso amigo! rs)

Então vamos lá?! Vamos pagar pra ver?! Aposto que só deu certo porque vocês pegaram um grupo bonitinho desse das pontas… Duvido que se a gente pegar um grupo desse aí no miolo, tipo o grupo marrom, consiga alguma coisa… Challenge accepted! Espero que não tenha fechado a janela do aplicativo ainda! Não?! Beleza, então clica na palavra “soltar” e vamos ver no que dá. Ah! Antes disso, tenta ler as palavras do grupo… ministro soltar dirceu… alguém arrisca?! Vamos ver os tweets então?

Tweets contendo a palavra “soltar” dentre os mil analisados sobre a Operação Lava Jato. Fonte: Aplicativo para relação entre palavras de datasets pré-carregados da República Digital

E agora? Ficou mais claro ao ver o conteúdo dos tweets? Você já tinha visto essa notícia? Para ajudar, colocamos um dos tweets mencionados abaixo.

E aí?! Convencidos do poder da Ciência de Dados?! Será que conseguimos extrair informações úteis e interessante apenas olhando para os dados, mesmo sem conhecer muito sobre o tema?! Será que um aplicativo desses ajudaria a achar os principais tópicos de qualquer tema? Vamos ver?!

Descubra você mesmo o que estão falando sobre o tema que te interessa! 😉

Como exercício, deixamos para vocês explorarem a nuvem de palavras da Operação Lava Jato (basta selecionar o dataset da operação no aplicativo de nuvem de palavras) assim como analisar os diferentes tópicos sobre a banda Fifth Harmony (basta selecionar o dataset da banda no aplicativo de relação entre palavras). Vamos tentar?!

Ah! Lembra que falei que faríamos um aplicativo genérico que poderia ser utilizado de forma muito similar, alterando apenas alguns parâmetros, para qualquer tema? Então, para aqueles que não estão nem aí para Fifth Harmony e muito menos para Lava Jato, que tal analisar um tema do seu interesse? Achou que íamos esquecer de você, né?! Jamais!! Basta usar o aplicativo “genérico” de nuvem de palavras e o aplicativo “genérico” de relação entre palavras. Na verdade, nesse contexto, “genérico” quer dizer que você pode buscar por até 200 tweets de qualquer tema (pesquisa por palavra-chave) on the fly e respectiva nuvem de palavras ou grafo com a relação entre as palavras. Não perca tempo, confira!

Se você gostou dos aplicativos e gostaria de uma versão mais completa, sem limites … não deixe de comentar dizendo o que achou do post e o que você gostaria que nós implementássemos para você!

BTW, tivemos que limitar até 200 palavras porque estamos usando nossa própria conta de Twitter e ela infelizmente possui um limite diário de quanto podemos recuperar/pesquisar. Se você gostou dos aplicativos e gostaria de uma versão mais completa, sem limites (usando sua conta de Twitter, por exemplo), com outras funcionalidades, podemos coletar tweets durante um longo período de tempo, gerando seus próprios datasets para análises futuras, etc., não deixe de comentar dizendo o que achou do post e o que você gostaria que nós implementássemos para você! Se a demanda for grande, prometo que faremos um grande esforço para criar algo mais production ready para vocês, ok?! O que acham?! Só depende de vocês!! 😀

Ah! One last thing, como focamos hoje na análise dos resultados e não em como fazer, dedicaremos os próximos posts a explicar como fizemos para que você tenha a possibilidade de revolucionar o seu trabalho com técnicas de Ciência de Dados, sem ter que pagar milhões por isso! Então, o que está esperando para nos seguir no Twitter, curtir nossa página no Facebook e seguir nossa página do LinkedIn?! Nos vemos nas redes sociais! 😉


Fernando Sola é Bacharel em Ciências da Computação pela PUCRS, Cientista de Dados no Observatório da Despesa Pública, SCJP, SCWCD, SCBCD e entusiasta Python.