Apesar da crescente popularidade do termo Ciência de Dados, em minhas reuniões dentro e fora do governo, tenho percebido que as pessoas não têm a menor ideia do que o termo realmente significa e dos benefícios que essa compreensão e sua correta aplicação podem trazer para seu dia-a-dia.

É verdade, que o termo ainda gera muita discussão e que muitos outros são usados como sinônimos. Há os que dizem que Ciência de Dados nada mais é que um nome bonito e atual para Estatística, outros dizem que é o mesmo que Mineração de Dados.

Uma das imagens que mais gosto e que melhor define o conceito, IMHO, é a apresentada no artigo 75 Must-Know Data Science Interview Questions.

Habilidades necessárias na Ciência de Dados. Fonte: Fusion Analytics World (autorização por e-mail)

Como pode ser visto, o Cientista de Dados precisa sim conhecer de matemática e de estatística. No entanto, é preciso também conhecer de ciência da computação para saber obter dados de diversas fontes, cruzar informações dentre outros “hacking skills”. Finalmente, é essencial que o Cientista de Dados também entenda da área do conhecimento de onde os dados foram obtidos para saber o que procurar nos dados e saber interpretar as informações disponíveis.

Percebam que não basta a pessoa ter os “hacking skills” e entender bem do negócio se não souber nada de estatística. Caso contrário, chegará a conclusões absurdas por não saber interpretar os resultados encontrados. Essa é minha primeira crítica a muitos que se aventuram na área, principalmente no governo.

Quando surge um buzzword, como é o caso de Ciência de Dados e Big Data (more on that later), muitos querem se aproveitar da fama e encher a boca para dizer que estão trabalhando com a tal buzzword. Outros acham que é uma solução milagrosa e devem sair correndo atrás de um fornecedor que vai resolver seus problemas.

Calma! Muita calma nessa hora! Olhem mais uma vez a figura acima. Olhem com cuidado e me digam: onde será que uma equipe de Tecnologia da Informação (TI), por exemplo, cairia se de repente o Diretor da área aparecesse com uma ferramenta milagrosa (geralmente de milhões de reais) que fizesse todas as análises estatísticas e cálculos complexos com um simples apertar de um botão? Conseguem perceber? Será que a caveira não é sugestiva o suficiente?!

Não adianta nada contratar ferramentas super caras e sofisticadas se a equipe não está preparada para interpretar os resultados, entender que técnica deve ser aplicada para que caso, quais as premissas que devem ser válidas ao usar aquela técnica, etc.

 

Pessoal, muito cuidado com o Danger Zone!!! Não adianta nada contratar ferramentas super caras e sofisticadas se a equipe não está preparada para interpretar os resultados, entender que técnica deve ser aplicada para que caso, quais as premissas que devem ser válidas ao usar aquela técnica, etc. Ou seja, sem conhecimento de matemática e de estatística, não há ferramenta que faça milagre! Eu costumo dizer, para todos que estão interessados em criar uma equipe na área, que o mais importante é capacitar seu pessoal. Antes de investir milhões em ferramentas de ponta, treinem os servidores (ou funcionários) nas técnicas. Garanto que o retorno será muito maior e muito mais rápido que comprar a melhor ferramenta do mundo de acordo com o quadrante mágico do Gartner! Podem confiar em mim! 😉

Bem, até aqui tudo bem, parece estar claro que não basta comprar uma solução milagrosa, mas vem cá, e por que mesmo eu iria investir milhões em uma nova área quando eu já gastei horrores com governança, bancos de dados e business intelligence, por exemplo? Why should I care?

Essa é uma excelente pergunta e nada melhor que apresentar casos práticos, reais e recentes para tirar qualquer dúvida. Antes de partir para os diversos casos de sucesso que já temos hoje no governo, vamos começar com os famosos exemplos do nosso dia-a-dia.

Por acaso você já comprou na Amazon? Já percebeu que as recomendações dela são sempre muito boas? Tentem fazer uma busca pelo jogo Uncharted 4, por exemplo. Para quem não conhece, esse é um jogo muito famoso de ação. Ao procurar por esse jogo, a Amazon já te apresenta diversas opções e alternativas parecidas com o que você está procurando. Vejam os produtos apresentados na imagem abaixo.

Sugestão de produtos baseada no jogo Uncharted 4

Além de apresentar uma coleção das 3 edições anteriores do mesmo jogo, a Amazon apresenta diversos outros jogos com estilos bem parecidos, como The Last of Us e Tomb Raider. Como será que a Amazon sabe que esses jogos são parecidos? Será que tem algum vendedor classificando esses jogos manualmente? A dica de como a Amazon consegue excelentes resultados como esses está no título da imagem: Customers Who Bought This Item Also Bought (clientes que compraram esse item também compraram). Felizmente, não foi preciso contratar nenhum especialista em jogos. A única coisa que a Amazon fez foi analisar os dados de todas suas vendas de Uncharted 4 e verificar quais foram os outros jogos que esses mesmos clientes compraram com mais frequência. Por exemplo, a Amazon pode ter percebido, olhando seus dados, que 80% das pessoas que compraram o Uncharted 4, também compraram The Last of Us, enquanto 60% compraram Tomb Raider (na verdade, as técnicas são mais sofisticadas que isso, mas simplifiquei para facilitar a compreensão). Essa coincidência relativa pode ser usada inclusive para priorizar qual item deve aparecer primeiro na lista de sugestões. Ou seja, a Amazon fez um uso inteligente dos seus dados para sugerir um produto de interesse para seu cliente e maximizar, consequentemente, suas chances de vender outros produtos. Isso é Ciência de Dados! 😉

No governo não é diferente, ou seja, também é possível alavancar o negócio do governo com uso inteligente dos dados.

No governo não é diferente, ou seja, também é possível alavancar o negócio do governo com uso inteligente dos dados. A única diferença é que ao invés de focar em aumentar as vendas, o governo deve se preocupar em oferecer um serviço público de melhor qualidade, minimizar custos e maximizar a satisfação dos cidadãos, por exemplo.

É possível sim fazer uso inteligente dos dados também no governo e, pasmem, o governo já tem resultados práticos em diversas áreas.

Ah! Na teoria é tudo muito bonito, mas como? Isso é coisa só para empresas como Amazon, Facebook, Netflix, não é mesmo? Felizmente, a resposta é não! É possível sim fazer uso inteligente dos dados também no governo e, pasmem, o governo já tem resultados práticos em diversas áreas. Recentemente, no Observatório da Despesa Pública (ODP), nós fizemos uma análise de dados para comprovar que o governo economizou R$ 3,1 milhões em passagens áreas com o novo modelo de compras (veja o site da CGU para ter acesso ao relatório completo). Na minha última turma de Mineração de Dados, do Mestrado Profissional em Computação Aplicada da UnB, o Roberto Mourão apresentou como prever se um novo cliente do Banco do Brasil vai esperar mais que o tempo permitido na fila para que o gerente do banco tome as devidas providências (como colocar mais um agente no caixa). Servidores da Receita Federal do Brasil, Leon Sólon e Ebberth Paula têm aplicado esses conceitos para evitar liberação de compensações indevidas e para identificar exportações suspeitas de lavagem de dinheiro, respectivamente.

Esses são apenas alguns dos diversos trabalhos de Ciência de Dados sendo feitos por servidores e funcionários públicos competentes e dedicados com o foco no bem comum e no uso adequado dos recursos públicos. Em breve apresentarei esses e outros projetos com mais detalhes, para que vocês possam se inspirar e transformar seus órgãos e suas empresas, oferecendo serviços digitais revolucionários e de fazer inveja até mesmo a gringos. Se inscreva já em nosso site e não perca essas e outras novidades da República Digital! #cienciadedados #analytics #brasildigital #mineracaodedados #analisededados #resultadonogoverno #decisaointeligente