Big Data: ainda somos ignorantes?

Há uma expressão em inglês, curiosa e peculiar, que define uma palavra ou frase usada para impressionar ou que está na moda. A famigerada BuzzWord.

A  buzzword do momento é BIG DATA.

Em palestras de grande audiência, o termo normalmente surge associado a uma imagem de uma tela cheia de ZEROS e UNS, com a expressões sobre FUTURO, REVOLUÇÃO, COMPUTAÇÃO e INTELIGÊNCIA ARTIFICIAL. E, sim, Big Data pode ser tudo isso também.

Mas o que é o BIG DATA, afinal?

A definição usual é mecânica e diz muito pouco a respeito do que realmente se trata.

Uma busca rápida na própria fonte do “big data” – a rede mostra que  “o big data se baseia em 5V’s: velocidadevolumevariedadeveracidade e valor”. Ou seja, quem buscava uma resposta, ficou com 5 perguntas.

Para entender melhor é necessário voltar aos primórdios do uso do banco de dados:

Primeira Fase:

Tudo surgiu com algo absolutamente normal ou trivial: o DataBase Marketing. Apesar do nome pomposo o conceito era de uma simplicidade incrível: é necessário saber as variáveis básicas de meu cliente para melhor atendê-lo. 

Era quase uma punição, ao comprar algo numa loja, ter que aguardar  a vendedora entrar no computador e preencher um cadastro (nome, endereço, RG, CPF, telefone) longo, chato e que não traz vantagens ao cliente. Pelo contrário, traz mais aborrecimentos. (Em alguns dias você passa a receber Malas diretas e telefonemas sábado pela manhã  com “oferta de um cartão crédito” de um banco que  lhe “deseja sempre o melhor”…)

Pode parecer incrível, mas esta tecnologia de interação mercadológica surgiu em 1950 e os lojistas de shopping (após assistir a alguma palestra) acreditam que isso muda seu “marketing”. Não muda.

Segunda Fase: 

Surge o C.R.M (Customer Relationship Marketing). “Tenta-se” a partir do perfil de relacionamento do cliente levar os produtos e serviços mais adequados ao “seu perfil”. Esta fase utiliza dados demográficos (idade, sexo, idade, peso, altura, localização) e sócio-econômicos (Renda, escolaridade) para segmentar e fazer “ofertas” adequadas ao “cliente”.

Mas há um subproduto interessante: basear a estratégia no “uso” que “o cliente” faz da marca. É o conceito RFV (recência, freqüência e volume). Começam a aparecer indícios da definição de “big data”. Mas é uma ilusão. O Big Data não é um grande C.R.M.

Como também NÃO É uma evolução do  Data Warehouse (Armazém de dados) Cuja definição não explica muita coisa: “é um conjunto de dados baseado em assuntos integrados, não voláteis, variáveis em relação ao tempo, e destinado a auxiliar em decisões de negócios, diferente do big data que se baseia em grande volume de dados, voláteis ou não, com maior velocidade” (sic)

Atualmente:

É mais fácil definir o BIG DATA pelo que ele NÃO É do que pelo QUE REALMENTE É.

A primeira aproximação do conceito de BIGDATA que percebi foi fornecida por PIERRE LEVY numa palestra na USP em 2009. Ele não falava sobre o tema BIG DATA. O tema dela era outro: WEB SEMÂNTICA.

O BIG DATA era instrumento para fazer funcionar a WEB SEMÂNTICA. Surgiu uma outra teoria.

O METADADO, METAINFORMAÇÃO OU INFORMAÇÃO DERIVADA (conceito matemático de derivada) São expressões centrais numa nova fronteira da gestão da informação.

Os cientistas da computação criaram algo poderoso que pode ser usado pela web semântica que é A ONTOLOGIA, rede de conceitos onde um conceito pode se relacionar com outro. Uma analogia à função matemática: definidas as variáveis, a função resolve o problema.

Mas na WEB SEMÂNTICA  não há necessidade de se definir previamente as variáveis. O sistema busca as variáveis. O pulo do gato está aí!

Na proposta do BIG DATA os conceitos podem ser traduzidos para diferentes línguas naturais, e podem  expressar classificações de todas as ordens. E não são apenas operações lógicas, como raciocínio automatizado, mas podem fazer variações, rotações, conexões novas, como se cada  expressão fosse um número (ou uma função).

Dessa forma é possível fazer transformações geométricas (não há erro de redação) com informações num espaço semântico. Em linguagem simples:

O conteúdo semântico, em um primeiro momento, tem a ver com a forma como é organizada a informação. Por exemplo, numa biblioteca, os livros podem ser organizados por disciplinas, por ano de publicação, por área geográfica, por idioma, e por aí vai. Cada Biblioteca pode usar um sistema.

No BIG DATA as linguagens naturais (irregulares e com léxico ambíguo) são substituídas por linguagem artificial que não possui ambigüidade (sinônimos, homônimos). Isso permite a manipulação automática da informação.

Isso somente é possível com uma ENORME CAPACIDADE COMPUTACIONAL a ser atingida até 2020 (que mesmo com a Lei de Moore parecia inalcançável).

Muito confuso?? Bem-vindo ao verdadeiro mundo do BIG DATA.

Acostume-se às seguintes palavras: ALGORITMO, SISTEMA NUMÉRICO, INDEXAÇÃO INFORMAÇÃO, DERIVADA.

Todos os avanços anteriores na CIÊNCIA DA INFORMAÇÃO foram incrementais, desta vez o salto é quântico.

Uma analogia interessante é analisar a física clássica (NEWTON) baseada na geometria clássica (EUCLIDES). Tudo funcionava perfeitamente bem e sem complicação.

Mas um matemático desconhecido, RIEMANN, publicou artigo, em 1959 (totalmente desconsiderado pelos cientistas da época), descrevendo que a geometria euclidiana era um caso particular de uma geometria muito, muito mais complexa. Um professor idoso e quase senil considerou o artigo genial (GAUSS). Praticamente ninguém entendeu o exercício de matemática pura, sem aplicação física.

Um pesquisador jovem, utilizou 40 anos depois, o artigo de RIEMANN para reinventar a Física e o mundo. Seu nome: Albert Einstein.

Ou seja, pulamos de patamar.

“If you know what questions to ask , you probably don’t have a big data problem”.

Prof Ramiro Gonçalez – FIA

Inteligência de mercado e mídia

@ramirogoncalez -> http://que-midia-e-essa.blogspot.com/

ramirogon@uol.com.br

Autor: Mídias e Negócios e QUE CRISE É ESSA?

 

 

Anúncios

2 Comments

Add yours →

  1. Correção – Riemann publicou em 1859.

  2. Roberto Patriarca 13/03/2014 — 13:23

    Muito interessante como sempre. Simples sem deixar de ser profundo.

    Sem querer ser chato, acho que ha um erro na data da publicacao do aritgo de Reimann.

    Abracos

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s