Tortura de auga: unha analoxía analítica vai demasiado lonxe

análise por goteo

Os datos, como a auga, teñen moitas formas. A mente humana evolucionou para filtrar a maioría dos datos que se nos achegan porque simplemente hai moito deles.

Cando abres os ollos e os oídos, os datos están en todas partes. A cor da parede, o son do aire acondicionado e o cheiro do café do seu veciño trátanse como humidade. A auga está no aire todo o tempo pero non é útil prestarlle moita atención.

Cando a auga se condensa en néboa, obrígache a velo e dificulta moito máis a comprensión do mundo que te rodea. Conxuntos de datos incompletos, datos corrompidos, malas ciencias, conclusións falsas e sesgo cognitivo fan que perdas o camiño na néboa.

Os datos caen como a choiva. Cando só hai un pouco, é moi insatisfactorio, o suficiente para ensuciar o coche e confundir a conversa. Atópaste borrando o punto das lentes mentres alguén bota algún dato aleatorio, recollido dalgunha fonte escura.

  • Auga rancia nunha lagoa pouco profunda é perigoso. Os datos, recollidos dun subministro pouco fiable, nin limpos nin normalizados e deixados en crecemento, poden levar facilmente a conclusións erróneas.
  • A goteo constante de auga pode ser o suficiente para encher unha cantina ou manter un ecosistema forestal. Só tres puntos de datos (o número de correos electrónicos enviados fronte aos abertos ou os premidos) poden manter un programa de mercadotecnia.
  • A fluxo máis saudable de datos en forma de pequeno regato pódense empregar para o baño. Un fluxo continuo de datos permite realizar comparacións e comparacións históricas. A optimización da páxina de destino pódese realizar con datos de conversión constantes.
    A río modesto pode alimentar un muíño para serrar madeira ou moer trigo. Un motor de recomendacións só precisa a contribución fiable dun puñado de afluentes para proporcionar un aumento do valor dos carros da compra.
  • A fervenza pode impulsar unha enorme roda hidráulica e un fluxo suficiente de información pode conducir a un sistema de contido dinámico en tempo real.
  • A río iso é o suficientemente amplo e profundo como para soportar toda unha industria do transporte. Os datos suficientes poden facer flotar barcas e buques de carga en forma de colección de cookies de redes publicitarias, agregadores de datos do programa de tarxetas de fidelidade e axentes de datos.

Cando os datos chegan en cantidades esperadas nos momentos previstos, pódense capturar, canalizar e utilizar. Os sistemas de rega, presas e encoros proporcionan unha sensación de control e permiten a construción dunha infraestrutura cada vez máis amplia con canles, peches e presas. Os almacéns de datos construíronse sobre fluxos menos fiables.

A limpeza está xunto á divindade

A auga limpa é vital para o éxito da vida, o rego, as centrais eléctricas en funcionamento, etc. A definición de "limpa" pode cambiar ao efecto; está ben se hai algas na auga que arrefría unha central eléctrica e non é aceptable se hai máis de 10 partes por billón de arsénico na auga potable.

Os datos son os mesmos. Nunha solicitude de correo directo, non ten importancia se ten o título dunha persoa (señor, señora, señora) ... a non ser que envíe por correo a médicos. Pero os datos sucios tráptanche cada vez.

Como científico xefe de datos dos Estados Unidos, DJ Patil, poñelo nun Cumio da CTO da Primeira Rolda: "Se non estás pensando en como manter os teus datos limpos desde o principio, estás f ^ ¢ & ed. Garanteino. Tentar limpalo despois do feito levará meses como mínimo ".

Se quentes a auga ata o punto de ebulición, pode alimentar toda unha revolución industrial. Os datos parecen estar facendo o mesmo. Dende o momento no que as computadoras poden almacenar e calcular, os datos recolléronse tan rápido como se podería crear o equipo de almacenamento para facelo.

O lago de datos

Mentres os datos destes afluentes percorren os motores dos muíños, todo acaba no lago, detrás da presa. Como os datos se saen de forma controlada, alimenta as turbinas da industria de datos; eses xigantes motores de procesamento de datos con nomes como Google e Facebook. Aquí non haberá seca.

E, finalmente, hai unha poza de auga profunda, á espera de que o analista se mergullo. Artes de mergullo e pistola de lanza na man, o analista investiga as profundidades, mapea novos terreos e descobre novas especies. É un momento moi emocionante para ser explorador de datos.

É por iso que moitos deles estiveron presentes no Cumio eMetrics desde 2002. A seguinte oportunidade é en Boston, do 27 de setembro ao 1 de outubro de 2015.

Rexistro do Cumio eMetrics

Unha Ponte Lonxe De máis

E que dicir do poder dos datos para esculpir o próximo Gran Canón? E a fusión glacial de datos estruturados? Como tratamos as augas residuais nun mundo cada vez máis consciente da privacidade?

Esas son preguntas para outra vez e auga debaixo da ponte.

¿Que pensas?

Este sitio usa Akismet para reducir o spam. Aprende a procesar os teus datos de comentarios.