Sueños y Realidades de Big Data

March 24, 2018 | Author: Abel Alejandro Coronado Iruegas | Category: Data Science, Twitter, Big Data, Machine Learning, Json


Comments



Description

Realidades y sueños deen México Marzo 2015 abel.coronado @ inegi.org.mx ¿QUÉ ES BIG DATA? . ¿Qué es Big Data? Dan Ariely. Duke University . org/wiki/Los_ciegos_y_el_elefante @abxda .wikipedia.¿Qué es Big Data? Big Data http://es. © The Royal Statistical Socie Big data Gartner & Finantial Times @abxda .¿Qué es Big Data? Big data: A big mistake? Journal Significance. edu/what-is-big-data/ @abxda .berkeley.¿Qué es Big Data? http://datascience. ¿Qué es Big Data? http://datascience.edu/what-is-big-data/ @abxda .berkeley. ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ @abxda . ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ @abxda . edu/what-is-big-data/ @abxda .berkeley.¿Qué es Big Data? http://datascience. ft. actuar y crear valor. @abxda http://www.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.¿Qué es Big Data? Según Gartner Big data es información en altos volúmenes. alta velocidad o alta variedad que demanda formas creativas y viables económicamente para procesarla con el fin de contribuir a tomar decisiones.p . Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales @abxda . @abxda . org/wikipedia/commons/5/5b/Samurai_award.Tomar decisiones.jpg .wikimedia. actuar y crear valor http://upload. docx?version=1&modificationDate=1362939424184 @abxda .unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.Big Data en las Oficinas Nacionales de Estadística http://www1. • Statistical organisations are. encouraged to address formally Big data issues in their annual and multiannual work programmes by undertaking research and pilot projects in selected areas and by allocating @abxda appropriate resources for that purpose.Big Data en las Oficinas Nacionales de Estadística • It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept. . therefore. g. • To use Big data. Text mining. @abxda programming skills) . and High Performance Computing. an affinity for IT (e.Big Data en las Oficinas Nacionales de Estadística • 'new' exploration and analysis methods are required: Visualization methods. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set. statisticians are needed with a different mind-set and new skills. Un Proceso de Ciencia de Datos Explorar. Visualizar Analizar Fuente(s) Conceptualizar Recolectar Limpiar Imaginar / Comprender Transformar/ Caracterizar Considerar la Integración de Otras Fuentes Comunicar Modelar / Entrenar ? Validar http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/ . com/zia/2013/3/26/the-data-science-venn-diagram .Ciencia de Datos Experto en computación y desarrollo avanzados Machine learning CIENCIA DE DATOS Zona peligrosa! Experto en estadística matemática Investigación tradicional Experto en el dominio de datos @abxda http://drewconway. anlytcs.com/2014/01/data-science-venn-diagram-v20.Ciencia de Datos CIENCIA DE DATOS Experto en computación y desarrollo avanzados Machine learning Unicornio Zona peligrosa! Experto en estadística matemática Investigación tradicional Experto en el dominio de datos @abxda http://www.html . community/2014/07/08/data-scientist-vs-data-engineer/ .datascience.Productos de Datos Manejar las 3 v’s Administración de Sistemas Visualización vs Científico de Datos Ingeniero de Datos Programación Modelado Científico de Datos Ingeniero de Datos Matemáticas Contar Historias Estadística Administración de Bases de Datos Almacenamiento de Datos @abxda http://101. Equipo de Big Data y Ciencia de Datos Estadística Crowdsourcing Matemáticas Arquitecturas de Software Machine Learning Minería de Texto Arquitecturas Big Data Bases de datos NoSQL Interfaces de Usuario Experiencia del Usuario Administradores de Sistemas Ingeniería de Software First Mobile Visualización de Datos @abxda . Arquitectura para Ciencia de Datos y Big Data ¿por qué? ¿quién? ¿cuántos? ¿Dónde? l Ve ad id oc nternet de las cosas nternet de las personas Volumen Datos Crudos hdfs:// Ciencia de Datos (Transforma/Modela) Cómputo Concurrente y Paralelo Información (Significado) Va rie d ad nternet de las ideas Internet del todo ¿qué? Análisis de Datos Estadística Machine Learning Minería de Datos Estratificaciones Tomar Decisiones Actuar Muestreo @hbcolectivo Análisis de Redes (Grafos) Mucho más… Análisis de Regresión @abxda . Panorama Tecnológico Infraestructura de Cómputo Internet de las Cosas Estadística { json } < xml > c,s,v Sensores Sistemas de Archivos Distribuidos Análisis Multivariado Machine Learning Análisis de Interacción Espacial Internet de las Personas { json } Bases de Datos NoSQL < xml > c,s,v Visualización Redes Sociales Internet de las Ideas Computo Paralelo y Concurrente Programación Funcional { json } < xml > c,s,v Crowdsourcing Razonamiento Algebraico Qué es un producto de datos ESTRATIFICADOR INEGI Ciencia de Datos www.inegi.org.mx/est/contenidos/Proyectos/estratificador @abxda Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap. { JSON } Motor de análisis estadístico. @abxda . habilitador de la inteligencia estadística. JSON formato de intercambio de datos.Tecnologías Involucradas (2013) D3.js Librería JavaScript para creación de los gráficos vectoriales interactivos. Ciencia de Datos . Ciencia de Datos @abxda . Ciencia de Datos @abxda . 2 M de Manzanas En la misma Pc de 4 Procesadores: (2013) Softwar Tie mpo Manza nas Big Data 8 Seg.Estratificación de 1.org/ %Acceso a Internet. 2. 1’221. %Automovil @abxda .apache.666 e https://spark. %Pc.1 80 Tradicion al 8 Seg. %Telefono Celular. TWITTER COMO FUENTE DE BIG DATA Para medir el pulso emotivo de México …y mucho más … @hbcolectivo . ¿Cuántos caracteres? @abxda . 140 ??? @abxda . 1482 Json: Formato de Intercambio .Todo listo para la presentación de #BigData en el @FSLmx . Nuestra huella en las Redes Sociales @abxda . @abxda .Todos los tuits están disponibles para su recolección en tiempo real. Incluso permite consultas geográficas @abxda . ¿Dónde recolectar? @abxda . elasticsearch.org/ @abxda .http://www. ¿Por qué ElasticSearch? @abxda . 1.2.X.1.x Puertos (b)10.1.200.200.¿Por qué ElasticSearch? Acceso a Internet [Recolecta información Redes Sociales] Hydra1 – Master 10.1.1.X < ESCALABILIDAD HORIZONTAL@abxda > .1.X | 10.X Hydra 2 – [10.X] Switch Puertos (a) 10. Hydra < ESCALABILIDAD HORIZONTAL@abxda > . Hydra . . – Mas de 121 millones de tuits recolectados . – El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana.Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL. Visualización de la Base de Datos 121 Millones de Tuits . 007 Tuiteros generaron 43’079.312 de Tuits .Frecuencia de Tuiteo Frecuencia por hora del día # Tuits 882. Frecuencia de Tuiteo . 157 Tuiteros .Movilidad de los Tuiteros 4’469.550 de desplazamientos de 347. Movilidad hacia Pueblos Mágicos . Contenido de los Tuits . Red Nacional de Caminos y Twitter @abxda . Red Nacional de Caminos y Twitter . DENUE & Twitter . Horarios de Tuiteo cerca de algún sector @abxda . Qué es un producto de datos PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTER MACHINE LEARNING . Proceso de Machine Learning Objetivo: … Indicador de sentimiento … . r-project.Proceso de Machine Learning Entrenamiento Representación numérica http://scikit-learn.org/ http://www.or Muestra de Tuits Etiquetado Manual Machine Learning Producción Tuits en Tiempo Real Indicador Modelo Clasificador de sentimiento @abxda . mx/pioanalisis @hbcolectivo @ricardoaolvera @abxda .inegi.http://cienciadedatos.org. { JSON } Web Api 2 / Interface REST @abxda . Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap. JSON formato de intercambio de datos.Tecnologías Involucradas D3.js Librería JavaScript para creación de los gráficos vectoriales interactivos. Resultados Alrededor de 5000 anotadores de la Universidad Tec Milenio @hbcolectivo @ricardoaolvera @abxda . Seguimos trabajando… • Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning… . IMPLEMENTACIÓN DE BIG DATA . Hadoop / Apache Spark Procesamiento + 70 Cores > 3 Ghz >250 Gb Ram 5 TB Recolección 20 Cores > 3 Ghz 100 Gb Ram 1 TB ó @abxda . Apache Spark • Tecnología de procesamiento en paralelo para Ciencia de Datos @abxda . @abxda . Reflexión @abxda . Reflexión http://www.html @abxda .scidev.net/global/data/feature/big-data-for-development-facts-an dfigures. Preguntas @abxda . org.mx [email protected].
Copyright © 2024 DOKUMEN.SITE Inc.