Adaptive MapReduce Scheduling in Shared Environments

May 31st, 2014|

Jordà Polo presented our last research in Map Reduce at the 14TH IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing  held in Chicago. In this paper we present a MapReduce task scheduler for shared environments in which MapReduce is executed along with other resource-consuming workloads, such as transactional applications. All workloads may potentially share the same data store, some of them consuming data for analytics purposes while others acting as data generators. This kind of scenario is becoming increasingly important in data centers where improved resource utilization can be achieved through workload consolidation, and is specially challenging due to the interaction between workloads of different nature that compete for limited resources. The proposed scheduler aims to improve resource utilization across machines while observing completion time goals. Unlike [...]

¿Quieres saber más sobre la tecnología Big Data?

May 29th, 2014|

 Apache Spark es uno de los proyectos más activos del mundo Big Data, con más contribuyentes en el último año que Hadoop, del que vengo hablando hace un tiempo en este blog. ¿Le interesa el mundo del Big Data? ¿Tiene usted alguna duda de para qué se utiliza y qué tipo de problemas se puede resolver? Si es que sí y viven cerca de Barcelona les esperamos en el Barcelona Spark Meetup que acabamos de crear compuesto por un grupo interdisciplinar de personas interesadas en los ámbitos más diversos del emergente mundo Big Data. Nuestro principal objetivo como grupo es reunirse con las personas interesadas en esta tecnología, escuchar acerca de sus proyectos relacionados y pasar un buen rato todos juntos. Como es habitual en este tipo de eventos habrá incluso cervezas. Si les interesa el tema [...]

Is Hadoop showing its age?

May 22nd, 2014|

In my opinion, yes!, the Hadoop framework is showing its age and new processing models are a must. Not only for performance but also for its lack of flexibility. In some way, it is the same that what is happening with the Big Data management. Due to the lack of flexibility of queries, NoSQL databases are adding new query features based on SQL; on the contrary side, SQL databases are bringing some measures of NoSQL performance to relational models. Recently, together with some colleagues, we decided to explore the Spark ecosystem. Spark is a Hadoop MapReduce alternative that improves the performance of Hadoop in part due to its ability to catch intermediate results in-memory. Additionally, Spark addresses the lack of flexibility of the MapReduce model. Sparks also [...]

Guía detallada para crear tu primer servidor en el Cloud

May 21st, 2014|

Hace unos días cree esta guía detallada (guided hands-on) para iniciarse en el cloud de Amazon Web Services con el objetivo de dar soporte a una de mis asignaturas en la Facultat de Informàtica de Barcelona (UPC Barcelona Tech).  En este link tienen a su disposición la guía si creen que les puede ser útil. Se trata de una guía paso a paso (en inglés) para crear un servidor con los siguientes pasos: 1. Sign Up for AWS 2. Create an Identity and Access Management User 3. Create a Key Pair 4. Create a Security Group 5. Launch an Amazon EC2 Instance 6. Clean Up EC2 instance Si quieren probar este ejercicio pueden obtener unos créditos gratuitos en Amazon para realizarlo.  Espero que les sea útil. ACTUALIZACIÓN (22/05/2014):  Manel [...]

Versión Jordi 5.0 en “La Maratón de los senderos y el barro”

May 13th, 2014|

Habitualmente en este blog solo hablo de tecnología y conocimiento. Pero hoy voy a hacer una merecida excepción como muestra de mi agradecimiento hacia la comarca Urola Garaia, situada al sur de Gipuzkoa, por su fantástico regalo de aniversario.  Los más cercanos saben que este mes paso de la versión 4.9 a la versión 5.0 [1] y por ello me regalaron una salida en BTT diferente de las que acostumbro a realizar: participar en la Urola Garaia BTT 2014: La Maratón de los senderos y el barro de “solo” 80 kilómetres con 3.200 metros de desnivel acumulado. La carrera más sensacional de todas las que he realizado nunca. A los 10 kilómetros el barro me llegaba a las rodillas. Un recorrido con largas subidas que luego le seguían unas [...]

Research: Self-configuration of Cloud infrastructures

May 7th, 2014|

This morning, Nico Poggi, one of the researchers in our research group, did their PhD dissertation. It was fantastic! I'm proud of Nico's work, related with dynamic resource provisioning based on revenue and cost metrics, to optimize profits for consumers of Cloud platforms. The results are based on real datasets from a well known Ecommerce retailer founded in Barcelona several years ago (although today it is a world-wide scope company): Atrapalo.com. The last part of the PhD achievements are extraordinary, based on user behaviour models that relate Quality-of-Service to service capacity, and to the intention of users to buy a product on an Ecommerce site. Nico shows how such metrics enable profit-aware resource management, allowing the self-configuration of Cloud infrastructures to an optimal number of servers. My sincere [...]

Promises and perils of big data according Obama’s Advisors

May 2nd, 2014|

Today I read a press release of US administration related with a Big Data report with special attention to privacy, written by his Council of Advisors on Science and Technology: Big Data: A Technological Perspective report . I've only had time to do a look at the document, since the new has taken me out of the office. However I considered to share this link before read it in more detail just in case could be of your interest the new. It is interesting to know what Obama administration thinks! :-) Regards from Barcelona!  Hoy he leído un comunicado de prensa de la administración de EE.UU. relacionada con un informe de Big Data con especial atención a la privacidad, escrita por su Consejo de Asesores en Ciencia y Tecnología: Big Data: A [...]