2012 in review
The WordPress.com stats helper monkeys prepared a 2012 annual report for this blog.
Here’s an excerpt:
600 people reached the top of Mt. Everest in 2012. This blog got about 8,700 views in 2012. If every person who reached the top of Mt. Everest viewed this blog, it would have taken 15 years to get that many views.
En el evento Big Data Spain…
Hola a todos, hace tiempo que no escribíamos en el blog. La verdad es que Sidelab ha sufrido cambios importantes últimamente… en breve os contaremos en detalle la nueva situación, pero ahora os voy a hablar de BigData.
Hoy he estado en la conferencia BigData Spain. Se ha celebrado en la ETSIT de la UPM y ha sido organizada por Paradigma Tecnológico. La verdad es que ha estado muy bien. En este post contaré las cuestiones más relevantes del evento.
Por la mañana hemos tenido las charlas más generales sobre Big Data. La conclusion a la que he llegado es que Big Data en realidad es “processing” de big data. Hemos tenido varias charlas de gente clave en el mundo de BigData. Se han hablado de cuestiones como: Cassandra, otra de Cloud y BigData (de la mano de gente de gigaspaces), de BigQuery de Google y de Apache Pig.
Con lo que me quedo del mini-congreso es que hay muchos enfoques diferentes para trabajar en BigData. Como la eficiencia y la optimización es muy importante, hay muchos enfoques, cada uno de ellos para una tarea específica. Es decir, tradicionalmente lo más normal es que los datos de tu aplicación estén alojados en una base de datos relacional y todos los servicios (almacenamiento, análisis en tiempo real, consultas, informes…) se bases en dicha base de datos. Lo que aprendemos de BigData es que los modelos tradicionales no escalan y hay que utilizar otras tecnologías si queremos escalabilidad. Pero lo más importante es que no hay “una única nueva tecnología”… ahora hay muchas tecnologías diferentes que solventan problemas diferentes. Es más, lo habitual es que esas tecnologías se utilicen “a la vez” en tu sistema. Y eso me recuerda el término de persistencia-políglota de Martin Fowler. Todas estas nuevas formas de persistencia se engloban dentro del movimiento NoSQL, que ahora se empieza a entender como “Not only SQL” (en vez de No SQL).
La conclusión a la que llego es que en movimiento de BigData ya está lo suficientemente maduro como para que se empiece a pensar en la integración de todas estas tecnologías dentro de un mismo paraguas. Y no sólo desde el punto de vista conceptual, de modeloado de datos y de procesado de los mismos, también desde el punto de su ejecución. Hay que tener en cuenta que la escalabilidad es muy importante (junto con la tolerancia a fallos), por tanto el cloud computing (y la facilidad que proporciona el Paas) están muy relacionados con el BigData.
En definitiva… hay que estar al tanto de este movimiento para que no te pille desprevenido. Yo ya me he puesto a tope con MongoDB, una base de datos NoSQL.
¿Cuándo usar BigData? Según el ingeniero de Google: cuando el coste de determinar qué cosas no almacenar es mayor que el coste de almacenarlo todo
Making Of: Libro de Lenguajes y Procesadores
Como comenté en esta otra entrada, el libro de Lenguajes de Programación y Procesadores lo hemos creado con LaTeX. LaTeX es un sistema de composición de textos que a mí me vendieron (teóricamente) como “céntrate en el contenido, y olvídate del aspecto”. Y digo teóricamente entre paréntesis porque la realidad nunca es tan idílica. Al final las imágenes se te van unas páginas más allá de lo que querrías, conseguir que las palabras se corten bien es un problema aparte, hay que configurar un montón de cosas para que el tamaño de página, encabezados, etc queden como tú quieres…
Además, un libro como el que nos ocupa contiene diferentes recursos: listados de código, diagramas en forma de árbol, figuras… Cada uno de estos recursos requiere importar uno o varios paquetes LaTeX y, en ocasiones, configurarlos adecuadamente. Al final, el proceso se parece bastante a programar. De hecho, utilicé Eclipse para escribir mi parte del libro, utilizando para ello el plugin Texlipse, y todo el libro se encuentra en el correspondiente proyecto de SidelabCode.
Total, que al final dejar el libro como quieres es una tarea en la que a veces hay que hilar muy fino. La parte positiva de todo esto es que me he encontrado con algunos paquetes de LaTeX que son extremadamente útiles y versátiles, y quería dejarlos aquí anotados para uso y disfrute de la comunidad.
Código fuente
La inclusión de código fuente en un libro no es algo que se pueda tomar a la ligera. Los siguientes aspectos me parecían fundamentales a la hora de insertar código en el libro:
- La tipografía del código fuente debe ser diferente de la del resto del libro y monoespaciada.
- Las líneas deben ir numeradas para poder hacer referencia a una línea concreta del código o a un bloque.
- Preferiblemente el código debe tener resaltado de sintaxis.
- A mi personalmente me gusta que el fragmento del código se separe del texto “normal” de alguna manera (por ejemplo recuadrando el código).
Evalué diferentes formas de hacer esto hasta que di con el paquete perfecto: Listings. Añadir código fuente con Listings es tan fácil como esto:
\begin{lstlisting}[style=Haskell]
suma :: Integer -> Integer -> Integer
suma x y = x + y
\end{lstlisting}
Y el resultado queda como en la imagen:
Las palabras reservadas aparecen en negrita, el fondo es de un gris claro para distinguirlo fácilmente del resto del texto, la fuente es monoespaciada y las líneas están numeradas.
Listings trae un montón de lenguajes predefinidos y es sumamente versátil. Es posible cambiar el aspecto de prácticamente todo: comentarios, fondo, números de línea, palabras reservadas… Nosotros lo hemos utilizado para código Java, Haskell, C, Ruby, Pascal, XML, PHP, Awk, bash, Prolog y Perl. Puedes usarlo para un lenguaje que Listings no conozca. Evidentemente no reconocerá las palabras reservadas, pero al menos se mostrará con estilo de código fuente.
Árboles
En un libro donde hay un capítulo dedicado a los compiladores, abundan los árboles de análisis sintáctico. Habíamos pensado hacer estos árboles con algún programa externo, generar la imagen correspondiente y después insertar la imagen en el documento. El problema de este enfoque es que la tipografía de la imagen puede variar mucho respecto a la del texto del libro. Además, hay que tener mucho cuidado con el escalado, para que el tamaño del texto de unas figuras no difiera del de otras.
Buceando un poco por la web, vi el paquete qtree. Con este paquete es sumamente sencillo definir árboles, siempre que se tenga un poco de cuidado con el balanceado de los corchetes que sirven para delimitar los diferentes niveles. El punto indica cuál es la raiz del subárbol correspondiente:
\Tree [.S [.A a b ] [.B a b a ] ]
La sintaxis es sencilla, pero desagradable a la vista. Ahora bien los resultados son espectaculares:
Diagramas sintácticos
Otro de los recursos que contiene el libro son diagramas sintácticos. Estos diagramas se utilizan en el Capítulo 1 y para generarlos utilizamos el paquete syntax. Syntax forma parte de mdwtools, que incluye también paquetes para formatear gramáticas BNF. He aquí un ejemplo de definición de diagrama sintáctico con syntax:
\begin{figure}
\begin{syntdiag}
<termino>
\begin{stack}\\
\begin{rep}
\begin{stack}
'+'\\
'-'
\end{stack}
<termino>
\end{rep}
\end{stack}
\end{syntdiag}
\caption{\small \emph{Diagrama sintáctico correspondiente a la gramática \ref{gram:termino}}}
\label{fig:diagrama-sintactico-termino}
\end{figure}
Y el resultado (en nuestro caso escogimos diagramas con bordes cuadrados en lugar de redondeados):
Encabezados en versales
Esta es una de las cosas que más fastidiosa resultó. Una vez que teníamos terminado el libro, el editor, con buen criterio, nos señaló que los encabezados de los índices aparecían en mayúsculas, mientras que en el resto del libro los encabezados de las páginas aparecen en versales.
Estuve intentando cambiar el estilo de las páginas de los índices, pero no era capaz. El estilo por defecto para los capítulos no se aplicaba a los índices. Al final opté por particularizar el estilo de los capítulos para cada uno de los índices (hay un índice general, un índice de figuras y un índice de tablas):
\newcommand{\ps@indexheadings}{%
\renewcommand{\@oddhead}{% encabezamiento páginas impares %
\parbox{\textwidth}{
\hfill \textsc{Índice} \hfill \thepage}}
\renewcommand{\@evenhead}{% encabezamiento páginas pares %
\parbox{\textwidth}{
\thepage \hfill \textsc{Índice} \hspace*{\fill}}}}
Ahora, poniendo lo siguiente:
\pagestyle{indexheadings}
\tableofcontents
El encabezado del índice aparece correctamente en versales.
Bibliografía
El último de los temas (que yo recuerde) de interés en la composición del libro fue el estilo de la bibliografía. El estilo bibliográfico normal añade un and entre el penúltimo autor y el último en las publicaciones. Queríamos que apareciera un y. Intentamos cambiar al estilo castellano (con el fichero de estilo spain.bst), pero el estilo era muy diferente y no nos gustaba.
Al final opté por modificar a mano el fichero plain.bst con el estilo normal (renombrándolo) y cambiar el and por y. Sólo hay que cambiar la línea 201:
{ " y " * t * }
Os dejo el diff:
201c201
< { " and " * t * }
---
> { " y " * t * }
Y este es el resultado:
Sidelab Commons
SidelabCode tiene un nuevo proyecto, liberado bajo una licencia de código abierto. Se trata de Sidelab Commons. El objetivo de Sidelab Commons es exportar pequeñas librerías de utilidad para que puedan ser utilizadas desde otros proyectos.
Para explicar en más detalle el objetivo del proyecto, aunque muchos ya habrán realizado una asociación con el proyecto Apache Commons, nos centraremos en un caso particular. En varias ocasiones nos hemos encontrado con la necesidad de invocar comandos, a través de la API Runtime (más concretamente Runtime.exec), desde java. Además, esta funcionalidad la hemos requerido desde proyectos muy diferentes:
- En Optsicom Remote Experiment System (Optsicom RES) se utiliza para ejecutar en una máquina remota un programa Java arrancando una nueva VM.
- En Optsicom Framework se utiliza para ejecutar un experimento en una VM diferente.
- En Pascaline, un plugin de Eclipse para Pascal, se utiliza para invocar el compilador de FreePascal.
- SidelabCode Stack, el instalador de la forja de SidelabCode, se utiliza para invocar apt-gets y todo tipo de comandos que permiten configurar adecuadamente los servicios de la forja.
- En proyectos que hemos desarrollado para empresas también hemos necesitado invocar comandos externos a menudo.
El uso de Runtime.exec no es trivial. Además de las diferentes versiones disponibles, hay que tener en cuenta la captura de la salida estándar y la salida de error del proceso que se está lanzando. Normalmente, para cerciorarnos de que el proceso ha terminado correctamente es necesario:
- Al terminar el proceso comprobar el código de salida
- Recuperar la salida estándar
- Recuperar la salida de error
La recuperación de las salidas del proceso requiere la creación de un hilo para la salida estándar y otro para la salida de error que consumen los datos de los respectivos InputStreams hasta que el proceso los cierra. Básicamente, el código tiene este aspecto:
new Runnable() {
public void run() {
try {
byte[] buffer = new byte[1024];
int leidos = 0;
while ((leidos = System.in.read(buffer)) != 0) {
out.write(buffer, 0, leidos);
}
} catch (Exception e) {
throw new RuntimeException(e);
}
}
}
Como esto es tedioso de hacer cada vez, en su día lo factorizamos en una pequeña librería que llamamos commandline. Ahora, hemos abierto el proyecto Sidelab Commons para alojar este tipo de recursos. Actualmente, cualquier proyecto puede hacer uso de commandline, y obtener de forma sencilla la salida de un proceso:
CommandLine cl = new CommandLine(); // Opcionalmente podríamos especificar el dir de trabajo en el constructor.
CommandOutput co = cl.syncExec("tail /etc/apache2/sites-enabled/default");
System.out.println(co.getStandardOutput());
System.out.println(co.getErrorOutput());
Puedes descargar commandline o añadirlo como dependencia a tu pom. Echa un vistazo a nuestro archiva.
Por cierto, recuerda que cuando invocas comandos desde Java, no estás ejecutando el comando dentro de una shell, y por tanto no funcionan los wildcards (cosas como ls *.java). Si necesitas realmente ejecutar tu comando desde una shell para que te interprete adecuadamente este tipo de comodines usa bash -c ‘ls *.java’ o mira la documentación de la shell que soporte tu sistema. Nosotros, por ejemplo, hemos tenido problemas ejecutando un proceso en Windows y tuvimos que utilizar “cmd /c” para correrlo dentro de la shell de Windows en modo no interactivo. Puedes echar un vistazo a esto en el proyecto Pascaline.
Jenkins, Subversion y los certificados SSL
Trando de automatizar la release de un proyecto Maven, nos hemos encontrado con un problema con los certificados y Subversion. El problema es que Subversion no acepta el certificado de SidelabCode. Concretamente el error es el siguiente:
Error validating server certificate for 'https://code.sidelab.es:443':
- The certificate is not issued by a trusted authority. Use the
fingerprint to validate the certificate manually!
Certificate information:
- Hostname: code.sidelab.es
- Valid: from Fri, 09 Sep 2011 13:42:29 GMT until Mon, 06 Sep 2021 13:42:29 GMT
- Issuer: Web, Sidelab, ES, Madrid
- Fingerprint: 59:6f:56:07:f5:a8:bf:fe:7a:57:75:37:a8:57:76:8c:0f:9f:6f:9d
(R)eject, accept (t)emporarily or accept (p)ermanently? svn: Commit failed (details follow):
svn: OPTIONS of 'https://code.sidelab.es/svn/optsicomres/res/trunk': Server certificate verification failed: issuer is not trusted (https://code.sidelab.es)
Error validating server certificate for 'https://code.sidelab.es:443':
- The certificate is not issued by a trusted authority. Use the
fingerprint to validate the certificate manually!
Certificate information:
- Hostname: code.sidelab.es
- Valid: from Fri, 09 Sep 2011 13:42:29 GMT until Mon, 06 Sep 2021 13:42:29 GMT
- Issuer: Web, Sidelab, ES, Madrid
- Fingerprint: 59:6f:56:07:f5:a8:bf:fe:7a:57:75:37:a8:57:76:8c:0f:9f:6f:9d
(R)eject, accept (t)emporarily or accept (p)ermanently? svn: OPTIONS of 'https://code.sidelab.es/svn/optsicomres/res': Server certificate verification failed: issuer is not trusted (https://code.sidelab.es)
En principio el problema se soluciona accediendo a la máquina y haciendo cualquier operación a mano con subversion desde el mismo usuario con el que se ejecuta svn desde Jenkins. Sin embargo, la cosa no es tan sencilla en ocasiones, porque es posible que no podamos utilizar directamente el usuario para esto de forma interactiva. Esto se da cuando el usuario que ejecuta Jenkins es un usuario sin login como por ejemplo el usuario tomcat o www-data. Así que voy a dejar aquí un método genérico que debería funcionar en (casi) cualquier caso:
- Conéctate a la máquina con un usuario cualquiera.
- Ejecuta alguna operación sobre el repositorio, por ejemplo
svn info https://miservidor/path/repo. - Acepta permanentemente el certificado pulsando “p”.
- Copia el fichero generado en la carpeta
.subversion/auth/svn.ssl.servers/dentro del home del usuario a la misma estructura de carpetas dentro del home del usuario con el que se ejecuta Jenkins.
Con este mecanismo he sido capaz de solucionar el problema, y ahora se pueden hacer commits y cualquier tipo de operación sobre el repositorio de forma automática desde Jenkins sin problemas.
Sidelab colabora con los campeonatos del mundo de ultraligeros y paramotor
Sidelab es entidad colaboradora de los Campeonatos del Mundo de Ultraligeros y Paramotor que se celebrarán en Marugán, Segovia. El Campeonato del Mundo de Ultraligeros tendrá lugar entre el 7 y el 18 de agosto de 2012, y el Campeonato del Mundo de Paramotor se celebrará entre el 21 de agosto y el 1 de septiembre.
Hace unos meses un antiguo compañero que estuvo dando clases aquí en la universidad nos pidió un poco de soporte de IT para la gestión de los campeonatos del mundo de ultraligeros y paramotor 2012, que le había tocado organizar este año. Básicamente, necesitaban un proyecto en SidelabCode (la forja de Sidelab) para gestionarse ellos internamente y organizar el campeonato. Pues nada, les creamos el proyecto y les dimos soporte.

Parece que la cosa les ha ido bien, y además al comité organizador le ha gustado la experiencia de usar Redmine (el sistema de gestión de proyectos que tenemos en SidelabCode). Como agradecimiento, aparecemos entre los sponsors del evento. La verdad es que la experiencia ha estado muy bien, y esperamos que los campeonatos vayan aún mejor.
La colaboración no se ha terminado, porque están tratando de gestionar el campeonato (equipos, puntuaciones, reclamaciones, etc.) a través de una web montada con Drupal detrás, donde estamos hemos dado un poco de asistencia también, desde nuestra experiencia de varios años trabajando con este CMS.
Libro de Lenguajes de Programación y Procesadores
Cuando comencé mi andadura en la universidad, me ofrecieron escoger entre dar dos asignaturas: Web para Usuarios y Procesadores de Lenguajes. Web para Usuarios era una asignatura de libre elección de los planes de estudio de Ingeniería Química, Ciencias Ambientales y otras afines. Procesadores de Lenguajes era una asignatura troncal de cuarto curso de Ingeniería Informática, y para muchos, entre los que me incluyo, el monstruo de las galletas del ciclo superior. Bueno, pues me metí de lleno con Procesadores de Lenguajes, y estuve dos años impartiendo la parte de análisis semántico y un tercero dando la parte de análisis sintáctico.
Posteriormente, cambié mi docencia por motivos varios (incluyendo un cambio de departamento), y acabé dando diferentes paradigmas en una asignatura que se llamaba Lenguajes Informáticos. Me encantó dar esta asignatura, donde veíamos, organizados en tres módulos, programación concurrente, programación funcional y lenguajes dinámicos. Actualmente, imparto parte de esta docencia en una asignatura de grado denominada Lenguajes de Programación. Lo interesante de la asignatura de Lenguajes Informáticos es que me permitió dar un buen repaso, con la excusa de los lenguajes dinámicos, a las diferencias entre compiladores/intérpretes/máquinas virtuales, y presentar de forma introductoria todo el tema de los compiladores Just in Time.
Siempre había pensado que estaría bien escribir un libro sobre paradigmas, con una visión general de cada uno de ellos, ejercicios que pusieran de manifiesto las principales diferencias y las diferentes formas de resolver el mismo problema, etc. La oportunidad me llegó de casualidad cuando, en enero de 2011, Raquel Martínez, profesora de la Universidad Nacional de Educación a Distancia, me llamó para proponerme participar en la redacción de un libro para una asignatura que ella iba a impartir en el curso 2011-2012. Me comentó que la asignatura debía cubrir tanto la parte de procesadores de lenguajes como la parte de paradigmas.
El resultado es el libro “Lenguajes de Programación y Procesadores“, de la editorial Ramón Areces, que es la referencia bibliográfica básica de la asignatura del mismo nombre del grado de Ingeniería en Tecnología de la Información. El libro, escrito por Raquel Martínez, Víctor Fresno y un servidor, se presenta una introducción al procesamiento de lenguajes, incluyendo un Tema 2 que profundiza un poco en el tema del análisis sintáctico ascendente y descendente; una panorámica general de diferentes paradigmas de programación (lógico, funcional, orientado a objetos y concurrente); se dedica un tema a los lenguajes de marcado (principalmente XML); y finalmente, hay un capítulo dedicado a los lenguajes de script, o lenguajes dinámicos.
No sé cómo se estará vendiendo el libro, que cuesta 36,10€ en El Corte Inglés, pero la editorial nos acaba de contactar por si queremos preparar la segunda edición de cara a publicarla para el curso académico 2012-2013. Así que ahí seguimos, a vueltas con el libro, corrigiendo las erratas que han detectado los estudiantes más aplicados de este año.
Como no podía faltar un toque tecnológico en este tema, me siento obligado a comentar que el libro está escrito en LaTeX de pe a pa. La composición final la he centralizado yo, y para ello he utilizado Texlipse, un plugin de LaTeX para Eclipse. Tengo el libro en un proyecto en SidelabCode, subido en un repositorio svn. Cada nueva versión que nos intercambiamos lleva asociada la creación de un tag en el repositorio para poder recuperar en cualquier momento una versión concreta del libro.
La edición del libro con LaTeX merece una entrada aparte, pero baste decir que hemos penado un poco con el tema de los listados de código (aunque ha quedado al final muy bien) y algunos detalles que, aunque parecen nimios, imposiciones de la editorial nos han obligado a dedicarles un esfuerzo considerable.












