Archive for the 'Google' Category

Google’s high scalable architectures

  • english
  • spanish

A coworker has sent me three interesting articles from High Scalability, a site I still didn’t knew but which I’ve already added to my Google Reader list. :) The articles talk about the design and computer/network architecture decisions taken at YouTube, Google and GTalk in order to handle the big load their services face. They also comment the current architecture in each site and their evolution over time:

Some lessons to learn from these articles:

  • Don’t try to fix everything with one single architecture or tool. Divide the problem, see if each sub-problem is CPU-, bandwidth- or IO-bound, and optimize it. Specialize server for each task and coordinate their work.
  • Cache content whenever possible. Pre-generate content whenever possible. Make good use of HTTP’s cache-control directives. Use squid as a reverse proxy to leverage your application servers’ load.
  • Think about externalizing some things, like hosting images or videos off-site. These elements may need more bandwidth that you currently have, and moving them off-site can be a good idea, even if it’s just a temporary measure while you manage to get more bandwidth. The service must run at all times.
  • Simplicity. Will let you make changes and evolve your architecture without screwing up.
  • Commodity-PC based clusters. They maximize the power/price ratio. Have a redundancy system in place so that when one node goes down or needs maintainence, the system keeps working without it. Have a system to easily install/change a node, also without affecting the service. And start planning the power and cooling problems ahead. ;)
  • Programming today is much about libraries and frameworks. Don’t reinvent the wheel. Use a common framework in all your developments, homegrown or not. This way novel programmers will be able to start writting code faster, will be able to switch projects easily, won’t have to code the same things over and over again, and a system upgrade will benefit all your applications.
  • Think about the architecture you’ll need from the start. I’m sadly used to developers not caring about what their code runs on, or if their code will lead to CPU, IO or bandwidth problems. Google seems to face every new development looking at the architecture they’ll need to handle the service, and then develop the code arount that architecture. This is what settles Google appart from the rest.
Enviar a:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • BarraPunto
  • Meneame
  • Slashdot
  • Technorati
  • YahooMyWeb

Titulares vía Google Reader

Llevo una temporada usando Google Reader como lector de RSS. La verdad es que resulta bastante cómodo y fácil de usar, y además al ser una aplicación web puedes acceder desde casa, desde el trabajo, etc. y se va guardando los artículos que lees estés donde estés.

Una opción muy interesante que tiene es la de compartir las noticias que consideres interesantes, con las que te genera una página y un feed RSS. Acabo de añadir éste feed con un widget a la barra de la derecha, bajo el título de “Noticias”. Así irán apareciendo por aquí enlaces a noticias que me parecen curiosas/interesantes/divertidas, independientemente de que me dé por comentarlas en más detalle en algún artículo.

Enviar a:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • BarraPunto
  • Meneame
  • Slashdot
  • Technorati
  • YahooMyWeb

Lo último de Google (Maps)

Los de Google son la leche. Aparte de un buscador cojonudo, un servicio de correo mucho más que decente con un anti-SPAM que mataría por saber cómo funciona, tienen Google Maps.  Hace ya tiempo que cuando quiero localizar un comercio o ver cómo llegar a un sitio, en vez de Páginas Amarillas, Guia Campsa o Via Michelín voy a Google Maps.

¿La última? Ahora se puede variar la ruta que te ofrece simplemente pinchando en ella y arrastrando al sitio por el que quieres pasar, y dinámicamente te recalcula la ruta. Ya no es necesario introducir una lista de direcciones por las que quieres pasar, sólo origen y destino y a golpe de ratón modificas la ruta. Genial. Además para “ciudades seleccionadas” (léase, EEUU y poco más) incluye información del tráfico. Más info en la web de Google Maps.


YouTube Rutas en Google Maps

Enviar a:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • BarraPunto
  • Meneame
  • Slashdot
  • Technorati
  • YahooMyWeb

Cabalgando los gusanos

“Debes cabalgar por la arena a la luz del día,
para que Shai-hulud vea y sepa que no tienes miedo.”

Dune, de Frank Herbert

“Si no está en Google, no existe”. Esta frase tan categórica es cierta tanto para comercios on-line o webs corporativas, como para nuestro blog personal. Cuando necesitamos localizar información en Internet, vamos a Google. Y quien dice Google, dice Yahoo, MSN, o cualquier otro buscador. Tenemos que estar ahí.

Éstos buscadores usan “bots” o “spiders” para indexar el contenido de nuestras páginas, programas que periódicamente recorren todos los sitios que ya conocen en busca de actualizaciones y nuevos enlaces a través de los cuales descubrir, procesar e indexar más y más páginas

A nadie se le escapa que el trabajo de éstos programas es beneficioso, pero normalmente no tenemos en cuenta que generan tráfico extra a nuestra web. Aunque parezca mentira, conozco sitios en los que el tráfico de GoogleBot y compañía (ojo, hablo del propio bot, no de visitas dirigidas desde el buscador) consumía hasta un tercio del ancho de banda total de los accesos. Estamos hablando de GIGAS de tráfico al día.

Además los buscadores penalizan la información repetida: si tenemos varias páginas con contenido igual o muy similar, o aún peor, si podemos cargar una misma página con varias URLs distintas, podemos llevarnos sorpresas desagradables como páginas que no aparecen en los resultados de una búsqueda en favor de un feed o un resumen (índice de sección, categoría, etc.) con contenido similar, o páginas con un pagerank bajo porque éste se “diluye” entre varias URLs.

Por ello es importante aprender cómo funcionan éstos bots para saber cómo optimizar su paso por nuestro sitio web, cómo “llevarlos de la mano” hasta la información que queremos priorizar para así mejorar nuestro posicionamiento en los resultados, minimizando a su vez cuando sea posible la cantidad de información transmitida para no saturar nuestra conexión y servidores.
Continue reading ‘Cabalgando los gusanos’

Enviar a:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • BarraPunto
  • Meneame
  • Slashdot
  • Technorati
  • YahooMyWeb

Intención de voto según… Google

viz.pngEl otro día hablaba de Google Trends, una herramienta de Google que genera gráficas con la evolución en el tiempo del número de búsquedas de varias palabras en éste buscador, sin duda una buena forma de medir y comparar la popularidad en la red dichos términos.

Así que, en plena recta final de la campaña electoral, me he preguntado ¿y si comparo PP y PSOE? ¿Rajoy y Zapatero? ¿Es ésto una medida fiable de intención de voto, una especie de encuesta anónima a todos los usuarios de la red? ¡Ni de coña! Esto indica sólo el nº de búsquedas, el interés en encontrar información de uno u otro, pero no mide si ese interés es positivo o negativo. Aún así, como mínimo resulta un experimento curioso (y friki):

  • PP vs. PSOE (detalle 2007): van bastante igualados, si bien en el detalle del 2007 el PP parece que ha pegado un bajón en el nº de búsquedas mientras que el PSOE va al alza. Eso si, hay más noticias que referencian al PP que al PSOE. Interesante también, en la parte inferior, el detalle por comunidades, ciudades e idiomas.
  • Rajoy vs. Zapatero (detalle 2007): “goleada” del líder socialista.
  • Aznar vs. Zapatero (detalle 2007): la sombra del ex-presidente es alargada, aquí la competencia está más reñida que con Rajoy.
  • Y ampliando la búsqueda: ¿PP, PSOE, IU, CIU o ERC?

He probado a hacer una búsqueda confrontada de Alperi y Etelvina (candidatos a la alcaldía de Alicante por el PP y el PSOE) pero sale un mensaje de que no hay datos suficientes. Hubiera estado curioso ver qué tal le van las cosas en Internet a nuestro alcalde imputado.

Enviar a:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • BarraPunto
  • Meneame
  • Slashdot
  • Technorati
  • YahooMyWeb



Creative Commons Attribution-NonCommercial 2.5 Spain
Creative Commons Attribution-NonCommercial 2.5 Spain