menéame, novedades, pruebas, software

«Stemmer» en castellano del buscador

Queda un problema con el buscador: que también busque por palabras raíces, y derivadas del lexema original. Con eso se mejora la búsqueda porque también busca las palabras en plural/singular, masculino/femenino, en diferentes tiempos verbales, gerundio, etc.

Para realizar ese proceso se reducen las palabras a sus lexemas básicos, el proceso se denomina stemming. El Sphinx sólo trae stemmers en inglés y ruso, afortunadamente Jose Manuel Peso desarrolló un stemmer castellano para el Sphinx. El problema es que ya no funcionaba con la última versión del Sphinx, por lo que le hice unas pocas modificaciones (parche) y ya lo tenemos en marcha.

Espero que mejore aún más la calidad de los resultados. Si no es así seguro que nos enteraremos rápido 😉