Indexar y buscar ficheros PDF en SharePoint

Por defecto, en las búsquedas de SharePoint se indexa ‘casi’ todo el contenido de los sitios que tengamos, ya sea la información de las propias listas, los documentos de Word que tengamos en las librerías de documentos, etc… pero existen muchos más tipos de ficheros que por defecto el motor de indexación de SharePoint no es capaz abrirlos e indexar su contenido, y necesitamos poner en el servidor una aplicación para que lo haga. Esta aplicación es la que denominamos IFilter, y es la encargada de abrir e indexar estos ficheros.

En este post vamos a explicar como indexar el contenido de los ficheros PDF utilizando el IFilter que nos proporciona Adobe tanto en la versión de WSS como de MOSS, pero no hay que olvidar que existen otros tipos de ficheros, como son los ficheros de OneNote, ficheros de autocad, .zip, mp3, imágenes, etc… que para poder indexarles tendremos que instalarnos su propio IFilter.

Configuración de Windows SharePoint Services 3.0

Vamos a empezar a ver los pasos necesarios para que WSS sea capaz de indexar este contenido. Para ello debemos seguir los siguiente pasos:

1. Nos tenemos que descargar el IFilter para ficheros PDF desde la página de Adobe, utilizando este link e instalarlo en el servidor donde tengamos corriendo el servicio de búsqueda

2. Ejecutamos el comando regedit.exe y buscamos en el registro la siguiente línea que nos dice cuantas extensiones de búsqueda tenemos instaladas en el servidor:

HKEY_LOCAL_MACHINESOFTWAREMicrosoftShared ToolsWeb Server Extensions12.0SearchApplications 961ddf2b-49a8-4a2f-ac9f-a5a14a0096f8Gather Search Extensions ExtensionList

3. Observamos cual es la ultima extensiones y si por ejemplo existen 37, añadimos la siguiente, 38, con el valor ‘pdf’.

4. Reiniciamos el IIS ejecutando el comando iisreset y forzamos a que el servidor realice una indexación completa de todo el contenido de nuestro sitio ejecutando los siguientes comandos:

  • net stop spsearch
  • net start spsearch
  • stsadm -o spsearch -action fullcrawlstop
  • stsadm -o spsearch -action fullcrawlstop

5. Una vez que ya tenemos indexado el contenido, vamos a asignar a los ficheros PDF su icono, para que cuando aparezcan en los resultados de las búsquedas les sepamos distinguir rápidamente:

  • Nos descargamos el icono del fichero de los PDF desde este link y lo copiamos en “C:Program FilesCommon FilesMicrosoft SharedWeb Server Extensions12TemplateImages”
  • Después modificamos el fichero ‘docicon.xml’ que está en: ‘C:Program FilesCommon FilesMicrosoft SharedWeb server extensions12TemplateXml’ y añadimos la siguiente referencia:
    • <Mapping Key=”pdf” Value=”icpdf.gif”/>

Configuración de Microsoft Office SharePoint Server 2007

Los pasos para configurar el Ifilter de PDF en MOSS vamos a ver que son muy parecidos a los de WSS.

1. Nos decargamos e instalamos el IFilter de Adobe en el servidor donde tengamos el servicio de búsqueda. (link)
Agregamos el tipo de archivo ‘pdf’ en los tipos de archivos del servicio de búsqueda realizando los siguientes pasos:

  • Abrimos la administración central de SharePoint y accedemos a la administración de los servicios compartidos
  • Debajo del menú ‘Buscar’, pulsamos sobre la opción ‘Configuración de búsqueda’ y aquí hacemos clic sobre ‘Tipos de archivos’
  • Añadimos la extensión de los ficheros PDF, ‘pdf’

2. Reiniciamos el servidor y forzamos desde la administración de los servicios compartidos a que se realice una indexacion completa de todo el contenido, para que ya aparezcan esta información de los ficheros PDF en los resultados de las búsquedas

3. Tan solo nos queda ahora asignar el icono correspondiente a estos ficheros pdf realizando los mismos pasos en que el apartado anterior.

Una vez acabado todos estos pasos, si realizamos una búsqueda vemos que ya nos aparecen los ficheros pdf en el resultado de las búsquedas, con su correspondiente icono.

clip_image003

Nota: Esta versión de IFilter para ficheros PDF esta disponible tanto para la version de 32 bits como para 64 bits.

2 comentarios en “Indexar y buscar ficheros PDF en SharePoint”

  1. Excelente blog, lo estaba buscado. Sinembargo, queria preguntar algo adicional, ya que no me ha funcionado esta practica. El IFILTER lo instaldo en el servidor que tiene instalado El WSS o en el servidor que contiene las bases de datos SQLSERVER 2008?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *