Indexando ficheros PDF en Microsoft Office SharePoint Server 2007 y WSS 3.0

Buenas.

 Ya cuando trabajábamos con SharePoint 2003, una de las cosas que teníamos siempre que hacer era conseguir que el sistema fuera capaz de abrir los ficheros PDF e indexara los contenidos para que fueran alcanzables por medio de las búsquedas.

Adobe to Acquire BuzzwordPor desgracia en esta nueva versión seguimos teniendo el mismo problema, pues bién dado que acabo de hacer esta configuración me parece buena idea dejarla aqui.

Primero y antes de nada debemos identificar los servidores que tenemos y que rol desempeñan dentro de la topología de nuestro sistema SharePoint.

Por un lado tenemos el servidor de Indexación ( encargado de leer, almacenar e indexar para un rápido acceso la información contenida en el sistema ) y por otro lado tenemos el/los servidores Frontales o Web que se encargan de mostrar la información del sistema.

Y ¿Por qué esta distinción? por que cada uno tiene una tarea que realizar y por lo tanto una configuración independiente para conseguir el objetivo.

Por otro lado, y por liar un poco más el tema, también tenemos 2 productos SharePoint con los que nos podemos encontrar Windows SharePoint Services 3.0 y Microsoft Office SharePoint Server 2007.

Bien, vamos a empezar con lo sencillo primero que tiempo para liarnos siempre tendremos. Vamos a empezar con una configuración para WSS 3.0 en un entorno de 2 servidores, el primero para indexación y el segundo para FrontEnd.

Vamos a ir viendo los pasos para instalar en el servidor de indexación:

  1. Instalamos el IFilter en el servidor. (Web para descargar)
  2. Vamos a agregar el tipo ‘.pdf’ en la lista del servidor. Para ello debemos seguir los siguientes pasos:
    1. Iniciamos la consola del registro ( regedit )
    2. Nos movemos a la siguiente clave del registro: HKEY_LOCAL_MACHINESOFTWAREMicrosoftShared ToolsWeb Server Extensions12.0SearchApplications <GUID> Gather Search Extensions ExtensionList  ( Donde <GUID> será el identificador de idioma de nuestro servidor)
    3. Agregamos una nueva clave de tipo ‘String’ con el nombre ‘38‘ y el valor ‘pdf
    4. Reiniciamos el servidor web ( iisreset )
  3. Lo siguiente que tenemos que hacer es decirle al servidor que debe realizar una reindexación completa de los contenidos. Para ello debemos seguir los siguientes pasos:
    1. En el servidor de indexación abrimos una consola de MS-DOS y ejecutamos los siguentes comandos:
      1. net stop spsearch: Para detener el servicio de indexación de SharePoint.
      2. net start spsearch: Para iniciar el servicio de indexación.
      3. stsadm -o spsearch -action fullcrawlstop: para detener el crawler de información.
      4. stsadm -o spsearch -action fullcrawlstop: para inicial el sistema de crawling del servidor.

Ahora vamos a ver los pasos para instalar todo en el servidor de FrontEnd:

  1. Lo primero copiamos el icono () con el nombre ICPDF.GIF en la ruta “C:Program FilesCommon FilesMicrosoft SharedWeb Server Extensions12TemplateImages”
  2. Editamos el fichero ‘docicon.xml’ que está en la ruta: ‘C:Program FilesCommon FilesMicrosoft SharedWeb server extensions12TemplateXml’ y agregamos la siguiente linea:

<Mapping Key=”pdf” Value=”icpdf.gif”/>

Y ya está!! Ya tenemos el sistema configurado.

Vamos ahora a hacer lo mismo con Microsoft Office SharePoint Server 2007. Veréis que los pasos son más o menos iguales solo que en este caso vamos a hacer uso de los menús de configuración del propio SharePoint.

  1. Instalamos el IFilter en el servidor. (Web para descargar)
  2. Vamos a agregar el tipo ‘.pdf’ en la lista del servidor. Para ello debemos seguir los siguientes pasos:
    1. Vamos a la Administración Central, y en la configuración de los Servicios Compartidos seleccionamos el servicio compartido que estemos utilizando.
    2. Dentro de la configuración de búsquedas agregamos un nuevo tipo de fichero ‘pdf’
    3. Reiniciamos el servidor web ( iisreset )
  3. Lo siguiente que tenemos que hacer es decirle al servidor que debe realizar una reindexación completa de los contenidos. Para ello debemos seguir los siguientes pasos:
    1. En el servidor de indexación abrimos una consola de MS-DOS y ejecutamos los siguentes comandos:
      1. net stop osearch: Para detener el servicio de indexación de SharePoint.
      2. net start osearch: Para iniciar el servicio de indexación.
      3. Dentro de la Administración central, una vez estamos en la web de configuración del servicio compartido vamos a la sección de Configuración de Búsquedas.
      4. Iniciamos un crawl completo del servidor.

Ahora vamos a ver los pasos para instalar todo en el servidor de FrontEnd:

  1. Lo primero copiamos el icono () con el nombre ICPDF.GIF en la ruta “C:Program FilesCommon FilesMicrosoft SharedWeb Server Extensions12TemplateImages”
  2. Editamos el fichero ‘docicon.xml’ que está en la ruta: ‘C:Program FilesCommon FilesMicrosoft SharedWeb server extensions12TemplateXml’ y agregamos la siguiente linea:

<Mapping Key=”pdf” Value=”icpdf.gif”/>

Pues ya lo tenemos.

Espero que os sirva de ayuda.

Un Saludo!!

6 comentarios en “Indexando ficheros PDF en Microsoft Office SharePoint Server 2007 y WSS 3.0”

  1. Hola David, como siempre un contendió de muy alta calidad!!!:-)
    Solo una pregunta:
    ¿En que punto defines el rol de servidor de Index en la granja WSS?

  2. Jorge amigo, como vas?

    Los roles de los servidores que forman parte de una topología de SharePoint se diferencian entre si por los servicios que tienes ‘corriendo’ en cada uno de ellos.

    Es decir, aquel servidor que compartiendo SSP tenga el servicio de Index activo será el indexador para esa topología, ten en cuenta que si haces una instalación AllInOne, en realidad tienes 1 servidor que hace las veces de todos los roles de la granja y eso se puede modificar agregando más servidores a la granja y especializándolos por ejemplo en la indexación de los contenidos, por lo que solo tendrán el servicio de indexación activo y el resto de los servidores harán uso de este para obtener los índices de contenido.

    Un Saludo

  3. Hola

    Muchas gracias por este ariculo, llevaba mucho tiempo buscandolo. Creo que hay un pequeño fallo en el paso 3.4 de Sharepoint Services donde pone:

    stsadm -o spsearch -action fullcrawlstop: para inicial el sistema de crawling del servidor.

    Para 2 veces el sistema en vez de reiniciarlo.

    Yo he seguido todos los pasos pero no he conseguido que indexe el contenido de los PDF. ¿Es posible que el motivo puede ser que tengo instalado Sharepoint Services 3 en un servidor con Windows Server 2003 R2 de 64 bits y el IFilter es de 32 bits?.¿Ha salido alguna versión de IFilter para 64bits?

    Un saludo

  4. Rubén.

    Muchas gracias por el enlace, es un honor saber que gente de tu nivel lee mi blog.

    Lo descargaré para hacer unas pruebas de rendimiento a ver que tal va.

    De nuevo muchas gracias

    Un Saludo

  5. Hola Todos
    Yo ya segui todos los pasos y no funciona la indexacion.
    Cuando ejecuto el comando
    stsadm -o spsearch -action fullcrawlstop
    Dice que no es un comando reconocido.
    Alguien saber que debo hacer.
    Gracias

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *