Telecomunicaciones, Internet, Media, Entretenimiento
suscríbete

OJO
6 de Febrero de 2008

reutersLa agencia de noticias Reuters ha lanzado una API llamada Open Calais que realiza marcas semánticas en documentos HTML no estructurados, reconociendo personas, lugares, empresas y acontecimientos.

La tecnología proviene de Clear Forest, compañía que Reuters adquirió el año pasado. La idea de la API es simple: identificar bits interesantes en los metadatos de los documentos. Aunque dicha tecnología se basa en personas, lugares, empresas y acontecimientos también podría aplicarse a otros temas. El trabajo se realiza mediante un motor que procesa el lenguaje natural y una potente codificación.

En cualquier documento que se introduzca en Calais, las identidades serán identificadas, extraídas y anotadas. Dependiendo del tamaño de los documentos, los resultados están disponibles en un segundo para los más grandes e incluso en menos para los más pequeños. Aún no está muy claro que documentos HTML podrá reconocer, ya que necesita que la cabecera y los pies del documento se marcan de manera diferente que el texto en sí.

Por el momento, la aplicación es gratuita y su uso no comercial y Reuters ha expresado que se prepara para una demanda masiva. Esta tecnología podría aplicarse para mejorar las búsquedas, para construir motores que inserten automáticamente enlaces de texto en crudo, para construir alertas estructuradas o para incorporar análisis de textos en los buscadores.

Tags: , , , , ,

Rellena el formulario para poder comentar...

XHTML permitido:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>