Ressi

  • n°21 décembre 2020
  • Demander un nouveau mot de passe

Publiée une fois par année, la Revue électronique suisse de science de l'information (RESSI) a pour but principal le développement scientifique de cette discipline en Suisse.

Accueil › Biblio

Présentation de la revue

  • Objectifs
  • Instructions aux auteurs
  • Organisation de la revue

Contenu du site

  • Biblio

Se connecter

  • Demander un nouveau mot de passe

De la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimie

Ressi — 7 décembre 2010

TitreDe la recherche d’informations hautement spécialisées : le cas de la recherche d’informations dans les brevets de chimie
Publication TypeWeb Article
Year of Publication2010
AuthorsRuch, P
Series TitleRessi
Issue11
PublisherRessi
CityGenève
Publication LanguageFR
Keywordsmodèles de recherche d’information bibliothèque numérique propriété intellectuelle chimie indexation models of information retrieval digital library IP chemistry indexing
Abstract

Résumé

Nous décrivons le développement d’un moteur de recherche avancé pour la recherche d’informations dans les bibliothèques de brevets de chimie. Nous utilisons la campagne internationale d’évaluation TREC (Text Retrieval Conferences) pour évaluer une stratégie de recherche combinant : un modèle de recherche vectoriel standard, les réseaux de co-citations reliant les brevets, et une stratégie de normalisation (synonymes ramenés à un identifiant unique) des entités nommées chimiques basée sur le traitement automatique de la langue. Un moteur vectoriel basique obtient une précision moyenne de 0.067. On observe qu’un gain de précision important est apporté par l’usage des réseaux de citations (+168%), tandis que d’autres contenus, tels les codes IPC, semblent n’apporter aucun gain. Conclusion : Les performances de notre moteur (précision moyenne proche de 20%), développé en quelques semaines seulement, le placent en tête des évaluations officielles TREC ; ce qui suggère que la valeur d’une collection porte davantage sur son contenu que sur les instruments de recherche, désormais à la portée de n’importe quelle équipe de développeurs en science de l’information.

Abstract

We describe the development of an advanced retrieval engine to search information in libraries of chemical patents. We use the international TREC (Text Retrieval Conferences) evaluation framework to develop and assess an original search strategy combining a standard vector-space model, a network of co-citations between patents, and a strategy of standardization/expansion of chemical named-entities based on natural language processing. Our basic engine obtains an average accuracy of 0.067. The most significant precision gain is provided by the use of co-citations (+168%), while other contents, in particular ICP codes, do not improve retrieval effectiveness of the engine. The official TREC performance of our engine (ranked #1, with a mean average precision approaching 20%) emphasize the role of document contents as opposed to technological expertise in document retrieval.

URLhttp://www.ressi.ch/num11/article_065
Citation Key230

La revue Ressi

  • N° Spécial DLCM
  • N°21 décembre 2020
  • N°20 décembre 2019
  • N°Spécial 100ans ID
  • N°19 décembre 2018
  • N°18 décembre 2017
  • N°17 décembre 2016
  • N°16 décembre 2015
  • N°15 décembre 2014
  • N°14 décembre 2013
  • N°13 décembre 2012
  • N°12 décembre 2011
  • N°11 décembre 2010
  • N°10 décembre 2009
  • N°9 juillet 2009
  • N°8 décembre 2008
  • N°7 mai 2008
  • N°6 octobre 2007
  • N°5 mars 2007
  • N°4 octobre 2006
  • N°3 mars 2006
  • N°2 juillet 2005
  • N°1 janvier 2005

Recherche

  • n°21 décembre 2020

©2013 Ressi - ISSN 1661-1802