Publishers

Need unique free news content for your site customized to your audience?

Let's Discuss

By: NewMediaWire
January 9, 2026

Exhumation Des Données Expérimentales Enfouies Dans Les Articles Scientifiques

Les grands modèles de langage accélèrent la construction de bases de données de propriétés des matériaux

TSUKUBA, JAPON - 8 janvier 2026 (NEWMEDIAWIRE) - Les technologies qui sous-tendent la société moderne, telles que les smartphones et les automobiles, reposent sur une gamme diversifiée de matériaux fonctionnels. Les scientifiques des matériaux travaillent donc à développer et améliorer de nouveaux matériaux, mais prédire leurs propriétés n'est pas une tâche simple. La science des données est essentielle pour transformer ce domaine, et de nouveaux outils alimentés par l'intelligence artificielle devraient accélérer l'exploration, la collecte et la gestion des données sur les propriétés des matériaux dans le monde entier.

La relation entre les matériaux fonctionnels et leurs propriétés est complexe. Même de légères différences dans la composition ou les méthodes de synthèse peuvent affecter les états électroniques et les microstructures, entraînant souvent des propriétés totalement différentes. Pour cette raison, les modèles théoriques seuls ne peuvent fournir des prédictions fiables, et l'intuition des chercheurs et ingénieurs, construite sur des années d'expérience, a joué un rôle significatif.

L'apprentissage automatique est une technologie qui peut apprendre des tendances empiriques plutôt que de s'appuyer sur la théorie. En appliquant l'apprentissage automatique aux données expérimentales en science des matériaux, il pourrait être possible de reproduire cette intuition de manière computationnelle. Les grands modèles de langage (LLM), tels que ChatGPT, soutiennent désormais la vie quotidienne de nombreuses personnes et sont capables d'une extraction flexible d'informations prenant en compte les connaissances de base et le contexte. Cela ouvre la possibilité d'automatiser le processus de conversion de sources d'information complexes comme les articles scientifiques en données structurées. Si des ensembles de données à grande échelle de données expérimentales peuvent être construits grâce à cette approche, on s'attend à ce que cela permette aux chercheurs de gagner de l'inspiration grâce à une vue d'ensemble des données, ainsi qu'à réaliser des prédictions de propriétés basées sur des tendances empiriques en utilisant l'apprentissage automatique.

Une équipe dirigée par le Dr Yukari Katsura, chercheuse principale à l'Institut national des sciences des matériaux (NIMS), s'est concentrée sur ce potentiel et a développé deux nouveaux outils pour accélérer la construction de Starrydata, une base de données de propriétés des matériaux construite à partir de données collectées dans des articles scientifiques. Ce travail a récemment été publié dans la revue Science and Technology of Advanced Materials: Methods.

« Les graphiques dans les millions d'articles publiés à ce jour contiennent des données expérimentales précieuses collectées par des chercheurs du passé, et une grande partie reste inexploitée », déclare le Pr Katsura. Dans le projet Starrydata, qu'elle a lancé en 2015, la collecte de données à partir des articles était effectuée manuellement et soutenue par le système web Starrydata2 développé indépendamment, accumulant avec succès un volume sans précédent de données expérimentales. Les nouveaux outils sont conçus pour rationaliser davantage ce processus de collecte de données. « Nous avons constaté qu'en spécifiant une structure de données et en donnant des instructions à un LLM, nous pouvons extraire avec précision et exhaustivité des informations sur les figures, tableaux et échantillons du texte des PDF d'articles dans un large éventail de domaines. »

Le Pr Katsura a ajouté : « De nombreux éditeurs interdisent l'utilisation de l'intelligence artificielle sur les PDF d'articles, nous développons donc actuellement le système pour cibler les articles en libre accès. »

Le premier outil, Starrydata Auto-Suggestion for Sample Information, est une fonction qui lit le texte d'un article et suggère des entrées candidates pour les champs de données préconçus pour chaque domaine des matériaux ; il est déjà intégré au système web Starrydata2. Lorsqu'un utilisateur colle du texte du résumé ou de la section des méthodes expérimentales d'un article, il est envoyé au GPT d'OpenAI via API, et des entrées candidates en anglais sont automatiquement affichées sous chaque champ de saisie.

Le deuxième outil, Starrydata Auto-Summary GPT, déconstruit un PDF d'article en libre accès entier téléchargé par l'utilisateur et résume automatiquement toutes les descriptions des figures, tableaux et échantillons apparaissant dans l'article sous forme de données structurées au format JSON. Les données JSON en sortie sont générées en utilisant la fonction GPT personnalisée de ChatGPT, et les données résultantes peuvent être visualisées sous forme de tableau facile à lire dans un navigateur web. Bien que ces données ne soient actuellement pas incorporées directement dans la base de données Starrydata, elles accélèrent considérablement le travail des collecteurs de données pour localiser rapidement les données cibles et saisir les informations. Notez que la lecture des points de données à partir d'images de graphiques est difficile pour les LLM, donc cette tâche est effectuée par les collecteurs de données à l'aide d'un outil semi-automatisé développé indépendamment.

« Un article est une structure logique assemblée pour transmettre les affirmations de l'auteur, mais en le déconstruisant et en le ramenant à la forme de données expérimentales, d'autres chercheurs peuvent également l'utiliser pour leurs propres recherches », déclare le Dr Katsura. « De cette manière, nous visons un avenir où les données expérimentales de tous les domaines de la science des matériaux peuvent être partagées sous format numérique et visualisées d'un point de vue global. »

À l'heure actuelle, Starrydata n'a progressé que dans la construction de bases de données pour certains domaines de la science des matériaux, tels que les matériaux thermodélectriques qui convertissent la chaleur et l'électricité, et les aimants. Cependant, en tant qu'ensemble de données ouvert pouvant être utilisé pour le développement de nouveaux matériaux, il commence à être utilisé principalement par des chercheurs de premier plan dans le monde entier. L'équipe avance ses recherches dans le but de sensibiliser davantage au potentiel de telles données expérimentales à grande échelle et d'établir la collecte de données d'articles comme une forme reconnue de recherche au sein de la communauté scientifique.

Informations complémentaires
Yukari Katsura
Chercheuse principale, Institut national des sciences des matériaux (NIMS)
KATSURA.Yukari@nims.go.jp
(Yukari Katsura est également professeure associée à l'Université de Tsukuba et chercheuse invitée au RIKEN)

Article : https://doi.org/10.1080/27660400.2025.2590811

À propos de Science and Technology of Advanced Materials: Methods (STAM-M)

STAM Methods est une revue sœur en libre accès de Science and Technology of Advanced Materials (STAM), et se concentre sur les méthodes et outils émergents pour améliorer et/ou accélérer le développement des matériaux, tels que la méthodologie, l'appareillage, l'instrumentation, la modélisation, la collecte de données à haut débit, l'informatique des matériaux/processus, les bases de données et la programmation. https://www.tandfonline.com/STAM-M

Dr Kazuya Saito
Directeur de publication de STAM Methods
SAITO.Kazuya@nims.go.jp

Avertissement : Cette traduction a été générée automatiquement par NewsRamp™ pour NewMediaWire (collectivement désignés sous le nom de "LES ENTREPRISES") en utilisant des plateformes d'intelligence artificielle génératives accessibles au public. LES ENTREPRISES ne garantissent pas l'exactitude ni l'intégralité de cette traduction et ne seront pas responsables des erreurs, omissions ou inexactitudes. Vous vous fiez à cette traduction à vos propres risques. LES ENTREPRISES ne sont pas responsables des dommages ou pertes résultant de cette confiance. La version officielle et faisant autorité de ce communiqué de presse est la version anglaise.

Blockchain Registration, Verification & Enhancement provided by NewsRamp™

{site_meta && site_meta.display_name} Logo

NewMediaWire

NewMediaWire distributes press releases on behalf of hundreds of publicly traded companies, as well as private corporations, non-profits and other public sector organizations. Founded and staffed by industry veterans, we offer a full complement of services including specialized delivery to financial sites and posting of photos and multimedia content. In addition, NewMediawire offers international and specialized services such as IR websites and industry specific distribution.