By: NewMediaWire
January 9, 2026
Desenterrando Datos Experimentales Enterrados en Artículos Científicos
Los Modelos de Lenguaje a Gran Escala Aceleran la Construcción de Bases de Datos de Propiedades de Materiales
TSUKUBA, JAPÓN - 8 de enero de 2026 (NEWMEDIAWIRE) - Las tecnologías que sustentan la sociedad moderna, como los teléfonos inteligentes y los automóviles, dependen de una amplia gama de materiales funcionales. Por lo tanto, los científicos de materiales trabajan para desarrollar y mejorar nuevos materiales, pero predecir las propiedades de los materiales no es una tarea sencilla. La ciencia de datos es clave para transformar este campo, y se espera que las nuevas herramientas impulsadas por la inteligencia artificial aceleren la exploración, recopilación y gestión de datos de propiedades de materiales en todo el mundo.
La relación entre los materiales funcionales y sus propiedades es compleja. Incluso ligeras diferencias en la composición o los métodos de síntesis pueden afectar los estados electrónicos y las microestructuras, lo que a menudo resulta en propiedades completamente diferentes. Por esta razón, los modelos teóricos por sí solos no pueden proporcionar predicciones confiables, y la intuición de investigadores e ingenieros, construida a lo largo de años de experiencia, ha desempeñado un papel significativo.
El aprendizaje automático es una tecnología que puede aprender tendencias empíricas en lugar de depender de la teoría. Al aplicar el aprendizaje automático a los datos experimentales en ciencia de materiales, puede ser posible replicar computacionalmente dicha intuición. Los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), como ChatGPT, ahora respaldan la vida diaria de muchas personas y son capaces de una extracción de información flexible que tiene en cuenta el conocimiento de fondo y el contexto. Esto abre la posibilidad de automatizar el proceso de convertir fuentes de información complejas, como artículos científicos, en datos estructurados. Si se pueden construir conjuntos de datos a gran escala de datos experimentales a través de este enfoque, se espera que permita a los investigadores obtener inspiración mediante una visión panorámica de los datos, así como realizar predicciones de propiedades basadas en tendencias empíricas utilizando aprendizaje automático.
Un equipo dirigido por la Dra. Yukari Katsura, investigadora principal en el Instituto Nacional de Ciencia de Materiales (NIMS), se ha centrado en este potencial y ha desarrollado dos nuevas herramientas para acelerar la construcción de Starrydata, una base de datos de propiedades de materiales construida a partir de datos recopilados de artículos científicos. Este trabajo fue publicado recientemente en la revista Science and Technology of Advanced Materials: Methods.
"Los gráficos en los millones de artículos publicados hasta la fecha contienen valiosos datos experimentales recopilados por investigadores del pasado, y gran parte de ellos permanece sin explotar", dice la Prof. Katsura. En el proyecto Starrydata, que lanzó en 2015, la recopilación de datos de los artículos se realizó manualmente y fue respaldada por el sistema web Starrydata2 desarrollado de forma independiente, logrando acumular un volumen sin precedentes de datos experimentales. Las nuevas herramientas están diseñadas para agilizar aún más este proceso de recopilación de datos. "Descubrimos que, al especificar una estructura de datos y dar instrucciones a un LLM, podemos extraer de manera precisa y exhaustiva información sobre figuras, tablas y muestras del texto de los PDFs de artículos en una amplia gama de campos".
La Prof. Katsura añadió: "Muchos editores prohíben el uso de inteligencia artificial en los PDFs de los artículos, por lo que actualmente estamos desarrollando el sistema para dirigirse a artículos de acceso abierto".
La primera herramienta, Starrydata Auto-Suggestion for Sample Information, es una función que lee el texto de un artículo y sugiere entradas candidatas para campos de datos prediseñados para cada dominio de materiales; ya está integrada en el sistema web Starrydata2. Cuando un usuario pega texto del resumen o la sección de métodos experimentales de un artículo, se envía al GPT de OpenAI a través de una API, y las entradas candidatas en inglés se muestran automáticamente debajo de cada campo de entrada.
La segunda herramienta, Starrydata Auto-Summary GPT, descompone un PDF completo de un artículo de acceso abierto cargado por el usuario y resume automáticamente todas las descripciones de figuras, tablas y muestras que aparecen en el artículo como datos estructurados en formato JSON. Los datos de salida JSON se generan utilizando la función GPT personalizada de ChatGPT, y los datos resultantes se pueden ver como una tabla fácil de leer en un navegador web. Aunque estos datos actualmente no se incorporan directamente a la base de datos Starrydata, aceleran drásticamente el trabajo de los recolectores de datos para localizar rápidamente los datos objetivo e ingresar información. Tenga en cuenta que leer puntos de datos de imágenes de gráficos es difícil para los LLM, por lo que esta tarea la realizan los recolectores de datos utilizando una herramienta semiautomatizada desarrollada de forma independiente.
"Un artículo es una estructura lógica ensamblada para transmitir las afirmaciones del autor, pero al descomponerlo y devolverlo a la forma de datos experimentales, otros investigadores también pueden usarlo para su propia investigación", dice la Dra. Katsura. "De esta manera, aspiramos a un futuro donde los datos experimentales de todos los campos de la ciencia de materiales puedan compartirse en formato digital y verse desde una perspectiva panorámica".
En la actualidad, Starrydata solo ha avanzado en la construcción de bases de datos para ciertos campos de la ciencia de materiales, como los materiales termoeléctricos que convierten calor y electricidad, y los imanes. Sin embargo, como un conjunto de datos abierto que puede usarse para el desarrollo de nuevos materiales, está comenzando a ser utilizado principalmente por investigadores líderes en todo el mundo. El equipo está avanzando en su investigación con el objetivo de aumentar la conciencia más amplia sobre el potencial de tales datos experimentales a gran escala y establecer la recopilación de datos de artículos como una forma reconocida de investigación dentro de la comunidad científica.
Más información
Yukari Katsura
Investigadora Principal, Instituto Nacional de Ciencia de Materiales (NIMS)
KATSURA.Yukari@nims.go.jp
(Yukari Katsura también es profesora asociada en la Universidad de Tsukuba e investigadora invitada en RIKEN)
Artículo: https://doi.org/10.1080/27660400.2025.2590811
Acerca de Science and Technology of Advanced Materials: Methods (STAM-M)
STAM Methods es una revista hermana de acceso abierto de Science and Technology of Advanced Materials (STAM), y se centra en métodos y herramientas emergentes para mejorar y/o acelerar el desarrollo de materiales, como metodología, aparatos, instrumentación, modelado, recopilación de datos de alto rendimiento, informática de materiales/procesos, bases de datos y programación. https://www.tandfonline.com/STAM-M
Dr. Kazuya Saito
Director de Publicaciones de STAM Methods
SAITO.Kazuya@nims.go.jp
Descargo de responsabilidad: Esta traducción ha sido generada automáticamente por NewsRamp™ para NewMediaWire (colectivamente referidos como "LAS EMPRESAS") utilizando plataformas de inteligencia artificial generativas de acceso público. LAS EMPRESAS no garantizan la exactitud ni la integridad de esta traducción y no serán responsables por ningún error, omisión o inexactitud. La confianza en esta traducción es bajo su propio riesgo. LAS EMPRESAS no son responsables por ningún daño o pérdida resultante de tal confianza. La versión oficial y autoritativa de este comunicado de prensa es la versión en inglés.
