By: NewMediaWire
January 9, 2026
Experimentelle Daten in Wissenschaftlichen Arbeiten Freilegen
Große Sprachmodelle beschleunigen den Aufbau von Materialeigenschaftsdatenbanken
TSUKUBA, JAPAN - 8. Januar 2026 (NEWMEDIAWIRE) - Technologien, die der modernen Gesellschaft zugrunde liegen, wie Smartphones und Automobile, sind auf eine Vielzahl funktionaler Materialien angewiesen. Materialwissenschaftler arbeiten daher daran, neue Materialien zu entwickeln und zu verbessern, doch die Vorhersage von Materialeigenschaften ist keine einfache Aufgabe. Die Datenwissenschaft ist der Schlüssel zur Transformation dieses Feldes, und neue, von künstlicher Intelligenz angetriebene Werkzeuge sollen die Erforschung, Sammlung und Verwaltung von Materialeigenschaftsdaten weltweit beschleunigen.
Die Beziehung zwischen funktionalen Materialien und ihren Eigenschaften ist komplex. Selbst geringfügige Unterschiede in der Zusammensetzung oder den Synthesemethoden können elektronische Zustände und Mikrostrukturen beeinflussen, was oft zu völlig anderen Eigenschaften führt. Aus diesem Grund können theoretische Modelle allein keine zuverlässigen Vorhersagen liefern, und die auf jahrelanger Erfahrung basierende Intuition von Forschern und Ingenieuren hat eine bedeutende Rolle gespielt.
Maschinelles Lernen ist eine Technologie, die empirische Trends lernen kann, anstatt sich auf Theorie zu verlassen. Durch die Anwendung von maschinellem Lernen auf experimentelle Daten in der Materialwissenschaft könnte es möglich sein, eine solche Intuition rechnerisch nachzubilden. Große Sprachmodelle (LLMs) wie ChatGPT unterstützen mittlerweile den Alltag vieler Menschen und sind zu flexibler Informationsextraktion in der Lage, die Hintergrundwissen und Kontext berücksichtigt. Dies eröffnet die Möglichkeit, den Prozess der Umwandlung komplexer Informationsquellen wie wissenschaftlicher Artikel in strukturierte Daten zu automatisieren. Wenn auf diese Weise groß angelegte Datensätze experimenteller Daten aufgebaut werden können, wird erwartet, dass Forscher dadurch Inspiration durch einen Überblick über die Daten gewinnen können, sowie Eigenschaftsvorhersagen basierend auf empirischen Trends mittels maschinellem Lernen realisieren können.
Ein Team unter der Leitung von Dr. Yukari Katsura, einer leitenden Forscherin am National Institute for Materials Science (NIMS), hat sich auf dieses Potenzial konzentriert und zwei neue Werkzeuge entwickelt, um den Aufbau von Starrydata, einer Materialeigenschaftsdatenbank aus Daten aus wissenschaftlichen Artikeln, zu beschleunigen. Diese Arbeit wurde kürzlich in der Zeitschrift Science and Technology of Advanced Materials: Methods veröffentlicht.
"Graphen in den Millionen bisher veröffentlichter Artikel enthalten wertvolle experimentelle Daten, die von früheren Forschern gesammelt wurden, und vieles davon bleibt ungenutzt", sagt Prof. Katsura. Im Starrydata-Projekt, das sie 2015 startete, wurde die Datensammlung aus Artikeln manuell durchgeführt und durch das eigenentwickelte Starrydata2-Websystem unterstützt, wodurch ein beispielloses Volumen an experimentellen Daten erfolgreich zusammengetragen wurde. Die neuen Werkzeuge sollen diesen Datensammlungsprozess weiter optimieren. "Wir fanden heraus, dass wir durch die Spezifikation einer Datenstruktur und die Erteilung von Anweisungen an ein LLM Informationen über Abbildungen, Tabellen und Proben aus dem Text von Artikel-PDFs über ein breites Spektrum von Fachgebieten hinweg genau und umfassend extrahieren können."
Prof. Katsura fügte hinzu: "Viele Verlage verbieten die Verwendung künstlicher Intelligenz auf Artikel-PDFs, daher entwickeln wir das System derzeit für Open-Access-Artikel."
Das erste Werkzeug, Starrydata Auto-Suggestion for Sample Information, ist eine Funktion, die den Text eines Artikels liest und Kandidateneinträge für Datenfelder vorschlägt, die für jedes Materialgebiet vordefiniert sind; es ist bereits in das Starrydata2-Websystem integriert. Wenn ein Benutzer Text aus dem Abstract oder dem Methodenteil eines Artikels einfügt, wird dieser über eine API an OpenAIs GPT gesendet, und Kandidateneinträge auf Englisch werden automatisch unter jedem Eingabefeld angezeigt.
Das zweite Werkzeug, Starrydata Auto-Summary GPT, zerlegt eine gesamte vom Benutzer hochgeladene Open-Access-Artikel-PDF und fasst automatisch alle Beschreibungen von Abbildungen, Tabellen und Proben, die im Artikel erscheinen, als strukturierte Daten im JSON-Format zusammen. Die JSON-Datenausgabe wird mithilfe der Custom-GPT-Funktion von ChatGPT generiert, und die resultierenden Daten können in einem Webbrowser als leicht lesbare Tabelle angezeigt werden. Obwohl diese Daten derzeit nicht direkt in die Starrydata-Datenbank integriert werden, beschleunigen sie die Arbeit der Datensammler erheblich, indem sie das schnelle Auffinden von Zieldaten und die Eingabe von Informationen ermöglichen. Es ist zu beachten, dass das Auslesen von Datenpunkten aus Grafikbildern für LLMs schwierig ist, daher wird diese Aufgabe von Datensammlern mithilfe eines eigenentwickelten halbautomatischen Werkzeugs durchgeführt.
"Ein Artikel ist eine logische Struktur, die zusammengesetzt ist, um die Aussagen des Autors zu vermitteln, aber durch seine Zerlegung und Rückführung in die Form experimenteller Daten können auch andere Forscher ihn für ihre eigene Forschung nutzen", sagt Dr. Katsura. "Auf diese Weise streben wir eine Zukunft an, in der experimentelle Daten aus allen Materialwissenschaftsfeldern digital geteilt und aus einer Überblicksperspektive betrachtet werden können."
Derzeit hat Starrydata nur Fortschritte beim Aufbau von Datenbanken für bestimmte Materialwissenschaftsfelder gemacht, wie etwa thermoelektrische Materialien, die Wärme und Elektrizität umwandeln, und Magnete. Als offener Datensatz, der für die Entwicklung neuer Materialien genutzt werden kann, wird er jedoch bereits hauptsächlich von führenden Forschern weltweit genutzt. Das Team treibt seine Forschung mit dem Ziel voran, das Bewusstsein für das Potenzial solcher groß angelegten experimentellen Daten zu schärfen und die Datensammlung aus Artikeln als anerkannte Forschungsform in der wissenschaftlichen Gemeinschaft zu etablieren.
Weitere Informationen
Yukari Katsura
Leitende Forscherin, National Institute for Materials Science (NIMS)
KATSURA.Yukari@nims.go.jp
(Yukari Katsura ist außerdem außerordentliche Professorin an der Universität Tsukuba und Gastforscherin am RIKEN)
Artikel: https://doi.org/10.1080/27660400.2025.2590811
Über Science and Technology of Advanced Materials: Methods (STAM-M)
STAM Methods ist eine Open-Access-Schwesterzeitschrift von Science and Technology of Advanced Materials (STAM) und konzentriert sich auf neuartige Methoden und Werkzeuge zur Verbesserung und/oder Beschleunigung der Materialentwicklung, wie Methodik, Apparate, Instrumentierung, Modellierung, Hochdurchsatz-Datenerfassung, Material-/Prozessinformatik, Datenbanken und Programmierung. https://www.tandfonline.com/STAM-M
Dr. Kazuya Saito
STAM Methods Publishing Director
SAITO.Kazuya@nims.go.jp
Haftungsausschluss: Diese Übersetzung wurde automatisch von NewsRamp™ für NewMediaWire (gemeinsam als "DIE UNTERNEHMEN" bezeichnet) mit öffentlich zugänglichen generativen KI-Plattformen erstellt. DIE UNTERNEHMEN garantieren nicht die Genauigkeit oder Vollständigkeit dieser Übersetzung und haften nicht für Fehler, Auslassungen oder Ungenauigkeiten. Die Nutzung dieser Übersetzung erfolgt auf eigenes Risiko. DIE UNTERNEHMEN haften nicht für Schäden oder Verluste, die aus solcher Nutzung entstehen. Die offizielle und maßgebliche Version dieser Pressemitteilung ist die englische Version.
