Winzige Chips, große Kopfschmerzen

Stellen Sie sich für einen Moment vor, dass die Millionen von Computerchips in den Servern, die die größten Rechenzentren der Welt mit Strom versorgen, seltene, fast nicht erkennbare Fehler aufweisen. Und die einzige Möglichkeit, die Fehler zu finden, bestand darin, diese Chips auf riesige Computerprobleme zu werfen, die noch vor einem Jahrzehnt undenkbar gewesen wären.

Da die winzigen Schalter in Computerchips auf die Breite von wenigen Atomen geschrumpft sind, ist die Zuverlässigkeit von Chips zu einer weiteren Sorge für die Menschen geworden, die die größten Netzwerke der Welt betreiben. Unternehmen wie Amazon, Facebook, Twitter und viele andere Websites haben im letzten Jahr überraschende Ausfälle erlebt.

Die Ausfälle haben mehrere Ursachen, wie Programmierfehler und Überlastung der Netzwerke. Aber es wächst die Befürchtung, dass Cloud-Computing-Netzwerke, die größer und komplexer geworden sind, immer noch auf der grundlegendsten Ebene von Computerchips abhängig sind, die jetzt weniger zuverlässig und in einigen Fällen weniger vorhersehbar sind.

Im vergangenen Jahr haben Forscher sowohl von Facebook als auch von Google Studien veröffentlicht, die Computerhardwareausfälle beschreiben, deren Ursachen nicht einfach zu identifizieren waren. Das Problem, so argumentierten sie, liege nicht in der Software, sondern irgendwo in der Computerhardware, die von verschiedenen Firmen hergestellt werde. Google lehnte es ab, seine Studie zu kommentieren, während Facebook, jetzt bekannt als Meta, keine Anfragen nach Kommentaren zu seiner Studie beantwortete.

„Sie sehen diese stillen Fehler, die im Wesentlichen von der zugrunde liegenden Hardware stammen“, sagte Subhasish Mitra, ein Elektroingenieur der Stanford University, der sich auf das Testen von Computerhardware spezialisiert hat. Laut Dr. Mitra glauben die Menschen zunehmend, dass Herstellungsfehler mit diesen sogenannten stillen Fehlern zusammenhängen, die nicht leicht zu erkennen sind.

See also  MIND TECHNOLOGY GIBT DAS VERLASSEN VON VORSTANDSMITGLIED ROBERT J. ALBERS BEKANNT

Bild

Facebook’s data center in Prineville, Ore. Large data centers have experienced outages that may be partly the result of chip errors.

Kredit… Leah Nash für die New York Times

Forscher befürchten, dass sie seltene Fehler finden, weil sie versuchen, immer größere Computerprobleme zu lösen, was ihre Systeme auf unerwartete Weise belastet.

Unternehmen, die große Rechenzentren betreiben, begannen vor mehr als einem Jahrzehnt, systematische Probleme zu melden. Im Jahr 2015 berichtete eine Gruppe von Informatikern, die an der University of Toronto die Zuverlässigkeit von Hardware studieren , in der technischen Veröffentlichung IEEE Spectrum , dass jedes Jahr bis zu 4 Prozent der Millionen von Google-Computern auf Fehler gestoßen sind, die nicht erkannt werden konnten und dies verursachten sie unerwartet herunterfahren.

In einem Mikroprozessor mit Milliarden von Transistoren – oder einer Computerspeicherplatine, die aus Billionen winziger Schalter besteht, die jeweils eine 1 oder 0 speichern können – kann selbst der kleinste Fehler Systeme stören, die heute routinemäßig jede Sekunde Milliarden von Berechnungen durchführen.

Zu Beginn des Halbleiterzeitalters machten sich Ingenieure Sorgen über die Möglichkeit, dass kosmische Strahlen gelegentlich einen einzelnen Transistor umkippen und das Ergebnis einer Berechnung verändern könnten. Nun befürchten sie, dass die Schalter selbst zunehmend weniger zuverlässig werden. Die Facebook-Forscher argumentieren sogar, dass die Schalter verschleißanfälliger werden und die Lebensdauer von Computerspeichern oder Prozessoren möglicherweise kürzer ist als bisher angenommen.

Es gibt immer mehr Hinweise darauf, dass sich das Problem mit jeder neuen Chipgeneration verschlimmert. Ein 2020 vom Chiphersteller Advanced Micro Devices veröffentlichter Bericht stellte fest, dass die damals fortschrittlichsten Computerspeicherchips etwa 5,5-mal weniger zuverlässig waren als die vorherige Generation. AMD antwortete nicht auf Anfragen nach Kommentaren zu dem Bericht.

Das Aufspüren dieser Fehler ist eine Herausforderung, sagte David Ditzel, ein erfahrener Hardware-Ingenieur, der Vorsitzender und Gründer von Esperanto Technologies ist, einem Hersteller eines neuen Prozessortyps, der für Anwendungen der künstlichen Intelligenz in Mountain View, Kalifornien, entwickelt wurde. Er sagte, der neue Chip seines Unternehmens , das gerade auf den Markt kommt, hatte 1.000 Prozessoren aus 28 Milliarden Transistoren.

Er vergleicht den Chip mit einem Wohnhaus, das die Fläche der gesamten Vereinigten Staaten überspannen würde. In Anlehnung an Herrn Ditzels Metapher sagte Dr. Mitra, dass das Auffinden neuer Fehler ein wenig wie die Suche nach einem einzigen laufenden Wasserhahn in einer Wohnung in diesem Gebäude sei, der nur dann nicht funktioniert, wenn ein Schlafzimmerlicht an ist und die Wohnungstür offen steht.

Bild

Gutschrift… Brian Snyder/Reuters

Bis jetzt haben Computerdesigner versucht, mit Hardwarefehlern fertig zu werden, indem sie spezielle Schaltungen in Chips eingebaut haben, die Fehler korrigieren. Die Schaltkreise erkennen und korrigieren fehlerhafte Daten automatisch. Es wurde einst als ein äußerst seltenes Problem angesehen. Aber vor einigen Jahren begannen die Google-Produktionsteams, Fehler zu melden, die unglaublich schwer zu diagnostizieren waren. Berechnungsfehler traten zeitweise auf und waren laut ihrem Bericht schwer zu reproduzieren.

Ein Forscherteam versuchte, das Problem aufzuspüren, und veröffentlichte letztes Jahr seine Ergebnisse. Sie kamen zu dem Schluss, dass in den riesigen Rechenzentren des Unternehmens, die aus Computersystemen auf der Grundlage von Millionen von Prozessorkernen bestehen, neue Fehler auftraten, die wahrscheinlich eine Kombination aus mehreren Faktoren waren: kleinere Transistoren, die sich den physikalischen Grenzen näherten, und unzureichende Tests.

In ihrem Artikel „Cores That Don’t Count“ stellten die Google-Forscher fest, dass das Problem so herausfordernd war, dass sie bereits das Äquivalent von mehreren Jahrzehnten Entwicklungszeit darauf verwendet hatten, es zu lösen.

Moderne Prozessorchips bestehen aus Dutzenden von Prozessorkernen, Rechenkernen, die es ermöglichen, Aufgaben aufzuteilen und parallel zu lösen. Die Forscher fanden heraus, dass eine winzige Teilmenge der Kerne selten und nur unter bestimmten Bedingungen ungenaue Ergebnisse lieferte. Sie beschrieben das Verhalten als sporadisch. In einigen Fällen würden die Kerne nur dann Fehler produzieren, wenn die Rechengeschwindigkeit oder die Temperatur geändert wurden.

Die zunehmende Komplexität des Prozessordesigns war laut Google eine wichtige Fehlerursache. Aber die Ingenieure sagten auch, dass kleinere Transistoren, dreidimensionale Chips und neue Designs, die nur in bestimmten Fällen Fehler verursachen, alle zu dem Problem beigetragen haben.

In einem ähnlichen Papier , das letztes Jahr veröffentlicht wurde, stellte eine Gruppe von Facebook-Forschern fest, dass einige Prozessoren die Tests der Hersteller bestanden, dann aber im Feld Fehler aufwiesen.

Bild

Kredit… Yoshikazu Tsuno/Agence France-Presse — Getty Images

Intel-Führungskräfte sagten, sie seien mit den Forschungsberichten von Google und Facebook vertraut und arbeiteten mit beiden Unternehmen zusammen, um neue Methoden zum Erkennen und Korrigieren von Hardwarefehlern zu entwickeln.

Bryan Jorgensen, Vizepräsident der Datenplattformgruppe von Intel, sagte, dass die Behauptungen der Forscher richtig seien und dass „die Herausforderung, die sie an die Industrie stellen, der richtige Ort ist“.

Er sagte, Intel habe kürzlich ein Projekt gestartet, um bei der Entwicklung von Standard-Open-Source-Software für Rechenzentrumsbetreiber zu helfen. Die Software würde es ihnen ermöglichen, Hardwarefehler zu finden und zu korrigieren, die die eingebauten Schaltkreise in Chips nicht erkennen würden.

Die Herausforderung wurde letztes Jahr unterstrichen, als mehrere Kunden von Intel leise Warnungen über unerkannte Fehler herausgaben, die von ihren Systemen verursacht wurden. Lenovo, der weltweit größte Hersteller von PCs, informierte seine Kunden darüber , dass Designänderungen in mehreren Generationen von Intels Xeon-Prozessoren dazu führten, dass die Chips eine größere Anzahl von Fehlern erzeugen könnten, die nicht korrigiert werden könnten als frühere Intel-Mikroprozessoren.

Intel hat sich nicht öffentlich zu diesem Problem geäußert, aber Herr Jorgensen räumte das Problem ein und sagte, es sei behoben worden. Seitdem hat das Unternehmen sein Design geändert.

Computeringenieure sind uneins darüber, wie sie auf diese Herausforderung reagieren sollen. Eine weitverbreitete Antwort ist die Forderung nach neuartiger Software, die proaktiv auf Hardwarefehler achtet und es Systembetreibern ermöglicht, Hardware zu entfernen, wenn sie beginnt, sich zu verschlechtern. Das hat eine Chance für neue Start-ups geschaffen, die Software anbieten, die den Zustand der zugrunde liegenden Chips in Rechenzentren überwacht.

Eines dieser Unternehmen ist TidalScale, ein Unternehmen in Los Gatos, Kalifornien, das spezialisierte Software für Unternehmen herstellt, die versuchen, Hardwareausfälle zu minimieren. Sein Geschäftsführer, Gary Smerdon, schlug vor, dass TidalScale und andere vor einer imposanten Herausforderung standen.

„Es wird ein bisschen so sein, als würde man einen Motor wechseln, während ein Flugzeug noch fliegt“, sagte er.