DeepSeek: Wie ein kleines chinesisches KI-Unternehmen die Technologie-Giganten der USA erschüttert
Das chinesische Künstliche Intelligenz (KI)-Unternehmen DeepSeek hat einen erheblichen Aufruhr in der Technologiebranche ausgelöst, indem es hochgradig effiziente KI-Modelle auf den Markt gebracht hat, die mit den fortschrittlichsten Produkten von US-amerikanischen Unternehmen wie OpenAI und Anthropic konkurrieren können. DeepSeek, 2023 gegründet, erzielte bemerkenswerte Ergebnisse, obwohl es nur einen Bruchteil des Kapitals und der Rechenleistung seiner Konkurrenten verwendete.
Letzte Woche veröffentlichte DeepSeek das Modell „R1“, ein „logisches Denk“-Modell, das unter Forschern Begeisterung, unter Investoren Erstaunen und Antworten von Schwergewichten der KI-Branche hervorrief. Am 28. Januar setzte das Unternehmen diesen Durchbruch fort, indem es ein Modell veröffentlichte, das nicht nur mit Texten, sondern auch mit Bildern arbeiten kann.
Was hat DeepSeek also getan und wie haben sie das geschafft?
Was hat DeepSeek gemacht?
Im Dezember veröffentlichte DeepSeek das Modell V3. Es handelt sich dabei um ein äußerst leistungsfähiges „Standard“-großes Sprachmodell, das auf einem ähnlichen Niveau wie OpenAI’s GPT-4 und Anthropics Claude 3.5 Modelle arbeitet.
Obwohl diese Modelle fehleranfällig sind und manchmal ihre eigene Realität erfinden können, sind sie in der Lage, Aufgaben wie Frage-Antwort-Systeme, das Schreiben von Artikeln und das Erstellen von Computer-Codes erfolgreich zu erledigen. In Problemlösungs- und mathematisch-logischen Denktests können sie sogar höhere Punktzahlen erzielen als ein durchschnittlicher Mensch.
Berichten zufolge wurde für das Training von V3 etwa 5,58 Millionen US-Dollar ausgegeben. Zum Vergleich: Diese Zahl ist im Vergleich zu GPT-4, dessen Entwicklung mehr als 100 Millionen US-Dollar gekostet haben soll, relativ gering.
DeepSeek gibt an, für das Training des V3-Modells rund 2.000 spezialisierte Computerchips verwendet zu haben. Es wird besonders hervorgehoben, dass mit H800-GPUs von NVIDIA gearbeitet wurde. Diese Zahl ist im Vergleich zu anderen Unternehmen, die möglicherweise bis zu 16.000 leistungsstärkere H100-Chips eingesetzt haben, relativ niedrig.
Am 20. Januar brachte DeepSeek ein weiteres Modell auf den Markt, das den Namen R1 trägt. Dieses Modell wird als „logisches Denk“-Modell beschrieben, das darauf abzielt, komplexe Probleme schrittweise zu lösen. Solche Modelle erscheinen in Aufgaben, die mehrere miteinander verbundene Komponenten wie Textverständnis und strategische Planung beinhalten und Kontext erfordern, besonders erfolgreich.
Das R1-Modell ist eine modifizierte Version von V3, die mit einer Technik namens verstärktem Lernen (reinforcement learning) arbeitet. Es scheint, dass R1 auf einem ähnlichen Niveau wie das von OpenAI im vergangenen Jahr veröffentlichte Modell o1 arbeitet.
Mit der gleichen Technik entwickelte DeepSeek auch „logische Denk“-Versionen kleinerer Open-Source-Modelle, die auf Heimcomputern laufen können.
Die Veröffentlichung dieses neuen Modells hat das Interesse an DeepSeek erheblich gesteigert. Die Popularität der Chatbot-Anwendung, die mit dem V3-Modell arbeitet, stieg schnell, und mit der Neubewertung des KI-Sektors durch Investoren führte dies zu einem massiven Wertverlust in Technologieaktien. Zum Zeitpunkt des Verfassens dieses Artikels hatte der Chiphersteller NVIDIA etwa 600 Milliarden US-Dollar an Wert verloren.
Wie hat DeepSeek das geschafft?
Die Durchbrüche von DeepSeek konzentrierten sich darauf, mit weniger Ressourcen bessere Ergebnisse zu erzielen. Insbesondere führten die Entwickler von DeepSeek zwei wichtige Techniken ein, die von KI-Forschern weitgehend übernommen werden könnten.
Die erste dieser Techniken bezieht sich auf ein mathematisches Konzept namens „Sparsity“ (Sparsamkeit). Künstliche Intelligenz-Modelle haben eine große Anzahl von Parametern, die die Antworten auf die Eingaben bestimmen (V3 hat etwa 671 Milliarden Parameter). Allerdings wird nur ein kleiner Teil dieser Parameter für jede Eingabe verwendet.
Es ist jedoch schwierig, vorherzusagen, welche Parameter erforderlich sind. DeepSeek hat eine neue Technik entwickelt, um diese Vorhersage zu treffen, und trainierte dann nur die notwendigen Parameter. Dadurch konnten ihre Modelle mit deutlich weniger Trainingsdaten im Vergleich zu traditionellen Methoden entwickelt werden.
Die andere Innovation bezieht sich darauf, wie V3 die Informationen im Computerspeicher speichert. DeepSeek fand eine intelligente Methode, um die relevanten Daten zu komprimieren. Dadurch nahmen die Daten weniger Platz ein und waren viel schneller zugänglich.
Was bedeutet das?
Die Modelle von DeepSeek und die entwickelten Techniken wurden unter der kostenlosen MIT-Lizenz veröffentlicht. Das bedeutet, dass jeder diese Modelle herunterladen und verändern kann.
Dies könnte für einige Künstliche-Intelligenz-Unternehmen eine negative Entwicklung sein, da die Existenz starker und frei zugänglicher Modelle ihre Gewinnmargen verringern könnte. Für die breite KI-Forschungsgemeinschaft ist dies jedoch eine sehr positive Nachricht.
Heutzutage erfordert viele KI-Forschung den Zugang zu großen Mengen an Rechenressourcen. Forscher wie ich, die an Universitäten arbeiten (oder andere, die nicht bei großen Technologieunternehmen tätig sind), haben begrenzte Möglichkeiten, Tests und Experimente durchzuführen.
Effizientere Modelle und Techniken verändern diese Situation. Jetzt könnte es viel einfacher werden, Experimente durchzuführen und neue Modelle zu entwickeln.
Auch für Verbraucher könnte der Zugang zu Künstlicher Intelligenz günstiger werden. Mehr KI-Modelle könnten anstatt auf kostenpflichtigen Cloud-Abonnementdiensten auf den eigenen Geräten der Nutzer, wie Laptops oder Handys, ausgeführt werden.
Für Forscher, die bereits über umfangreiche Ressourcen verfügen, könnte der Einfluss der Effizienzsteigerung begrenzter sein. Es ist noch unklar, ob der Ansatz von DeepSeek insgesamt zu stärkeren KI-Modellen führen wird oder nur zu effizienteren Modellen.
*Tongliang Liu ist Dozent für Maschinelles Lernen an der Universität Sydney und Direktor des Sydney Artificial Intelligence Centers.
Quelle: https://theconversation.com/deepseek-how-a-small-chinese-ai-company-is-shaking-up-us-tech-heavyweights-248434