Page cover

Open Source Beiträge

Im Laufe der Jahre haben wir Teile unseres Codes und unserer KI-Modelle veröffentlicht. Diese Beiträge haben wir auf dieser Seite zusammengefasst.

Hochqualitativer, deutscher Trainingsdatensatz

  • Um KI-Modelle zu trainieren und gewisse Verzerrungen zu vermeiden, werden hochqualitative Datensätze benötigt.
  • Gemeinsam mit Philipp May, T-Systems, haben wir diesen Trainingsdatensatz definiert, um damit unsere LLM’s zu trainieren.
  • Wenn wir KI-Modelle trainieren, dann verwenden wir keine Kundendaten, sondern allgemeine, öffentliche Daten – wie zum Beispiel aus diesem Trainingsdatensatz.

Deutschsprachiges Electra-Modell

  • Wir haben gemeinsam mit Philip May, T-Systems, ein verbessertes Electra-Modell veröffentlicht, welches mit 1,5 Millionen Schritten trainiert wurde.
  • Zum Zeitpunkt der Veröffentlichung (August 2020) war es das effizienteste, deutschsprachige, LLM.
  • Natürlich ist es mittlerweile bei weitem nicht mehr Stand der Technik. Aber es zeigt, wie früh wir uns bereits mit Large Language Modellen befasst haben und das wir eigenes Tech-Know-How in diesem Bereich haben.

Multilingual Passage Reranking Modell

  • Dieses Modell ist ein von uns trainiertes Reranking Modell, welches auf LLM-Basis Inhalte nach verschiedenen Faktoren bewerten kann.
  • Es hat mittlerweile eine hohe sechsstellige Anzahl an Downloads
  • In diversen wissenschaftlichen Papern wurde diese als eines der effizientesten seiner Art bewertet: