Staging amberSearch.de

Unsere Open Source Beiträge

Über die Jahre haben wir hin- und wieder Teile unseres Code’s bzw. unserer KI-Modelle veröffentlicht. Auf dieser Seite haben wir die Beiträge zusammengefasst.

Multilingual Passage Reranking Modell

Hochqualitativer, deutscher Trainingsdatensatz

  • Um KI-Modelle zu trainieren und gewisse Verzerrungen zu vermeiden, werden hochqualitative Datensätze benötigt.
  • Gemeinsam mit Philipp May, T-Systems, haben wir diesen Trainingsdatensatz definiert, um damit unsere LLM’s zu trainieren.
  • Wenn wir KI-Modelle trainieren, dann verwenden wir keine Kundendaten, sondern allgemeine, öffentliche Daten – wie zum Beispiel aus diesem Trainingsdatensatz.

Deutschsprachiges Electra-Modell

  • Wir haben gemeinsam mit Philip May, T-Systems, ein verbessertes Electra-Modell veröffentlicht, welches mit 1,5 Millionen Schritten trainiert wurde.
  • Zum Zeitpunkt der Veröffentlichung (August 2020) war es das effizienteste, deutschsprachige, LLM.
  • Natürlich ist es mittlerweile bei weitem nicht mehr Stand der Technik. Aber es zeigt, wie früh wir uns bereits mit Large Language Modellen befasst haben und das wir eigenes Tech-Know-How in diesem Bereich haben.