• Frage: Hallo, unsere Frage ist woher ChatGPT und andere KI Plattformen ihre Informationen haben?

    Frage gestellt yurt33fud am 30 Sep 2025.
    • Foto: Fiona Draxler

      Fiona Draxler Beantwortet am 30 Sep 2025:


      Wichtige Datenquellen sind Webseiten und Bücher. Die Modelle sind so gut, weil sie wirklich riesige Datenmengen verwenden. Dazu gehören nicht nur Texte aus Wikipedia und von Nachrichtenseiten sondern auch auch sozialen Medien wie Reddit, Blogeinträge usw.

    • Foto: Jannik Peters

      Jannik Peters Beantwortet am 1 Okt 2025:


      Der Großteil der Trainingsdaten für ChatGPT und ähnliche Anwendungen stammt aus der Sammlung Common Crawl: https://commoncrawl.org/
      Das ist eine Sammlung vieler verschiedener Internetinhalte seit 2007.

      Zusätzlich nutzen die großen Sprachmodelle oft noch eigene Datensätze – meist Buchsammlungen oder Ähnliches.

Kommentare