Databricks annonce Dolly 2.0, le premier LLM open source pour une utilisation commerciale

Databricks a annoncé la sortie de Dolly 2.0, le premier LLM open source autorisé pour une utilisation commerciale. Dolly 2.0 est une version améliorée de Dolly, le grand modèle de langage (LLM) que Databricks a publié en mars 2023. Dolly 1.0 avait été développé par l’équipe de développement du LLM “Alpaca” de l’Université de Stanford en utilisant un ensemble de données créé à l’aide de l’API OpenAI. Cependant, il n’était pas autorisé pour une utilisation commerciale en raison de la présence de sorties ChatGPT contenant une clause interdisant la création de modèles concurrents à OpenAI.

Databricks a par conséquent du créé un nouveau jeu de données pour permettre une utilisation commerciale, qui a été utilisé pour entraîner Dolly 2.0. Dolly 2.0 est un LLM de 12 milliards de paramètres basé sur la famille de modèles EleutherAI pythia. Il a été ajusté en utilisant uniquement de nouvelles instructions de haute qualité générées par des humains, conformément au nouveau jeu de données. Pour ajuster Dolly 2.0, Databricks a créé un tout nouveau jeu de données d’instructions et de réponses, visant à atteindre le même nombre de données que l’InstructGPT modèle d’OpenAI, qui avait été entraîné sur un ensemble de données de 13 000 instructions et réponses.

Databricks a organisé un concours pour collecter des échantillons pour le nouveau jeu de données, qui a été un succès avec plus de 15 000 échantillons collectés en une semaine. Dolly 2.0 est disponible en téléchargement sur Hugging Face. De plus, le jeu de données “databricks-dolly-15k”, qui contient 15 000 paires de prompts de haute qualité générés par des humains utilisés pour ajuster Dolly 2.0, est disponible sous licence Creative Common 3.0 pour une utilisation, une modification et une extension par tous.

Commentaires