hugging face
Intelligence Artificielle

Hugging Face : L’ascension et l’importance de Transformers dans le monde de l’intelligence artificielle

Mise à jour le 12 septembre 2022

Hugging Face est l’un des projets open source dont la croissance est la plus rapide de l’histoire. Avec plus de 60 000 étoiles sur GitHub, plus de 40 000 modèles et des millions de visites mensuelles, Hugging Face est l’un des projets à la croissance la plus rapide de l’histoire des logiciels open source.

Afin de comprendre la signification et le contexte sous-jacents d’une entrée, vous avez besoin d’un outil puissant. C’est la sauce secrète qui alimente tous les outils de pointe alimentés par la PNL que vous êtes susceptible de rencontrer aujourd’hui : La détection des erreurs grammaticales de Grammarly, le copilote de GitHub, l' »autocomplétion » de GMail, le copywriter IA de CopyAI, et même DALL-E 2.

Aujourd’hui, si vous voulez tirer parti de la puissance des Transformers sans avoir à votre disposition la puissance de traitement de Google (nous allons faire une pause pendant que vous vérifiez), vous le pouvez. Grâce à trois Européens qui ont mis en libre accès leur bibliothèque de Transformers (et bien d’autres aussi) et qui sont en passe de démocratiser l’apprentissage automatique – Clem Delangue, Julien Chaumond et Thomas Wolf – cofondateurs de Hugging Face.

Devenir le Github du Machine Learning

Quand Clem Delangue n’était qu’un enfant, son père lui a acheté une moto tout terrain. Il l’a conduite partout, et la moto est devenue une partie intégrante de sa vie. Il en était tellement amoureux qu’il a même commencé à en vendre en ligne lorsqu’il était au collège.

Il a fait ses premiers pas dans le monde de l’entrepreneuriat en vendant des VTT et des motos de terre importés de Chine sur eBay – qui était si impressionné qu’il lui a demandé de venir faire un stage avec eux. Cette expérience lui a fait découvrir l’apprentissage automatique, qu’il a trouvé fascinant et a décidé de poursuivre après avoir obtenu son diplôme universitaire.

Quelques années plus tard, Clem a rencontré l’apprentissage automatique et l’apprentissage automatique a rencontré Clem lorsque le cofondateur de Moodstocks, une start-up travaillant sur la technologie de reconnaissance d’image, l’a accosté lors d’un salon du commerce électronique. Après un bref passage dans cette entreprise, Clem s’est lancé à son compte, sans VTT cette fois. Atteint par le virus des ML (Machine Learning), son travail sur une idée d’application collaborative de prise de notes l’a mis en contact avec Julien Chaumond , un autre entrepreneur qui met au point un lecteur de livres électroniques collaboratif – Hugging Face était né !

Le duo a rencontré l’ami de Chaumond à l’université, qui était maintenant actif dans la recherche ML, et ensemble ils ont entrepris de construire une « IA conversationnelle à domaine ouvert » – le genre d’IA que l’on retrouve dans le film « Her ».

L’application elle-même était un chatbot de type Tamagotchi qui pouvait vous répondre de manière cohérente sur un large éventail de sujets, détecter les émotions dans le texte et adapter son ton en conséquence.

Clem Delangue, PDG et cofondateur, a déclaré : « Nous construisons une IA pour que vous ayez du plaisir à discuter avec elle. Lorsque vous discutez avec elle, vous allez rire et sourire – ce sera divertissant. »

Le moment qui a changé l’histoire d’Huggging Face

Julien se souvient que le chatbot a connu un succès fulgurant au début, avec environ 100 000 DAU (utilisateurs actifs quotidiens) à son apogée et des taux de rétention décents. Cependant, pour l’équipe initiale de 5 ou 6 spécialistes de la PNL, le cœur était là où se trouvait la technologie. Et, malheureusement, les progrès considérables qu’ils ont réalisés dans leur technologie sous-jacente ne se sont pas traduits par des percées dans l’utilisation par les consommateurs. L’amélioration de la précision des réponses du robot Hugging Face n’a pas semblé être en corrélation avec la croissance ou la rétention.

Environ deux ans plus tard, le papier « Attention is all you need » a marqué le début de l’ère des Transformers. Hugging Face, qui avait déjà publié des parties de la puissante bibliothèque alimentant son chatbot sous la forme d’un projet open-source sur GitHub, a ouvert le nouveau produit phare de la PNL et l’a mis à la disposition de la communauté.

Aujourd’hui, Transformers est la bibliothèque logicielle la plus largement adoptée pour les modèles d’apprentissage automatique afin de traiter les applications NLP. Elle compte 63,3k étoiles et 14,9k forks sur GitHub, et a été fondée par Laurens van der Maaten en 2014.

Le 7 mai, elle a levé 100 millions de dollars dans un financement de série C à une évaluation de 2 milliards de dollars menée par Lux Capital avec une participation majeure de Sequoia, et Coatue. Ce tour de table très disputé a également bénéficié du soutien des investisseurs existants, notamment Addition, la star de la NBA Kevin Durant, a_capital, SV Angel, Betaworks, AIX Ventures, Rich Kleiman de Thirty Five Ventures et Olivier Pomel (cofondateur et PDG de Datadog).

La société prévoit d’utiliser ce nouveau financement pour accélérer sa croissance en soutenant ses efforts en matière de ventes et de marketing et en développant davantage sa plateforme technologique.

Hugging Face, à l’avant garde de la technologie

Hugging Face s’est éloigné du chatbot et s’est donné pour mission de faire progresser et de démocratiser l’intelligence artificielle grâce à l’open source et à la science ouverte.

La mission de l’entreprise est de devenir le GitHub de l’apprentissage automatique. Avec ~100 000 modèles d’apprentissage automatique pré-entraînés et <10 000 ensembles de données actuellement hébergés sur la plateforme, Hugging Face permet à la communauté et à plus de 10 000 entreprises, dont Grammarly, Chegg et d’autres, de créer leurs propres capacités NLP, de partager leurs propres modèles et bien plus encore.

L’ascension de Hugging Face à la pointe de la technologie se reflète dans l’histoire de l’étoile de Transformers sur Github par rapport à d’autres projets open-source de premier plan – même Confluent, MongoDB, et Databricks. Comment la société basée à Paris et à New York, qui porte le nom d’une émoticône et qui comptait un peu moins de 10 employés jusqu’en 2019, a-t-elle pu se hisser au sommet ?

L’énorme communauté d’ingénieurs et d’enthousiastes avec Transformers

Hugging Face a été fondé aux débuts des grands modèles de langage appliqués au texte. Les fondateurs ont rapidement remarqué que la communauté des personnes intéressées par ce domaine était dense, et ils ont rapidement mis en libre accès leurs premières bibliothèques. Après que Google ait publié les poids du modèle de représentation du langage BERT dans TensorFlow, le tout premier point de départ du repo de Hugging Face a été de déplacer ce modèle vers Pytorch – c’est là qu’ils ont vraiment découvert leur groupe principal de contributeurs.

Hugging Face aspire à construire la communauté n°1 de l’apprentissage automatique. L’engagement envers la communauté est ancré dans le tissu culturel de l’entreprise.

L’équipe de Hugging Face a exploité certaines dynamiques communautaires clés qui stimulent l’engagement et la croissance. La plus importante d’entre elles est le Hugging Face Hub, qu’ils ont construit lorsqu’ils ont réalisé qu’il existait un besoin pour une plateforme permettant aux utilisateurs de Transformers et de bibliothèques de données de partager facilement leurs modèles ou leurs ensembles de données. Ils ont bricolé un moyen simple pour la communauté de publier sur AWS S3, etc. si elle le souhaitait. Le Hub héberge des dépôts basés sur Git, qui sont des espaces de stockage pouvant contenir tous les fichiers de l’utilisateur.

Actuellement, il existe trois types de repositories :

Hugging Face est une communauté, et une plateforme pour les développeurs. Elle héberge trois types de référentiels : Espaces, Ensembles de données, et Modèles.

Space : Les espaces permettent aux membres de la communauté de devenir des créateurs et des contributeurs. Les espaces sont un moyen simple de créer et de partager des applications avec un contrôle de version intégré et des flux de travail basés sur git. Plus de 200 espaces sont actuellement en ligne sur le site web.

Datasets : Les jeux de données comprennent environ 4,8 000 jeux de données avec un large éventail de cas d’utilisation, de tâches et de langues. Il y a également ~45k modèles avec des applications allant de la classification et de la segmentation d’images à la classification audio, en passant par la reconnaissance vocale automatique et la classification de clichés zéro, etc.

Models : L’API d’inférence permet aux utilisateurs d’accéder aux modèles via une interface de programmation et de les « entraîner automatiquement » – ce qui permet aux utilisateurs d’entraîner les modèles sur leurs propres ensembles de données ou sur des ensembles de données hébergés par Hugging Face moyennant un supplément.

L’open-source, une clé du succès de Hugging Face

Le PDG et cofondateur de Hugging Face, Clem, pense qu’avec les modèles open-source, l’entreprise peut exploiter la puissance d’une communauté pour faire les choses différemment – « offrir une valeur mille fois supérieure » à un outil propriétaire, dit-il. Faisant le parallèle avec Elastic et MongoDB, Clem affirme que dans le domaine de la PNL, l’équipe a toujours eu l’impression de se tenir sur les épaules de géants.

Ce qui a commencé avec l’open-sourcing de PyTorch BERT et GPT a conduit à un effet boule de neige qui a propulsé Hugging Face là où il est aujourd’hui. Dans un domaine comme la PNL ou l’apprentissage automatique, Clem pense que la pire des positions est d’être en concurrence avec les laboratoires de recherche et les projets open source. Selon lui, le fait de monétiser 1 % de la valeur créée tout en exploitant la puissance de la communauté est souvent plus que suffisant pour faire croître une entreprise cotée en bourse.

Pour Hugging Face, la monétisation n’en est qu’à ses débuts : la société a lancé ses offres payantes l’année dernière et compte déjà plus de 1000 entreprises clientes, dont Intel, eBay, Pfizer et Roche. Les progrès de l’apprentissage par transfert signifient que les Transformers sont efficaces non seulement en PNL, mais aussi dans d’autres domaines. L’opportunité de devenir le GitHub de l’apprentissage automatique était évidente et Hugging Face a décidé de sauter sur cette opportunité. Avec environ 10 millions de dollars de revenus en banque et la plupart de leurs 40 millions de dollars de série B de mars 2021, et une forte communauté qui les fait avancer, la roue de la croissance basée sur le produit est prête à passer à la vitesse supérieure.

En plus de la plateforme centrale Hugging Face, il existe également deux produits autonomes : Hugging Face Data Platform (HDP) et Hugging Face MTL (traduction automatique). HDP est une plateforme de données pour les grandes entreprises comme Pfizer ou Roche qui veulent construire leurs propres applications d’IA en utilisant les mêmes outils que Hugging Face utilise en interne. HDP fournit des ensembles de données anonymes provenant de sources multiples, notamment des messages de médias sociaux de Twitter et Reddit, des articles d’actualité, des essais cliniques, des appels de support client, des évaluations de produits, etc.

La prochaine génération d’IA devient plus accessible, et Hugging Face ouvre la voie.

Hugging Face rend l’IA de pointe accessible aux entreprises et aux équipes qui n’ont pas les ressources nécessaires pour la construire à partir de zéro. L’entreprise a des bureaux à New York et à Paris, et compte plus de 140 employés qui grandissent rapidement chaque mois. Elle se rapproche de son objectif de démocratiser l’apprentissage automatique et de le rendre accessible à tous ceux qui le souhaitent.

David