RITSL_
12 min de lectureAI/CONSULTING

Les deux mondes de l'IA générative

Les deux mondes de l'IA générative

Image: DeepMind

Il y a deux ans, automne 2023, début d'une aventure autour de l'IA générative. D'abord du conseil pour des avocats. Puis des mandats de développement. De la formation.

Le conseil consistait surtout à faire de la veille, trouver des outils d'IA générative spécialisés pour les métiers du droit. Avec mes clients, nous considérions quelques options suisses. Discussions. Plans d'implémentations. Et ainsi de suite.

En formation, j'ai eu l'occasion d'avoir des équipes adultes, pour des institutions comme l'Université de Lausanne, quelques entreprises privées, etc. Je suis également intervenu dans des classes. Au gymnase. Dans des écoles privées. Je note au passage que les enfants de 10 ans sont souvent plus réactifs à des slides qui pourraient passer pour complexes que des adultes. J'adore présenter des slides sur les GPU nécessaires à faire tourner des modèles de langage. Les enfants saisissent tout de suite les enjeux : "ça veut dire qu'on peut pas faire sur nos téléphones (Parce qu'un GPU Grace Hopper n'a simplement pas la place d'y exister, très juste) ? Moi j'ai une RTX Geforce 3060, je peux entrainer un modèle ?".

Puis sont arrivés les mandats de développements. J'ai obtenu mes premiers clients au bouche à oreille. Tout le monde a vite compris la plus-value d'un chatbot qui répond aux questions des utilisateur·trices sur base d'une documentation d'entreprise. Chatbots internes, ou externes. Les premières générations d'outils développés consistaient surtout à immiscer un prompt système entre un modèle d'OpenAI et un utilisateur final, et construire une interface web à travers laquelle l'utilisateur·trice interagissait avec le modèle. C'est une forme de configuration du modèle pour qu'il réponde d'une certaine manière. Le end-user se concentre sur sa demande, et on s'occupe de la traiter avec le prompt système adéquat. Simple mais efficace. À cette époque, 2023, début 2024, on pensait encore que la vraie innovation allait se situer dans le fait de fine-tuner des modèles. On pensait que les boites intéressantes qui allaient émerger seraient celles qui seraient capables de créer des nouveaux modèles spécialisés concurrents de ceux d'OpenAI, Anthropic, Google (même si à ce moment là Google n'était nulle part).

Plus ma connaissance de cet écosystème, et du fonctionnement technique de l'IA générative augmentait, via le conseil, les formations, le développement d'outils spécifiques, plus je constatais certaines tendances.

D'abord, chercher à entrainer des modèles, y compris à les fine-tuner, me semblait inutile. Chaque génération de modèle faisait des bonds stratosphériques. L'augmentation de la qualité des résultats liées au raffinement du prompt, ainsi qu'aux données auquel on exposait le modèle avant qu'il génère sa réponse, était déjà si grande, que passer même une semaine à collecter un dataset nécessaire au fine-tuning était du temps perdu. Il faudrait utiliser les modèles des gros providers. Comme à l'époque des premiers ordinateurs on avait du utiliser les puces de Intel, Motorola, Fairchild.

Puis est apparue la mode du RAG (retrieval augmented generation). Dans les grandes lignes, cela consiste à générer une réponse d'IA générative à partir de documents existants. Le problème évident du RAG est qu'on créait une attente gigantesque vers les entreprises en disant que soudainement les IA répondraient uniquement sur base de leur documentation, la plus technique, complexe, non structurée fut-elle. Mais le RAG n'est pas une panacée. Les problèmes sont apparus très vite à celles et ceux qui développaient dans ce domaine, un certain consultant américain génial du nom de Jason Liu en tête. Ces systèmes RAG comprenaient mal les questions utilisateurs, ou très naïvement. Les résultats contenaient encore beaucoup d'hallucinations, ou manquaient des informations évidentes. Mille et une techniques pour juguler ces défauts sont apparues : query expansion, reranking, fine-tuning des modèles d'embedding, etc. Mais rien n'y faisait. Le RAG n'était pas un miracle.

Durant tout ce temps, nous avons continué de pratiquer la même approche commerciale. Se tenir aux aguets. Effectuer une veille technologique frénétique. Chaque jour être au courant des nouvelles percées. Des mises à jour des modèles. Tester. Construire. Recommencer. Et durant tout ce temps nous avons continué de pousser pour développer notre propre produit, dans la logique qu'à long terme ça n'avait jamais été notre souhait de rester des consultants, ou une agence de développement.

Mais le sol était trop friable. L'écosystème bougeait trop vite. En deux ans, entre 2023 et 2025 il n'y a pas eu un mois sans qu'une annonce technologique vienne brasser toutes les cartes. Ici, OpenAI sortait ses GPTs, permettant à quiconque d'offrir un chatbot customisé presque gratuitement. Là, DeepSeek sortait un modèle open-source à la puissance équivalente à ceux des leaders américains. Mais encore, l'industrie parlait tout à coup de SLM (small language models) qui étaient censés concurrencer les LLM (large language models) sur de l'infrastructure propriétaire, car tournant sur des petits GPUs, ou des laptops.

Pendant tout ce temps, on travaillait sur notre produit. Mais on gardait la tête froide. La vitesse d'amélioration des modèles posait des risques beaucoup trop grands à la fixation d'une direction trop rigide. On observait nos concurrents construire des dashboards. Des applications web. Derrière lesquelles, nous le savions mieux que personne, les deux seules "technologies" étaient le RAG, ou une variante du RAG, et l'utilisation de modèles hébergés sur des serveurs non-américains, qui permettaient de clamer haut et fort que la data était souveraine. Or, ce dernier point n'est rien d'autre qu'une ligne dans la configuration d'une application. Plutôt que d'appeler https://api.openai.com/v1/models, on appelle https://RESSOURCEAZURE.openai.azure.com/openai/v1/. Les LLMs sont installés sur des serveurs possédant de gros GPU. La seule question est : où est situé ce serveur. S'il est situé quelque part en Europe via Azure, bingo. Puisque Microsoft sont de mèche avec OpenAI, ils installent les dernières versions de GPT sur des serveurs en Suède (ou des modèles moins bons et plus chers comme 4.1 en Suisse), et le tour est joué. Les LLM streament des réponses texte, via HTTP. Pour obtenir une réponse d'un modèle n'importe où dans le monde, il suffit de pointer son application vers le bon endroit.

La lame de fond que nous savions être en train d'arriver était le coût marginal de construction d'une application complète. Puisque nous développions, nous savions très bien quelle était la valeur de telle ou telle application, de tel ou tel dashboard. Et nous constations que cette valeur s'approchait de plus en plus de zéro. Ce qui coûtait, dans le développement avec des clients, c'était le temps qu'il fallait pour comprendre la demande du client, ce qu'il ou elle avait en tête, comment il souhaitait apporter de la valeur à son utilsateur·trice, quelles étaient les directions à prendre ou à ne pas prendre. Mais quand l'architecture était claire, le développement se faisait rapidement.

Nous observions tous les jours l'avantage que procure le fait d'avoir développé un dashboard complet, à montrer à ses futurs clients, fondre comme neige au soleil. Car nous savions que les applications des concurrents pouvaient être reverse-engineered en une demi-journée. Nous avons fait le test. Plusieurs fois. Notre éthique de travail nous garde de publier ces résultats. Mais nous les connaissons. Et ces résultats influencent notre stratégie.

Le dernier constat que nous avons pu extraire de ces années d'exercice est que le monde est désormais séparé en deux. Ceux, d'un côté, qui pensent que l'IA générative est un outil intéressant pour gagner du temps, mais ne change pas fondamentalement la donne. De l'autre, ceux qui comprennent la profondeur de la révolution. J'ignore bien sûr dans cette séparation une quantité innombrables de gens qui n'ont même pas compris ni l'un, ni l'autre, ça ne sert à rien de perdre du temps là-dessus. Mais la séparation entre le camp qui considère l'IA comme un gain de temps, et l'autre qui comprend que le monde va changer est essentielle. Combien de fois lit-on dans la presse ces derniers temps que les entreprises peinent à voir les bénéfices réels des IA. Quiconque ne comprend pas comment créer de la valeur avec un outil informatique qui parle toutes les langues, est capable de contrôler un navigateur web, un système d'exploitation, un ordinateur entier, connait la majorité des secteurs d'activités humaines mieux que la plupart des experts du domaine, ne va pas faire long feu dans le monde qui vient.

La différence que j'évoque ici est celle qui distingue d'un côté une utilisation standard de l'IA générative, le good enough, le business as usual, et de l'autre, celles et ceux qui comprennent que non, ça n'a rien du business as usual. Nous avons désormais dans les mains des outils qui nous permettent d'être un milliard de fois meilleurs dans la valeur que nous proposons à notre client. Plus précis, plus fins, plus intelligents. Pas plus rapide. La vitesse on s'en fout. C'est un détail. Passé un certain degré de qualité dans le service que vous offrez, ça n'est plus une question de temps. C'est une question de précision. La Suisse a une culture de la précision. La vitesse n'a jamais été notre avantage concurrentiel. Nous sommes excellents parce que nous prenons le temps de faire les choses bien. Or, l'intelligence artificielle permet, lorsqu'elle est bien utilisée, non pas de gagner du temps, mais de gagner en précision, en détail, en connaissances, en culture, en qualité… En intelligence.

Que permet l'intelligence ? Une représentation correcte du réel, qui conduit à de meilleures décisions, et donc une optimisation des résultats de nos actions.

C'est ainsi que nous sommes arrivés à la conclusion que rien ne servait de chercher dans le contexte de cette nouvelle révolution technologique d'aller trop vite. De construire trop rapidement une application figée. D'abord, nous souhaitons offrir à nos clients le maximum d'intelligence possible dans leur secteur d'activité. Pour leur clientèle. Nous ne construisons pas un énième dashboard. L'important n'est pas la manière de consommer l'information, dans un chatbot, via mail, WhatsApp, signal, sur un dashboard, dans un rapport, l'important est la qualité, et la précision de l'information.

Pourquoi ogram ?

Nous ne vendons pas un énième dashboard, ou pire, un chatbot. Ce que nous proposons c'est de l'intelligence. Qu'elle soit extraite de données confidentielles, internes, ou qu'elle ait été distillée à partir de données publiques, nous vendons de l'intelligence.

Est-ce vraiment un produit ? Nous n'en avons aucun doute. Quand les premières plateformes proposant des services labellisés plus tard réseaux sociaux sont apparus, personne ne considérait qu'il pouvait y avoir un produit là-dedans. Qu'est-ce que Facebook allait vendre en partant d'un site web permettant de voter pour des photos ? Et pourtant. L'important n'est pas de savoir si oui ou non ce qu'on construit rentre dans les cases actuelles qui intéressent des VC. L'important est de chercher à maximiser la valeur qu'on est capable d'apporter à son client. Peu importe comment.

Elliot Vaucher

Elliot Vaucher

Fondateur de RITSL