Les `` baleines d'inférence '' mangent dans le modèle commercial des startups de codage de l'IA

Le secteur du codage de l’IA a un problème.

Les lourds utilisateurs des services de codage de l’IA ont augmenté d’énormes coûts, forçant certaines startups de premier plan à réviser leurs structures de prix et leurs offres pour éviter de grosses pertes.

«Les baleines d’inférence», comme certains de l’entreprise l’appellent ces clients, font que les initiés de l’industrie se demandent si les produits d’IA qui ne sont que la «rediffusion de l’inférence» peuvent survivre à long terme.

L’inférence fait référence à la façon dont les modèles IA sont exécutés. Les nouveaux modèles de raisonnement divisent les demandes des utilisateurs en plusieurs étapes, ce qui augmente les coûts d’inférence. Lorsqu’ils sont appliqués aux services de codage de l’IA, où les développeurs ont mis des agents automatisés à des tâches à plus long terme, les dépenses peuvent monter rapidement.

C’est un problème pour les services de codage de l’IA car ils sont souvent proposés par le biais de plans d’abonnement mensuels. De nombreux plans permettent une utilisation illimitée pour des frais mensuels fixes, et quelques utilisateurs ont profité en bombardant les services avec d’énormes projets.

Ces startups doivent toujours payer les modèles d’IA sous-jacents, ils sont donc pressés entre une source de revenus relativement fixe et une augmentation rapide des coûts de backend.

« Si vous revenez purement l’inférence de l’IA, votre entreprise pourrait être très fragile et vulnérable, car les vents peuvent se déplacer violemment », a déclaré Eric Simons, PDG de Stackblitz, et Startup qui propose un service de codage AI populaire appelé Bolt.new.

CLAUDE CODE WHALES

Une baleine à arche-archeur, de la « bibliothèque de naturaliste » de Jardine

Photo-bibliothèque Reuters / Science

Anthropic a offert son service de code Claude populaire via un plan illimité de 200 $ par mois plus tôt cette année. Certains abonnés sont devenus berserk, utilisant des milliers de dollars d’inférence de l’IA sur quelques semaines ou mois.

Quelqu’un a même construit un site Web pour classer ces baleines de codage d’IA. Le classement Claude Code répertorie un développeur en haut qui a brûlé près de 11 milliards de jetons.

Les jetons sont la façon dont les modèles d’IA décomposent les requêtes en morceaux de données digestibles. Le prix de l’industrie est basé sur le nombre de jetons traités. L’utilisation de jetons de ce développeur le mieux classée coûte près de 35 000 $, selon ce classement.

Cela se compare aux 200 $ par mois, il a été inculpé. Même si c’est sur une année entière, Anthropic obtiendrait environ 2 400 $, tout en encoutant des coûts d’inférence beaucoup plus élevés.

Anthropic change ses prix

Cela n’est clairement pas durable, donc anthropique prévoit de modifier ses prix. Le plan de 200 $ par mois restera, mais la startup introduira les limites hebdomadaires des taux, à partir du 28 août.

Si les utilisateurs soufflent à travers ces nouvelles limites de taux hebdomadaires, ils devront acheter une capacité supplémentaire.

« Nous avons identifié une utilisation extrême par un petit nombre de clients qui ont un impact sur la capacité de notre communauté plus large », a déclaré un porte-parole anthropique à Trading Insider.

La startup a déclaré qu’elle a également vu des «violations des politiques», telles que le partage de compte et l’accès à la revente.

« Nous nous engageons à soutenir les cas d’utilisation avancés à long terme, mais nous devons assurer des performances cohérentes pour tous les développeurs entre-temps », a ajouté le porte-parole anthropique.

Une baleine suédoise

J’ai retrouvé l’une des baleines près du haut du classement Claude Code.

Albert Örwall, un développeur basé en Suède, a déclaré qu’il utilisait l’abonnement à 200 $ par mois Claude Code pour construire sa propre plate-forme de codage d’ambiance, ainsi que certains outils d’agence open source.

« Je courais probablement 3 à 4 tâches assez longues en parallèle constamment pendant que je travaillais, et c’est à ce moment-là que cela a vraiment décollé », a-t-il dit à propos de son utilisation du code Claude.

Même à l’exclusion de ces grands projets, Örwall a déclaré que son flux de travail régulier dans le code Claude accuse probablement des coûts d’inférence de 500 $ par jour, en vertu d’un abonnement qui ne coûte que 200 $ par mois.

« Je suppose donc que mon flux de travail n’est peut-être pas durable pour anthropic », a-t-il ajouté.

Le curseur a également répondu

Lorsque le nouveau prix d’Anthropic entreprend, Örwall a déclaré qu’il garderait l’abonnement à 200 $ par mois pendant un certain temps pour avoir une idée de ce que les limites hebdomadaires signifient réellement pour son budget.

« J’éviterai de payer quoi que ce soit au-delà de l’abonnement à 200 $ », a-t-il déclaré, notant qu’il peut changer la façon dont il écrit du code et développe des projets pour éviter de franchir les nouvelles limites de taux.

« La raison pour laquelle je suis à l’origine passé du curseur à Claude Code était que le prix basé sur l’utilisation est devenu trop cher dans le curseur », a ajouté Örwall.

Cursor est un autre service de codage AI populaire, qui utilise souvent les modèles d’IA d’Anthropic comme intelligence sous-jacente alimentant son produit.

Cursor a récemment changé son plan Pro de 20 $ par mois des demandes illimitées à un système à plusieurs niveaux avec des prix basés sur l’utilisation pour les demandes « rapides », ce qui signifie que les utilisateurs sont facturés supplémentaires pour dépasser une certaine limite.

Ce changement, associé à un manque de communication claire, a provoqué une confusion et une frustration parmi certains utilisateurs qui s’attendaient à une utilisation illimitée.

Cursor a annoncé le changement initial à la mi-juin. Ensuite, il a mis à jour avec plus de détails environ 2 semaines plus tard, puis à nouveau début juillet.

« Les nouveaux modèles peuvent dépenser plus de jetons par demande sur des tâches à plus long terme », a écrit la startup dans un article de blog, s’excusant pour des utilisateurs surprenants avec de nouvelles factures inattendues.

« Bien que les coûts de la plupart des utilisateurs soient restés assez constants, les demandes les plus difficiles coûtent plus que des demandes de grandeur. »

Les coûts d’inférence ne baissent pas

L’hypothèse à travers l’industrie a été que les coûts d’inférence baisseront considérablement, ce qui rend ces services de codage de l’IA plus viables financièrement.

Cependant, dans la pratique, cela ne s’est pas produit jusqu’à présent. Au lieu de cela, lorsqu’un nouveau modèle d’IA top sort, tous les services de codage de l’IA l’intégrent – ainsi que ses prix plus élevés.

« Il s’agit du premier pilier défectueux de la stratégie » Cost From Drop « », a écrit Ethan Ding, PDG de Startup TextQL, dans un blog récent. « La demande existe pour« le meilleur modèle de langue », période. Et le meilleur modèle coûte toujours à peu près la même chose, car c’est ce que le bord de l’inférence coûte aujourd’hui. »

Les développeurs et autres utilisateurs d’IA veulent généralement les meilleurs renseignements du mois dernier.

« Personne n’ouvre Claude et pense: » Vous savez quoi? Laissez-moi utiliser la version merdique pour faire gagner de l’argent à mon patron. » Nous sommes des créatures cognitivement gourmandes « , a écrit Ding. « Nous voulons le meilleur cerveau que nous puissions obtenir. »

Même lorsque les coûts d’inférence diminuent, la montée des flux de travail de l’IA agentiques signifie que les développeurs mettent en place des projets automatisés plus longtemps qui génèrent beaucoup plus de jetons.

Si un projet utilise 100 millions de jetons, plutôt que 1 million, le coût de l’initiative reste élevé, même si les prix par intervention peuvent avoir chuté.

« Un abonnement de 20 $ / mois ne peut même pas prendre en charge un utilisateur faisant une seule recherche de recherche en profondeur de 1 $ », a déclaré Ding. « Mais c’est exactement ce que nous courons. Chaque amélioration de la capacité du modèle est une amélioration de la quantité de calcul qu’ils peuvent consommer de manière significative. »

« Il n’y a aucun moyen d’offrir une utilisation illimitée dans ce nouveau monde sous n’importe quel modèle d’abonnement », a-t-il ajouté. « Les mathématiques ont fondamentalement brisé. »

Inscrivez-vous à la newsletter de BI’s Tech Memo ici. Contactez-moi par e-mail à abarr@businessinsider.com.