Une startup a levé 3,9 millions de dollars de Nat Friedman et Daniel Gross pour résoudre le goulot d’étranglement des données non structurées d’AI
Pulse, une startup de cinq personnes spécialisée dans la préparation des données non structurées pour les modèles d’apprentissage automatique, a levé 3,9 millions de dollars dans un tour de financement dirigé par Nat Friedman et Daniel Gross.
Pulse vend les entreprises une boîte à outils conçue pour convertir des données brutes et non structurées en formats prêts à l’emploi par les modèles d’apprentissage automatique. Cela répond à la demande croissante d’entreprises pour créer des copilotes, des chatbots et des agents numériques personnalisés adaptés à leurs données internes.
« Disons que vous êtes une institution financière ou une entreprise de soins de santé. Il n’y a pas de place pour un LLM pour inventer quelque chose ou halluciner un numéro ou une erreur », a déclaré Sid Manchkanti, cofondateur et PDG de Pulse.
Avant Pulse, Manchkanti était développeur de logiciels chez Nvidia. Il a lancé l’entreprise avec son ami d’enfance, Ritvik Pandey, qui a précédemment travaillé sur le projet de supercalculateur de Tesla pour la formation de modèles d’apprentissage automatique, appelé Dojo.
Les autres investisseurs de la série de semences de l’entreprise comprennent Y Combinator, Sequoia Scout, Soma Capital, Liquid 2 Ventures, la société de capital-risque fondée par Joe Montana et des particuliers de NVIDIA, OpenAI et de startup Fintech Ramp.
Les données de formation sont la matière première qui permet aux modèles de langue importants d’apprendre les relations entre les mots et les phrases et imiter le texte humain. Cependant, la formation de ces modèles ne consiste pas seulement à leur nourrir des quantités massives d’informations. Il faut de la conservation et de la préparation des informations de la bonne manière. Vous ne mettez pas le diesel dans un moteur à gaz.
Des données structurées sont des données organisées et consultables qui s’inscrivent parfaitement dans les lignes et les colonnes, comme les données d’une feuille de calcul Excel ou des enregistrements clients. Les données non structurées ressemblent plus aux fichiers avec lesquels vous travaillez quotidiennement. Pensez à des contrats clients longs, des manuels des employés, des présentations de vente et des vidéos de démonstration de produits. Selon la société de renseignement sur le marché technologique IDC, 90% des données mondiales ne sont pas structurées.
La conversion des données désordonnées en données de formation implique souvent des travailleurs humains. Ils peuvent lire des documents et des images, entrer des informations pertinentes dans des formats tels que des feuilles de calcul ou des bases de données, et examiner et nettoyer les données – corriger les erreurs et étiqueter les données pour fournir un contexte pour les applications d’apprentissage automatique.
Pour automatiser ce processus, la solution de Pulse utilise des techniques de vision par ordinateur et des modèles d’extraction affinés pour comprendre les documents complexes et analyser avec précision leurs données.
Manchkanti dit que la technologie de Pulse rationalise non seulement le processus – ce qui rend plus rapide et plus efficace pour les entreprises de tirer parti de leurs données non structurées dans les modèles d’apprentissage automatique – mais aussi améliore la précision. Il estime que les équipes perdent 20% à 30% de leurs données avec des solutions existantes en raison d’une mauvaise extraction.
Le tour de Pulse s’appuie sur une houle d’argent dans les startups offrant des outils pour éliminer ce goulot d’étranglement de données non structuré. Non structuré a levé 65 millions de dollars de financement à ce jour et compte plus d’un millier de clients payants. Instabase a récemment obtenu un financement de 100 millions de dollars pour étendre sa boîte à outils pour extraire et traitement des données non structurées.
Manchkanti a déclaré que le nouvel argent mis dans Pulse permettrait à l’entreprise d’embaucher des ingénieurs et d’ajouter une extraction de données pour d’autres formats, à savoir l’audio et la vidéo.
