La clé pour surmonter les obstacles au développement de l'IA
Des données plus fiables
Introduction
L'intelligence artificielle a commencé à captiver l'imagination lorsque l'homme de fer de "Le magicien d'Oz" est sorti sur grand écran en 1939, et depuis lors, il n'a fait que s'ancrer plus fermement dans l'air du temps. Dans l'application, cependant, les produits d'IA ont traversé des cycles réguliers d'expansion et de récession qui ont jusqu'à présent entravé les adoptions les plus influentes.
Pendant les booms, les ingénieurs et les chercheurs ont fait d'énormes progrès, mais lorsque leurs aspirations dépassent inévitablement les capacités informatiques disponibles à l'époque, une période de dormance s'ensuit. Heureusement, l'augmentation exponentielle de la puissance de calcul prophétisée par la loi de Moore en 1965 s'est en grande partie avérée exacte, et l'importance de cette augmentation est difficile à surestimer.
Lisez l'eBook : La clé pour surmonter les obstacles au développement de l'IA, ou télécharger une version PDF du livre électronique.
La clé pour surmonter les obstacles au développement de l'IA : des données plus fiables
Aujourd'hui, la personne moyenne a maintenant des millions de fois plus de puissance de calcul dans sa poche que la NASA n'en avait pour réussir l'alunissage en 1969. Ce même appareil omniprésent qui démontre commodément une abondance de puissance de calcul remplit également une autre condition préalable à l'âge d'or de l'IA : une abondance de données. Selon les informations de l'Information Overload Research Group, 90 % des données mondiales ont été créées au cours des deux dernières années. Maintenant que la croissance exponentielle de la puissance de calcul a finalement convergé avec une croissance tout aussi fulgurante de la génération de données, les innovations en matière de données d'IA explosent tellement que certains experts pensent qu'elles déclencheront une quatrième révolution industrielle.
Les données de la National Venture Capital Association indiquent que le secteur de l'IA a enregistré un investissement record de 6.9 milliards de dollars au premier trimestre 2020. Il n'est pas difficile de voir le potentiel des outils d'IA car il est déjà exploité tout autour de nous. Certains des cas d'utilisation les plus visibles des produits d'IA sont les moteurs de recommandation derrière nos applications préférées telles que Spotify et Netflix. Bien qu'il soit amusant de découvrir un nouvel artiste à écouter ou une nouvelle émission de télévision à regarder en rafale, ces implémentations sont plutôt à faible enjeu. D'autres algorithmes notent les résultats des tests - déterminant en partie où les étudiants sont acceptés à l'université - et d'autres encore passent au crible les curriculum vitae des candidats, décidant quels candidats obtiennent un emploi particulier. Certains outils d'IA peuvent même avoir des implications de vie ou de mort, comme le modèle d'IA qui dépiste le cancer du sein (qui surpasse les médecins).
Malgré une croissance constante des exemples concrets de développement de l'IA et du nombre de startups en lice pour créer la prochaine génération d'outils de transformation, des défis pour un développement et une mise en œuvre efficaces demeurent. En particulier, la sortie de l'IA est aussi précise que l'entrée le permet, ce qui signifie que la qualité est primordiale.
Le défi d'une qualité de données incohérente dans les solutions d'IA
Il y a en effet une quantité incroyable de données générées chaque jour : 2.5 quintillions d'octets, selon Social Media Today. Mais cela ne signifie pas que tout est digne d'entraîner votre algorithme. Certaines données sont incomplètes, d'autres de mauvaise qualité et d'autres tout simplement inexactes. Par conséquent, l'utilisation de ces informations erronées entraînera les mêmes caractéristiques de votre innovation (coûteuse) en matière de données d'IA. Selon les recherches de Gartner, quelque 85 % des projets d'IA créés d'ici 2022 produiront des résultats inexacts en raison de données biaisées ou inexactes. Bien que vous puissiez facilement ignorer une recommandation de chanson qui ne correspond pas à vos goûts, d'autres algorithmes inexacts ont un coût financier et de réputation important.
En 2018, Amazon a commencé à utiliser un outil de recrutement basé sur l'IA, en production depuis 2014, qui avait un parti pris fort et indéniable contre les femmes. Il s'avère que les modèles informatiques qui sous-tendent l'outil ont été formés à partir de curriculum vitae soumis à l'entreprise pendant une décennie. Étant donné que la plupart des candidats à la technologie étaient des hommes (et le sont toujours, peut-être en raison de cette technologie), l'algorithme a décidé de pénaliser les curriculum vitae avec des « femmes » inclus n'importe où – capitaine de football féminin ou groupe commercial féminin, par exemple. Elle a même décidé de pénaliser les candidates de deux collèges féminins. Amazon affirme que l'outil n'a jamais été utilisé comme seul critère d'évaluation des candidats potentiels, mais les recruteurs ont examiné le moteur de recommandation lors de la recherche de nouvelles recrues.
L'outil de recrutement d'Amazon a finalement été abandonné après des années de travail, mais la leçon persiste, soulignant l'importance de la qualité des données lors de la formation des algorithmes et des outils d'IA. À quoi ressemblent des données « de haute qualité » ? Bref, il coche ces cinq cases :
1. Pertinent
Pour être considérées comme de haute qualité, les données doivent apporter quelque chose de précieux au processus de prise de décision. Existe-t-il une corrélation entre le statut d'un demandeur d'emploi en tant que champion d'État de saut à la perche et ses performances au travail ? C'est possible, mais cela semble très improbable. En éliminant les données qui ne sont pas pertinentes, un algorithme peut se concentrer sur le tri des informations qui ont réellement un impact sur les résultats.
2. Précis
Les données que vous utilisez doivent représenter avec précision les idées que vous testez. Sinon, ça ne vaut pas le coup. Par exemple, Amazon a formé son algorithme de recrutement en utilisant 10 ans de CV de candidats, mais il n'est pas clair si l'entreprise a d'abord confirmé les informations fournies sur ces CV. Une étude de la société de vérification des références Checkster démontre que 78% des candidats mentent ou envisageraient de mentir sur une demande d'emploi. Si un algorithme prend des décisions de recommandation en utilisant le GPA d'un candidat, par exemple, c'est une bonne idée de d'abord confirmer l'authenticité de ces chiffres. Ce processus prendrait du temps et de l'argent, mais il améliorerait aussi incontestablement la précision de vos résultats.
3. Bien organisé et annoté
Dans le cas d'un modèle de recrutement basé sur des CV, l'annotation est relativement aisée. Dans un sens, un CV est pré-annoté, bien qu'il y ait sans aucun doute des exceptions. La plupart des candidats énumèrent leur expérience professionnelle sous la rubrique « Expérience » et les compétences pertinentes sous « Compétences ». Cependant, dans d'autres situations, comme le dépistage du cancer, les données seront beaucoup plus variées. Les informations peuvent prendre la forme d'une imagerie médicale, des résultats d'un dépistage physique ou même d'une conversation entre le médecin et le patient sur les antécédents familiaux et les cas de cancer, entre autres formes de données. Pour que ces informations contribuent à un algorithme de détection précis, elles doivent être soigneusement organisées et annotées pour garantir que le modèle d'IA apprenne à faire des prédictions précises basées sur les bonnes inférences.
4. À jour
Amazon tentait de créer un outil qui permettrait d'économiser du temps et de l'argent en reproduisant les mêmes décisions d'embauche que les humains prennent en beaucoup moins de temps. Afin de rendre les recommandations aussi précises que possible, les données devraient être tenues à jour. Si une entreprise montrait une fois une préférence pour des candidats capables de réparer des machines à écrire, par exemple, ces embauches historiques n'auraient probablement pas beaucoup d'incidence sur l'aptitude des candidats à un emploi d'aujourd'hui pour tout type de poste. Par conséquent, il serait judicieux de les supprimer.
5. Diversité appropriée
Les ingénieurs d'Amazon ont choisi de former un algorithme avec un bassin de candidats majoritairement masculin. Cette décision était une erreur critique, et elle n'est pas moins flagrante du fait qu'il s'agissait des curriculum vitae dont disposait l'entreprise à l'époque. Les ingénieurs d'Amazon auraient pu s'associer à des organisations réputées ayant des postes disponibles qui avaient reçu plus de candidatures féminines pour combler le manque, ou cela aurait pu réduit artificiellement le nombre de CV d'hommes pour qu'il corresponde au nombre de femmes et formés et guidé l'algorithme avec une représentation plus précise de la population. Le fait est que les données la diversité est la clé, et à moins qu'un effort concerté ne soit fait pour éliminer les biais dans les entrées, les sorties biaisées seront prévaloir.
De toute évidence, des données de haute qualité n'apparaissent pas de nulle part. Au lieu de cela, il doit être soigneusement organisé avec les résultats escomptés à l'esprit. Dans le domaine de l'IA, on dit souvent que « garbage in signifie garbage out ». Cette affirmation est vraie, mais elle sous-estime quelque peu l'importance de la qualité. L'IA peut traiter des quantités incroyables d'informations et les transformer en n'importe quoi, des choix d'actions aux recommandations d'embauche en passant par les diagnostics médicaux. Cette capacité dépasse de loin la capacité des humains, ce qui signifie également qu'elle amplifie les résultats. Un recruteur humain biaisé ne pouvait ignorer qu'un certain nombre de femmes, mais un recruteur d'IA biaisé pourrait les ignorer toutes. En ce sens, les déchets ne signifient pas seulement les déchets – cela signifie qu'une petite quantité de données « poubelles » peut se transformer en une décharge complète.
Naviguer dans des demandes de conformité complexes
Comme si trouver des données de qualité n'était pas assez difficile, certaines des industries qui ont le plus à gagner des innovations en matière de données d'IA sont également les plus réglementées. Les soins de santé en sont peut-être le meilleur exemple, et bien qu'une enquête de HIT Infrastructure ait révélé que 91 % des initiés de l'industrie pensent que la technologie pourrait améliorer l'accès aux soins, cet optimisme est tempéré par le fait que 75 % la considèrent comme une menace pour la sécurité et la vie privée des patients. – et les patients ne sont pas les seuls à risque.
Les réglementations radicales promulguées par le biais de la loi sur la portabilité et la responsabilité en matière d'assurance maladie croisent désormais divers obstacles locaux à la conformité des données, tels que le règlement général européen sur la protection des données, le California Consumer Privacy Act aux États-Unis et le Personal Data Protection Act à Singapour. Ces réglementations locales seront rejointes par beaucoup d'autres, et à mesure que la télésanté apparaît comme une source plus importante de données sur la santé, il est probable que les réglementations aient une emprise encore plus stricte sur les données des patients en transit. En conséquence, la plate-forme cloud sécurisée et conforme de Shaip s'avérera être un moyen encore plus précieux d'amasser et d'accéder aux données de santé pour former des produits d'IA.
Les informations personnellement identifiables peuvent constituer une menace importante pour le développement de votre IA, mais même une implémentation totalement conforme est menacée si elle ne peut pas fournir le type de résultats précis qui ne viennent qu'avec diverses données de formation. Une étude de 2020 dans le Journal of the American Medical Association a démontré que les algorithmes d'apprentissage automatique dans le domaine médical sont le plus souvent formés avec des données de patients en Californie, à New York et au Massachusetts. Étant donné que ces patients représentent moins d'un cinquième de la population américaine, sans parler du reste du monde, il est difficile d'imaginer comment ces modèles pourraient produire autre chose que des résultats biaisés.
Surmonter les obstacles au développement de l'IA
Les efforts de développement de l'IA comportent des obstacles importants, quelle que soit l'industrie dans laquelle ils se déroulent, et le processus pour passer d'une idée réalisable à un produit réussi est semé d'embûches. Entre les défis d'acquérir les bonnes données et la nécessité de les anonymiser pour se conformer à toutes les réglementations pertinentes, il peut sembler que construire et former un algorithme est la partie facile.
Pour donner à votre organisation tous les avantages nécessaires dans l'effort de conception d'un nouveau développement d'IA révolutionnaire, vous voudrez envisager de vous associer à une entreprise comme Shaip. Chetan Parikh et Vatsal Ghiya ont fondé Shaip pour aider les entreprises à concevoir les types de solutions qui pourraient transformer les soins de santé aux États-Unis. clients à transformer des idées convaincantes en solutions d'IA.
Avec nos employés, nos processus et notre plate-forme travaillant pour votre organisation, vous pouvez immédiatement débloquer les quatre avantages suivants et catapulter votre projet vers une fin réussie :
1. La capacité de libérer vos data scientists
Il est indéniable que le processus de développement de l'IA prend un temps considérable, mais vous pouvez toujours optimiser les fonctions que votre équipe passe le plus de temps à exécuter. Vous avez embauché vos data scientists parce qu'ils sont experts dans le développement d'algorithmes avancés et de modèles d'apprentissage automatique, mais la recherche démontre systématiquement que ces travailleurs passent en réalité 80 % de leur temps à rechercher, nettoyer et organiser les données qui alimenteront le projet. Plus des trois quarts (76 %) des data scientists déclarent que ces processus de collecte de données banals sont également les parties les moins appréciées de leur travail, mais le besoin de données de qualité ne leur laisse que 20 % de leur temps pour le développement réel, ce qui est le travail le plus intéressant et le plus stimulant intellectuellement pour de nombreux scientifiques des données. En se procurant des données via un fournisseur tiers tel que Shaip, une entreprise peut laisser ses ingénieurs de données coûteux et talentueux externaliser leur travail en tant que concierges de données et passer leur temps sur les parties des solutions d'IA où ils peuvent produire le plus de valeur.
2. La capacité d'obtenir de meilleurs résultats
S'appuyer sur des données open source est un autre raccourci courant qui comporte son propre ensemble d'écueils. Le manque de différenciation est l'un des plus gros problèmes, car un algorithme formé à l'aide de données open source est plus facilement répliqué qu'un algorithme basé sur des ensembles de données sous licence. En empruntant cette voie, vous invitez la concurrence d'autres entrants dans l'espace qui pourraient faire baisser vos prix et prendre des parts de marché à tout moment. Lorsque vous faites confiance à Shaip, vous accédez à des données de la plus haute qualité rassemblées par une main-d'œuvre habile et gérée, et nous pouvons vous accorder une licence exclusive pour un ensemble de données personnalisé qui empêche les concurrents de recréer facilement votre propriété intellectuelle durement gagnée.
3. Accès à des professionnels expérimentés
Avec des experts du domaine identifiant, organisant, catégorisant et étiquetant les données pour vous, vous savez que les informations utilisées pour former votre algorithme peuvent produire les meilleurs résultats possibles. Nous menons également une assurance qualité régulière pour nous assurer que les données répondent aux normes les plus élevées et fonctionneront comme prévu non seulement dans un laboratoire, mais également dans une situation réelle.
4. Un calendrier de développement accéléré
Le développement de l'IA ne se fait pas du jour au lendemain, mais il peut arriver plus rapidement lorsque vous vous associez à Shaip. La collecte et l'annotation des données en interne créent un goulot d'étranglement opérationnel important qui retarde le reste du processus de développement. Travailler avec Shaip vous donne un accès instantané à notre vaste bibliothèque de données prêtes à l'emploi, et nos experts seront en mesure de trouver tout type d'entrées supplémentaires dont vous avez besoin grâce à notre connaissance approfondie de l'industrie et à notre réseau mondial. Sans le fardeau de la recherche et de l'annotation, votre équipe peut se mettre immédiatement au travail sur le développement réel, et notre modèle de formation peut aider à identifier les inexactitudes précoces afin de réduire les itérations nécessaires pour atteindre les objectifs de précision.
Si vous n'êtes pas prêt à externaliser tous les aspects de la gestion de vos données, Shaip propose également une plate-forme basée sur le cloud qui aide les équipes à produire, modifier et annoter plus efficacement différents types de données, y compris la prise en charge des images, de la vidéo, du texte et de l'audio. . ShaipCloud comprend une variété d'outils de validation et de workflow intuitifs, tels qu'une solution brevetée pour suivre et surveiller les charges de travail, un outil de transcription pour transcrire des enregistrements audio complexes et difficiles, et un composant de contrôle qualité pour garantir une qualité sans compromis. Mieux encore, il est évolutif, il peut donc évoluer à mesure que les diverses exigences de votre projet augmentent.
L'ère de l'innovation en IA ne fait que commencer, et nous verrons des progrès et des innovations incroyables dans les années à venir qui ont le potentiel de remodeler des industries entières ou même de modifier la société dans son ensemble. Chez Shaip, nous voulons utiliser notre expertise pour servir de force de transformation, aidant les entreprises les plus révolutionnaires au monde à exploiter la puissance des solutions d'IA pour atteindre des objectifs ambitieux.
Nous avons une expérience approfondie des applications de soins de santé et de l'IA conversationnelle, mais nous avons également les compétences nécessaires pour former des modèles pour presque tous les types d'applications. Pour plus d'informations sur la façon dont Shaip peut vous aider à faire passer votre projet de l'idée à la mise en œuvre, consultez les nombreuses ressources disponibles sur notre site Web ou contactez-nous dès aujourd'hui.