Trois benchmarks pour évaluer la puissance des systèmes d'IA

Au fur et à mesure de l'émergence de l'intelligence artificielle ces dernières années, les benchmarks se sont multipliés pour évaluer ses performances. Trois classements font désormais figure de référence sur le marché, chacun renvoyant à une étape du cycle de l'IA. Centré sur la phase de développement, MLPerf estime la capacité des infrastructures informatique à entrainer les réseaux de neurones. Très complémentaire, Xtreme mesure la vélocité intrinsèque des réseaux de neurones artificiels pour apprendre rapidement. Il cible plus particulièrement le traitement automatique du langage (NLP), l'un des domaines de l'IA les plus complexes. En aval, AI-Benchmark jauge quant à lui la qualité de service rendue en bout de course par les objets connectés et smartphones aux clients finaux.

Benchmark MLPerf (30 juin 2021) 

La vocation du classement MLPerf ? Proposer un indice des architectures de calcul les mieux optimisées pour entrainer les réseaux de neurones. Il est porté par le consortium ML Commons qui regroupe aussi bien des acteurs de l'IA (Facebook, Google, Microsoft) que des constructeurs de matériel optimisé pour le machine learning (AMD, IBM, Intel, Nvidia).

Couvrant les librairies de deep learning les plus populaires (MxNet, PyTorch et TensorFlow), MLPerf s'articule autour de huit tests couvrant à la fois la vision par ordinateur, la reconnaissance vocale, le NLP et le reinforcement learning. Pour chacun, un modèle de référence a été retenu (cf. colonne de droite dans le tableau ci-dessous).

Les 9 tests de l’indice MLPerf
DomaineBenchmarkData setModèle de référence
VisionClassification d'imagesImageNetResNet-50 v1.5
VisionSegmentation d'image médicaleKiTS193D U-Net
VisionReconnaissance d'image (poids léger)COCOSSD
VisionReconnaissance d'image (poids lourd)COCOMask R-CNN
LangueReconnaissance vocaleLibriSpeechRNN-T
LangueTraitement automatique du langageWikipedia BERT-large
CommerceRecommandation1TB de Clics de logsDLRM
RechercheReinforcement learningGoMini Go 

Le classement MLPerf se décline en classements secondaires. Des palmarès centrés par exemple sur la performance des supercalculateurs (HPC) en matière d'apprentissage machine (étape de développement). Ou encore sur la vitesse d'exécution des modèles après leur déploiement, qu'il soit mis en œuvre sur des configurations HPC ou, à l'inverse, sur des nano-ordinateurs monocartes type Raspberry Pi. Certains acteurs, au premier rang desquels Nvidia, n'hésitent pas à brandir l'indice MLPerf comme argument commercial. Difficile de leur donner tort tant ce benchmark fait désormais référence dans le landernau de la data science.

Benchmark orienté NLP

Classement Xtreme
 Modèle de deep learningEditeurMoyenneClassification de texte Saisie automatique Gestion multilingueIdentification de phrases
1CoFeiFLYTEK84.190.181.475.094.2
2Turing ULR v5Microsoft83.790.081.474.393.7
3InfoXLM-XFTHuawei82.289.375.575.292.4
4VECO + HICTLAlibaba82.089.076.773.493.3
5PolyglotByteDance81.788.380.671.990.8
6Unicoder + ZCodeMicrosoft81.688.476.272.593.7
7ERNIE-MBaidu80.987.975.672.391.9
8HiCTLAlibaba80.889.074.471.992.6
9T-ULRv2 + StableTuneMicrosoft80.788.875.472.989.3
10Anonymous3Anonymous379.988.274.671.789.0

Face à l'émergence de technos de NLP conçues pour gérer simultanément des dizaines de langues, Google a mis au point un benchmark  pour évaluer cette nouvelle génération de modèles. Baptisé Cross-lingual TRansfer Evaluation of Multilingual Encoders (Xtreme), il estime leurs capacités de traitement en couvrant 40 langues. Pour évaluer leur pertinence, il déroule neuf tests ciblant quatre grandes problématiques : la classification de textes, la saisie automatique, l'identification de phrases et, enfin, la réponse à des questions multilingues.

Ce qui intéresse les concepteurs de Xtreme, ce n'est pas la puissance de calcul ni la vitesse de traitement, mais bien la précision des résultats finaux comparé à ce qui est attendu. Pour être recevables, les tests doivent porter sur des modèles entrainés sur un processeur GPU unique, et s'étaler sur une journée maximum. "L'objectif est de rendre le benchmark abordable le plus largement possible dans la communauté, y compris à des équipes ne disposant pas de ressources de calcul importantes", indique le document de référence du projet.

Benchmark de l'IA des smartphones

Classement du machine learning des téléphones mobiles Android
 Modèle de smartphone AndroidProcesseurMémoire viveIndice de performance
1.Google Pixel 6 ProGoogle Tensor12GB RAM303.6
2.Google Pixel 6Google Tensor8GB RAM293.4
3.Huawei P50 ProKirin 90008GB RAM234.6
4.Oppo Find X3 ProSnapdragon 88812GB RAM205.4
5.Sony Xperia 1 IIISnapdragon 88812GB RAM202.6
6.Samsung Galaxy S21 UltraExynos 210012GB RAM202.1
7.Realme GT Neo2TMediaTek Dimensity 1200AI12GB RAM173.8
8.OnePlus Nord 2 5GMediaTek Dimensity 1200AI8GB RAM172.7
9.Huawei Mate 40Kirin 9000E8GB RAM170.2
10.Realme GT NeoMediaTek Dimensity 120012GB RAM155.8

Lui-aussi reconnu sur le segment de l'IA, le classement d'Ai-Benchmark passe au crible plusieurs centaines de smartphones Android. Seuls les 10 premiers sont publiés ici (cf. tableau ci-dessus). Pour dresser son indice, AI-Benchmark met les téléphones portables à l'épreuve de 46 tests, principalement centrés sur la vision par ordinateur : classification ou reconnaissance d'objets, reconnaissance faciale, reconnaissance optique de caractères, modernisation d'ancienne photo, défloutage, amélioration de la résolution d'images...

Pour chaque test, plusieurs indicateurs sont évalués par AI-Benchmark : temps d'initialisation, rapidité d'exécution, précision des résultats (cf. détails sur son site). Les principaux cas d'usage de l'IA sur smartphone concernant jusqu'ici la caméra, il n'est pas surprenant qu'AI-Benchmark ait choisi de se concentrer sur ce volet. Mais ses tests intègrent d'autres fonctionnalités à base d'IA, également prisées dans ce domaine, l'auto-complétion de texte par exemple. Aux côtés des smartphones, Ai-Benchmark applique également sa méthodologie aux processeurs dessinés pour l'IoT ou encore aux Socs (Systèmes sur une puce).

Bientôt le quantique

Chaque génération de système informatique aura vu émerger ses benchmarks. L'IA n'échappe pas à la règle. Qu'en sera-t-il de la prochaine génération de classements dans le secteur numérique ? Elle pourrait bien concerner l'informatique quantique dont l'avènement ne serait plus qu'une question d'années à en croire les chercheurs. Les premières ébauches de méthodes comparatives appliquées aux supercalculateurs quantiques ont d'ailleurs déjà vu le jour. Parmi les acteurs investis sur la question figurent IBM (ce n'est pas une surprise) mais aussi plusieurs start-up, dont Quantum Circuits et IonQ, qui viennent de publier conjointement un article sur le sujet.

Voir la source
Espace publicitaire · 300×250