35 lines
9.0 KiB
Markdown
35 lines
9.0 KiB
Markdown
---
|
||
title: 06-01-Daily
|
||
weight: 30
|
||
breadcrumbs: false
|
||
comments: true
|
||
description: Récemment, l'équipe d'intelligence du langage naturel du Tongyi Lab a
|
||
dévoilé et rendu open source VRAG-RL – un framework d'inférence RAG multimodal à
|
||
perception visuelle. Son but ? Régler le casse-tête de l'IA quand il s'agit de récupérer
|
||
des infos clés et de faire de l'inférence fine à partir d...
|
||
---
|
||
# Infos IA du 1er juin 2025
|
||
|
||
1. Récemment, l'équipe d'intelligence du langage naturel du **Tongyi Lab** a **dévoilé et rendu open source VRAG-RL** – un **framework d'inférence RAG multimodal à perception visuelle**. Son but ? Régler le casse-tête de l'**IA** quand il s'agit de récupérer des infos clés et de faire de l'**inférence fine** à partir de **langages visuels** comme des images ou des tableaux. Ses mécanismes d'apprentissage par renforcement et de perception visuelle innovants ont vachement amélioré la compréhension et l'efficacité de la récupération d'infos visuelles. Ce framework a **cartonné** sur plusieurs datasets de référence et pourrait bien, à l'avenir, doper la **capacité de généralisation** des modèles pour diverses tâches visuelles. Pour en savoir plus, jette un œil [ici](https://github.com/Alibaba-NLP/VRAG).
|
||
2. Un groupe de chercheurs de l'Arizona State University a **publié une étude** soulignant que les **grands modèles de langage** ne font pas de **vraie inférence** ; ils se contentent de **chercher des corrélations entre les données**. Ça pourrait mener à des **malentendus** du public sur leur fonctionnement. L'étude insiste : à l'heure où on dépend de plus en plus de l'**IA**, il faut qu'on **soit plus vigilants** quant aux capacités technologiques. La **recherche en IA** devrait, à l'avenir, s'orienter vers des modèles plus **explicables**.
|
||
3. **Perplexity AI** a **officiellement lancé Perplexity Labs**, offrant aux abonnés Pro un **nouvel outil de productivité IA** qui permet la **collaboration multi-outils**. Il peut simplifier des processus de développement de projets complexes en quelques minutes, avec pour objectif d'offrir un **support de A à Z**, de l'idée au résultat. Cette fonctionnalité, avec des **capacités clés** comme la navigation web approfondie et l'exécution de code, marque la **transformation** de Perplexity, passant d'un moteur de réponses à une **plateforme de production IA complète**.
|
||
4. **Quark** a **récemment mis en ligne sa fonctionnalité "Recherche Approfondie"**. Basée sur le **grand modèle Tongyi Qianwen**, elle peut automatiser tout le processus de recherche, de la collecte de données à la **génération de rapports**, pour des sujets complexes comme des travaux académiques ou des analyses sectorielles. Cette initiative marque un nouveau saut de l'**IA**, qui passe d'un **outil de recherche d'informations** à un **partenaire de création de contenu**, offrant un **soutien super efficace** pour la recherche scientifique, l'analyse de marché, et bien d'autres cas d'usage.
|
||
5. **Alibaba Cloud** a **officiellement lancé Tongyi Lingma AI IDE**, un environnement de développement d'intelligence artificielle natif. Grâce à ses puissantes fonctionnalités de **mode agent de programmation**, de **mémoire à long terme** et de **prédiction de suggestions in-line**, il booste clairement l'**efficacité de programmation** des développeurs. Ce produit est déjà **disponible en téléchargement gratuit**, et ses plugins ont généré plus de 3 milliards de lignes de code cumulées, en faisant un outil d'assistance à la programmation super populaire qui offre un **gros coup de pouce** pour le développement en entreprise.
|
||
6. **Memvid** est un **outil de mémoire IA super innovant**. En **encodant des données textuelles en vidéos MP4**, il permet une **recherche sémantique ultra-rapide en moins d'une seconde**, économisant un max d'espace de stockage et supportant l'utilisation hors ligne. Il a une **fonction chat intégrée**, supporte l'**importation de documents PDF**, et offre des **possibilités inédites et révolutionnaires** pour des domaines comme la **gestion efficace des connaissances** et la **recherche académique**. Pour en savoir plus, jette un œil [ici](https://github.com/Olow304/memvid).
|
||
7. Dario Amodei, le PDG d'Anthropic, a **mis en garde** : l'**IA** pourrait, dans les cinq prochaines années, **remplacer la moitié des postes de cols blancs d'entrée de gamme**, ce qui entraînerait une **flambée du chômage** à 10-20% et **accentuerait les inégalités économiques**. Il a appelé à une meilleure **sensibilisation** du public au développement de l'**IA** et à une meilleure **littératie en IA**, afin que les gens puissent s'adapter au futur environnement professionnel. Il a aussi insisté sur le fait que les décideurs politiques doivent cogiter sur des **solutions** pour une économie super intelligente.
|
||
8. La startup IA **Manus** a **lancé en grande pompe sa fonctionnalité Manus Slides**. Il suffit d'un prompt pour **générer en un clic des diapos pro**, couvrant divers scénarios comme les réunions d'affaires ou les cours éducatifs, ce qui **booste considérablement l'efficacité de création de présentations**. Grâce à sa **génération intelligente** et son **édition flexible**, cette fonction permet d'exporter au format PowerPoint ou PDF, marquant ainsi un pas en avant des **agents IA**, qui évoluent de l'automatisation des tâches vers des **outils de productivité**.
|
||
9. Avec **7086 étoiles** sur GitHub, **prompt-eng-interactive-tutorial** est le projet open source du **tutoriel interactif d'ingénierie de prompts** d'Anthropic. Il vise à aider les utilisateurs à **apprendre l'ingénierie de prompts de manière ludique et efficace**. Pour plus de détails, va voir [ici](https://github.com/anthropics/prompt-eng-interactive-tutorial).
|
||
10. Le projet **onlook**, qui a décroché **10143 étoiles**, est un **éditeur de code visuel open source axé sur l'ambiance**. Il utilise l'**IA** pour aider designers et développeurs à **construire, embellir et éditer visuellement des applications React**. Cet outil, c'est comme le **curseur** d'un designer, rendant le **développement React** plus **intuitif et efficace**. Pour plus d'infos, c'est par [là](https://github.com/onlook-dev/onlook).
|
||
11. Le projet **anthropic-cookbook**, avec **12755 étoiles**, est une **collection de notebooks/recettes** d'Anthropic qui **montre comment utiliser Claude de manière ludique et efficace**. Il offre aux utilisateurs une panoplie de **façons d'utiliser Claude**, et c'est un [lien pratique](https://github.com/anthropics/anthropic-cookbook) pour **apprendre et appliquer Claude**.
|
||
12. **MMSI-Bench** est un **benchmark VQA** pour l'**intelligence spatiale multi-images**. L'étude a révélé que, même si les grands modèles de langage multimodaux (MLLM) ont progressé, il y a un **fossé énorme** entre leur précision (30-40%) et celle des humains (97%) quand il s'agit de **raisonnement spatial multi-images**. Cette recherche a identifié quatre modes d'échec principaux pour les modèles, et offre des **pistes précieuses** pour booster l'**intelligence spatiale multi-images** à l'avenir. Pour les détails de l'étude, c'est par [ici](https://arxiv.org/abs/2505.23764).
|
||
13. **ZeroGUI** est un **framework d'apprentissage en ligne super innovant**. Il automatise l'**entraînement des agents GUI avec zéro coût humain**, et, grâce à la génération automatique de tâches et à l'évaluation des récompenses basées sur VLM, il gère la **forte dépendance** de l'apprentissage GUI traditionnel à l'annotation manuelle. Les tests ont montré que ce framework améliore considérablement les **performances des agents GUI** dans divers environnements, et il apporte une **solution hyper efficace** pour l'**automatisation des opérations GUI**. Pour les détails de l'étude, c'est par [là](https://arxiv.org/abs/2505.23762).
|
||
14. **ATLAS** est un module de mémoire à long terme haute capacité conçu pour les architectures **Transformer**. Il surmonte les limites des modèles actuels en **compréhension de longues séquences** en optimisant le **contexte de mémoire**, et apprend ainsi la meilleure stratégie de mémoire au moment du test. Les résultats des tests montrent qu'**ATLAS** surpasse les modèles Transformer et récurrents linéaires dans des tâches comme la modélisation linguistique et la compréhension de longs contextes, **boostant significativement les performances**. Pour les détails de l'étude, c'est par [ici](https://arxiv.org/abs/2505.23735).
|
||
|
||
---
|
||
|
||
#### **Écoute la version audio**
|
||
|
||
| 🎙️ **小宇宙** | 📹 **抖音** |
|
||
| --- | --- |
|
||
| [来生小酒馆](https://www.xiaoyuzhoufm.com/podcast/683c62b7c1ca9cf575a5030e) | [来生情报站](https://www.douyin.com/user/MS4wLjABAAAAwpwqPQlu38sO38VyWgw9ZjDEnN4bMR5j8x111UxpseHR9DpB6-CveI5KRXOWuFwG)|
|
||
|  |  | |