ALIBI (élargissement de la fenêtre contextuelle)

ALiBi, ou Attention with Linear Biases, est une méthode de positionnement qui permet aux modèles de langage Transformer de traiter, lors de l'inférence, des séquences plus longues que celles sur lesquelles ils ont été entraînés. ALiBi réalise cela sans utiliser de véritables embeddings de position. Au lieu de cela, en calculant l'attention entre une certaine clé et une requête, ALiBi pénalise la valeur d'attention que la requête peut attribuer à la clé en fonction de la distance entre la clé et la requête. Ainsi, lorsque la clé et la requête sont proches, la pénalité est très faible, et lorsque elles sont éloignées, la pénalité est très élevée.

Cette méthode est motivée par la simple observation que les mots qui sont proches ont beaucoup plus d'importance que ceux qui sont éloignés. Cette méthode est aussi rapide que les méthodes d'embedding sinusoïdal ou absolu (les méthodes de positionnement les plus rapides qui existent). Elle surpasse ces méthodes et les embeddings rotatifs lors de l'évaluation de séquences plus longues que celles sur lesquelles le modèle a été entraîné (ce qui est appelé extrapolation).

Pourquoi est-ce important ?

ALiBi est important car il permet aux modèles de langage Transformer de gérer des séquences plus longues que celles sur lesquelles ils ont été initialement formés. Cela ouvre la voie à des applications dans lesquelles des informations contextuelles plus longues sont nécessaires pour une meilleure compréhension du texte. En élargissant la fenêtre contextuelle, ALiBi améliore les performances des modèles de langage et leur capacité à traiter des tâches complexes nécessitant une prise en compte d'un contexte plus large.

Comment est-ce utilisé en 2023 ?

En 2023, ALiBi est utilisé dans les modèles de langage Transformer pour permettre la manipulation de séquences plus longues. Il est utilisé lors de l'inférence pour traiter des textes qui dépassent la longueur des données d'entraînement. Cette capacité est particulièrement utile dans des domaines tels que la traduction automatique, la génération de texte, l'analyse de sentiment et bien d'autres, où une compréhension du contexte étendu est essentielle. ALiBi est utilisé pour améliorer les performances des modèles sur ces tâches et pour les adapter à des scénarios réels nécessitant une prise en compte d'un contexte plus large et diversifié.