Common Crawl - Lexique Le Bon LLM

Common Crawl est une organisation à but non lucratif qui parcourt le web et fournit librement ses archives et ses ensembles de données au public. L'archive web de Common Crawl est constituée de pétaoctets de données collectées depuis 2008. Elle réalise généralement des parcours tous les mois.

Pourquoi est-ce important ?

Common Crawl est important car il offre un accès ouvert à une vaste quantité de données web, ce qui est précieux pour une multitude d'applications allant de la recherche en informatique à l'analyse du marché. En rendant ces données accessibles au public, Common Crawl permet aux chercheurs et aux développeurs qui n'ont pas les ressources pour parcourir le web eux-mêmes d'accéder néanmoins à un large échantillon de données en ligne. De plus, les archives de Common Crawl respectent les politiques nofollow et robots.txt, ce qui signifie qu'elles sont recueillies de manière éthique.

Comment est-ce utilisé en 2023 ?

En 2023, Common Crawl est utilisé dans une variété d'applications. Par exemple, il est utilisé dans la recherche en informatique pour former des modèles d'apprentissage automatique, étudier les tendances du web, et analyser le langage et la communication en ligne. Il est également utilisé par les entreprises pour l'analyse du marché, la veille économique et l'analyse concurrentielle. La version la plus récente de l'ensemble de données Common Crawl (en mars 2023) indique que 46% des documents avaient l'anglais comme langue principale, suivis par le russe, l'allemand, le chinois, le japonais, le français et l'espagnol, tous en dessous de 6%. Cela reflète la diversité linguistique du web et la portée mondiale de Common Crawl.