Heritrix

Heritrix
Description de l'image Heritrix logo.png.
Description de l'image Heritrix-screenshot.png.
Informations
Développé par Internet ArchiveVoir et modifier les données sur Wikidata
Dernière version 3.4.0-20240909 ()[1]Voir et modifier les données sur Wikidata
Dépôt github.com/internetarchive/heritrix3Voir et modifier les données sur Wikidata
Écrit en JavaVoir et modifier les données sur Wikidata
Environnement Linux/Windows
Formats lus WARC (en)Voir et modifier les données sur Wikidata
Formats écrits WARC (en)Voir et modifier les données sur Wikidata
Type Robot d'indexation
Licence Apache 2.0
Documentation github.com/internetarchive/heritrix3/wikiVoir et modifier les données sur Wikidata
Site web Heritrix

Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation.

Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première publication officielle a eu lieu en , et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés.

  1. « Release 3.4.0-20240909 », (consulté le )