Développé par | Internet Archive |
---|---|
Dernière version | 3.4.0-20240909 ()[1] |
Dépôt | github.com/internetarchive/heritrix3 |
Écrit en | Java |
Environnement | Linux/Windows |
Formats lus | WARC (en) |
Formats écrits | WARC (en) |
Type | Robot d'indexation |
Licence | Apache 2.0 |
Documentation | github.com/internetarchive/heritrix3/wiki |
Site web | Heritrix |
Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation.
Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première publication officielle a eu lieu en , et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés.