logtrix

Parses and summarises Heritrix crawl logs

Лицензия

Лицензия

Категории

Категории

Сеть
Группа

Группа

org.netpreserve
Идентификатор

Идентификатор

logtrix
Последняя версия

Последняя версия

0.1.0
Дата

Дата

Тип

Тип

jar
Описание

Описание

logtrix
Parses and summarises Heritrix crawl logs
Ссылка на сайт

Ссылка на сайт

https://github.com/iipc/logtrix
Система контроля версий

Система контроля версий

https://github.com/iipc/logtrix

Скачать logtrix

Как подключить последнюю версию

<!-- https://jarcasting.com/artifacts/org.netpreserve/logtrix/ -->
<dependency>
    <groupId>org.netpreserve</groupId>
    <artifactId>logtrix</artifactId>
    <version>0.1.0</version>
</dependency>
// https://jarcasting.com/artifacts/org.netpreserve/logtrix/
implementation 'org.netpreserve:logtrix:0.1.0'
// https://jarcasting.com/artifacts/org.netpreserve/logtrix/
implementation ("org.netpreserve:logtrix:0.1.0")
'org.netpreserve:logtrix:jar:0.1.0'
<dependency org="org.netpreserve" name="logtrix" rev="0.1.0">
  <artifact name="logtrix" type="jar" />
</dependency>
@Grapes(
@Grab(group='org.netpreserve', module='logtrix', version='0.1.0')
)
libraryDependencies += "org.netpreserve" % "logtrix" % "0.1.0"
[org.netpreserve/logtrix "0.1.0"]

Зависимости

compile (4)

Идентификатор библиотеки Тип Версия
org.slf4j : slf4j-api jar 1.7.25
com.fasterxml.jackson.core : jackson-databind jar 2.9.8
com.fasterxml.jackson.datatype : jackson-datatype-jsr310 jar 2.9.8
com.google.guava : guava jar 27.1-jre

test (2)

Идентификатор библиотеки Тип Версия
junit : junit jar 4.12
org.slf4j : slf4j-simple jar 1.7.25

Модули Проекта

Данный проект не имеет модулей.

logtrix

Examples

Parsing a log file

try (CrawlLogIterator log = new CrawlLogIterator(Paths.get("crawl.log"))) {
    for (CrawlDataItem line : log) {
        System.out.println(line.getStatusCode());
        System.out.println(line.getURL());
    }
}

Grouping the summary by various things

CrawlSummary.byRegisteredDomain(log);
CrawlSummary.byHost(log);
CrawlSummary.byKey(log, item -> item.getCaptureBegan().toString().substring(0, 4)); // by year

Limit top N results

CrawlSummary.build(log).topN(10); // top 10 status codes, mime-types etc

Working with status codes

StatusCodes.describe(404);      // "Not found"
StatusCodes.describe(-4);       // "HTTP timeout"
StatusCodes.isError(-4);        // true
StatusCodes.isServerError(503); // true

Command-line interface

Output a JSON crawl summary grouped by registered domain:

java -jar target/*.jar -g registered-domain crawl.log

For more options:

java -jar target/*.jar --help

Compiling

Install Maven and then run:

mvn package
org.netpreserve

IIPC

International Internet Preservation Consortium

Версии библиотеки

Версия
0.1.0