Schlagwort-Archive: tail

Es geht bergauf!

Es geht bergauf und es ist nicht schön. Jetzt hatten wir wochenlang Teillockdown und die Diskussionen gingen gerade los, wer zuerst aufmachen darf, mit Frisören und Schulen in Reihe eins, und dann sowas!

Für Mo., Di., Mi. und Do. zeigt der Wochentagsgraph (basierend auf den Daten von worldometers) hinten einen kleinen Anstieg – allerdings nicht für Fr. (gestern).

Woher sind die Grapen? Nun, mit einem Script selbst generiert. Der schleichende Durchschnitt hat auch seine Berechtigung – zumindest der über 7 Tage, in dem über 3 Tage sehe ich keinen Sinn, und die Haifischzähne im Wochenverlauf scheinen ein globales Phänomen zu sein.

Ich fürchte, dass während die Zahlen maßnahmenbedingt zurückgingen stiegen gleichzeitig die Zahlen durch die Mutanten im Untergrund an, und jetzt haben sich die beiden Trends gekreuzt. Ich bin da aber natürlich Laie, wie viele andere auch.

Das Basteln der ersten Graphen war noch viel Handarbeit, aber dann wurde es von mir teilautomatisiert, so dass das Script die Daten jeden Tag neu runterlädt.

#!/bin/bash
# 
# Coronadaten von worldometers nach Wochentag getrennt anzeigen
#
# @DONE: Lines einfärben nach Wochentag
# @DONE: Automatisieren. 
#
# Lizenz: GPLv3  
#

yvals=($(wget -O - https://www.worldometers.info/coronavirus/country/germany/ 2>/dev/null | sed -ne "s/,/ /g; /name: 'Daily Cases'/,/]/ {s/data: \[null//; s/].*}//p}"))

ny=${#yvals[@]}

for i in $(seq 0 $((ny-1)))
do
	echo -e "$i\t${yvals[$i]}"
done > xy.dat

tag=(dummy Sa So Mo Di Mi Do Fr)
farbe=(dummy black blue olive red dark-grey grey web-green)

max () {
	echo $@ | tr " " "\n" | sort -n | tail -n 1
}

maxy=$(max ${yvals[@]})

zeros=${maxy//[0-9]/0}
top=$((${maxy:0:2}+1))${maxy:3:-0}${zeros:2}
echo top $top

# leeren
echo >  plot7.plt

# In 7-Tagesschritten von Sa. bis Fr. (weil Sa. 1. Meßpunkt ist, Sa:=1) durchlaufen, getrennte Dateien erzeugen
for i in {1..7}; do sed -n "$i~7p" xy.dat > wotag-$i-${tag[$i]}.csv ; done
# Gnuplot-Datei erzeugen
for i in {1..7}; do
	echo "
	set term qt
	set xrange [0:$((ny*105/100))]
	set yrange [0:$top]
	set title \"${tag[$i]}\"
	plot \"wotag-$i-${tag[$i]}.csv\" using 1:2 with linespoint lc \"${farbe[$i]}\"
	set output  \"wotag-$i-${tag[$i]}.png\"
	set term png
	replot"
done >> plot7.plt
gnuplot -p plot7.plt
# eog: Eye-of-Gnome Bildbetrachter.
eog wotag-[1-7]-*.png

(Update 22.2.’21 Das Ausgabeformat habe ich nachträglich auf png geändert (set term png; set output ….png) und den Bildbetrachteraufruf eog am Ende angefügt.)

Anfangs speicherte ich die Seite vom Browser aus im Modus „Seitenquelltext anzeigen“. Er liefert keine fertige Bilddatei aus, sondern die Daten und generiert aus diesen die Grafik on the fly. So kommt man also einfach an die Daten.

Zu Beginn zeigt das Script einen Shebang, der dem Kernel sagt, wie das Programm auszuführen ist. Es folgen Kommentare mit der Gnu-Public-Lizence.

Dann der Code, um das HTML als Datei runterzuladen, dafür nimmt man wget.

yvals=($(wget -O - https://www.worldometers.info/coronavirus/country/germany/ 2>/dev/null | sed -ne "s/,/ /g; /name: 'Daily Cases'/,/]/ {s/data: [null//; s/].*}//p}"))

Mit -O gibt man den Outputort an, meist einen Dateinamen, aber wie viele Shellwerkzeuge, kann auch wget ein isoliertes Minuszeichen übergeben werden, dann wird die Ausgabe auf Stdout, den Bildschirm, ausgegeben.

Aber wget ist geschwätzig und zeigt mit großem Brimborium an, wieviel Prozent schon runtergeladen wurden, Datum, Uhrzeit, Url, IP-Adresse und weiß der Teufel – den Müll kann man mit 2>/dev/null ins Nirwana umleiten.

Der restliche Output wird mit einer Pipe an Sed geleitet, den Stream-Editor, spezialisiert für solche Jobs und mit einer konzentrierten Syntax ausgestattet, um die Ausgabe zu schneiden, umzuformen, zu ergänzen, zu manipulieren.

Mit sed wandel ich alle Kommas in Leerzeichen um. Ich will alles in ein großes Array schreiben, und die Syntax sieht so aus:

yvals=(3 4 2 1 9)

Aber die Quelle liefert

data: [3,4,2,1,9]

Auch interessiert mich nur der Abschnitt „Daily Cases“ und darin nur die Zeile „data“. Die nächste, kryptisch wirkende Zeile, ermittelt die Arraygröße.

Die folgende Forschleife läuft durch alle Werte, und gibt Zeilenweise die Indexnummer und die Anzahl bestätigter Neuinfektionen aus. Die Umlenkung hinter der Schleife lenkt all das in eine Datei xy.dat.

ny=${#yvals[@]}

for i in $(seq 0 $((ny-1)))
do
	echo -e "$i\t${yvals[$i]}"
done > xy.dat

Die Beispieldaten oben sähen damit etwa so aus:

0	3
1	4
2	2
3	1
4	9

Dann folgen zwei Arrays mit Namen für die Wochentage – da die Shell ab 0 zählt, aber ich ab 1, habe ich einen dummy für die 0 eingefügt. Ähnlich für die Farben des Graphen.

tag=(dummy Sa So Mo Di Mi Do Fr)
farbe=(dummy black blue olive red dark-grey grey web-green)

max () {
	echo $@ | tr " " "\n" | sort -n | tail -n 1
}

Dann sehen wir eine max-Funktion. Sie übergibt alle Argumente des Arrays, die mit Leerzeichen getrennt sind, und ersetzt die Leerzeichen mit tr, dem Zeichentranslator, mit Zeilenumbrüchen. Die Zeilen werden mit sort sortiert und tail -n1 nimmt vom Ende eine Zeile, da steht nach Adam Riese das Maximum drin.

Die nächste Zeile ruft die max-Funktion mit unserem Array auf.

maxy=$(max ${yvals[@]})

zeros=${maxy//[0-9]/0}
top=$((${maxy:0:2}+1))${maxy:3:-0}${zeros:2}
echo top $top

Dann folgt eine komplexe Häßlichkeit, die einen Wert wie 31554 nimmt, die 31 vorne abschneidet, zu 32 hochrechnet, und 000 hinten anhängt aber auch mit Werten zwischen 100 und 99999999 zurechtkommen sollte.

Sie dient dazu dem Plotprogramm zu sagen, wie groß der y-Wert werden darf, aber einen aufgerundeten Wert zu verwenden mit etwas Luft nach oben. Da die Werte je nach Wochentag gehörig schwanken führt die automatische Range-auswertung von gnuplot sonst dazu, dass der Achsenmaßstab von Tag zu Tag schwankt.

# leeren
echo >  plot7.plt

Dies löscht die plot7.plt-Datei von gestern oder neulich. Dann schreibe ich, wieder mit sed, das ein Kommando dafür hat, jede 7. Zeile in eine Datei, und das für 7 unterschiedliche Startwerte, sprich Wochentage, in 7 unterschiedliche Zieldateien (.csv).

for i in {1..7}
do
  sed -n "$i~7p" xy.dat > wotag-$i-${tag[$i]}.csv
done

Dann werden je Wochentag ca. 8 Befehle in die Plotdatei geschrieben.

# Gnuplot-Datei erzeugen
for i in {1..7}; do
	echo "
	set term qt
	set xrange [0:$((ny*105/100))]
	set yrange [0:$top]
	set title \"${tag[$i]}\"
	plot \"wotag-$i-${tag[$i]}.csv\" using 1:2 with linespoint lc \"${farbe[$i]}\"
	set output  \"wotag-$i-${tag[$i]}.png\"
	set term png
	replot"
done >> plot7.plt

Das set term qt setzt die Ausgabe auf den Grafikfenstermodus. QT ist eine Firma, QT-Trolltech o.ä., die eine bekannte, plattformübergreifende Grafikbibliothek für C++ geschrieben hat, ähnlich wie GTK (C) oder Swing (Java).

Mit set xrange [von:bis]` legt man die x-Achse fest. Auch hier lasse ich etwas Luft.

Das `set title XY` bringt die Wochentage von oben ins Bild. Man will nicht im Kopf behalten müssen, dass die Datenerfassung an einem Freitag begann – oder war es Samstag?

Dann wird verklausuliert gesagt, dass die Daten von – Beispielsweise wotag-3-Mo.csv zu plotten sind. Dann ist So=2 und Sa=1, also doch Sa! Using 1:2 sind die Spalten der Datei, mehr gibt’s eh nicht, und linespoint verbindet die Datenpunkte, hebt sie aber auch vor. `lc N` setzt die linecolor, falls das wer manipulieren will. Für jeden Tag gebe ich dann einen Dateinamen an, in den das Ergebnis geschieben werden soll. Man könnte auch png, jpg, pdf usw. wählen.

Mit set term png sage ich dem Programm, dass das Format png sein soll; das extrapoliert gnuplot nicht aus dem Namen.

Oben wurde schon mal plot aufgerufen. Hier reicht ein `replot`, wenn man keinen Parameter ändern will. Das eine zeigt am Schirm in einem Fenster an, das andere schreibt in eine Datei.

Die Befehle werden aber nicht unmittelbar ausgeführt, sondern in eine Datei geschrieben und am Ende wird gnuplot aufgerufen, um die Aktionen durchzuführen.

Dabei wird die Bildschirmausgabe aber so schnell durchlaufen, dass man außer dem letzten Bild nichts sieht. Zur Kontrolle, ob nichts schiefläuft, sollte das reichen.

Alle Dateien landen im aktuellen Verzeichnis, also empfiehlt es sich dafür ein neues Verzeichnis anzulegen.

Zusammengefügt habe ich ursprünglich 7 svg-Dateien von Hand.

Das habe nun zu PNG geändert, denn die lassen sich mit einem Betrachter wie eog leicht alle ansehen, oder als Referenzen in ein SVG laden, das sich dann automatisch aktualisiert, wenn die Dateien mit altem Namen und neuen Daten überschrieben werden.

Die CSV-Dateien sind z.Zt. kl. als 500 Bytes, die PNGs < 6kb, je.

Das Datum aus den xValues zu extrahieren ist möglich, aber eine lesbare Ausgabe daraus zu bauen ist mir zu viel Gefummel.

So sieht die fertige Plotdatei aus (hier noch mit SVGs):

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Sa"
	plot "wotag-1-Sa.csv" using 1:2 with linespoint lc "black"
	set output  "wotag-1-Sa.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "So"
	plot "wotag-2-So.csv" using 1:2 with linespoint lc "blue"
	set output  "wotag-2-So.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Mo"
	plot "wotag-3-Mo.csv" using 1:2 with linespoint lc "olive"
	set output  "wotag-3-Mo.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Di"
	plot "wotag-4-Di.csv" using 1:2 with linespoint lc "red"
	set output  "wotag-4-Di.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Mi"
	plot "wotag-5-Mi.csv" using 1:2 with linespoint lc "dark-grey"
	set output  "wotag-5-Mi.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Do"
	plot "wotag-6-Do.csv" using 1:2 with linespoint lc "grey"
	set output  "wotag-6-Do.svg"
	set term svg
	replot

	set term qt
	set xrange [0:388]
	set yrange [0:32000]
	set title "Fr"
	plot "wotag-7-Fr.csv" using 1:2 with linespoint lc "web-green"
	set output  "wotag-7-Fr.svg"
	set term svg
	replot

Diese Ranges könnte man vor den Rest rausziehen, aber das ist mehr Arbeit als Nutzen. Fragen zum Script beantworte ich gerne.

Man benötigt Linux, bei dem die meisten Tools mit an Bord sind (tr, bash, sed, sort, tail) oder leicht nachinstalliert werden können (gnuplot, wget). Unter Windows ist es für jemanden, der nicht schon Erfahrungen mit Scripten hat, mühsam, alles zu installieren und einzurichten, aber möglich. Macs haben ja ein Open-BSD als Basis, inklusive Bash, da sollte es fast so leicht sein wie unter Linux.

 – WordPress Ministatistik, DIY – 

wp-mini-statistik

Vor 2-3 Tagen hat WordPress die Ministatistik, wie ich sie in etwa oben nachgemalt habe – einen Screenshot habe ich nicht – aus der Ansicht geworfen. Wer selbst keinen Blog hat, kennt das gar nicht – auch ich bekomme die nur auf meinem eigenen Blog angezeigt, nicht auf dem anderer Leute. Das war ein Minibalkendiagramm, das stündlich aktualisiert wurde, wenn man die Seite neu lud, und die letzten 48 h umfasste, erinnerte, je nach Besucherzahlen, manchmal an das Ciscologo, welches seinerseits auch an eine Hängebrücke erinnert.

Wer einen Premiumaccount hat, kann da vielleicht auch eigene Widgets platzieren. In dem von mir verwendeten 0-8-15-Layout im Free-Tarif war das allerdings keine Option die man aus-, abwählen oder platzieren konnte.

Ich habe es gleich schmerzlich vermisst. Bei den Einstellungsoptionen fand ich keinen passenden Ersatz. Unter Design/Widgets/Blogstatistik fand ich lediglich einen Zähler aller Besucher, der, wenn man die Überschrift und die Einheiten löscht, so aussieht:

zaehler

Den sehen jetzt alle, was mich nicht stört, außer der Platzverbrauch, aber man sieht natürlich nicht mehr wie viele pro Stunde da waren und muss die Zahl vom letzten Mal im Kopf haben, um daraus den jüngsten Verkehr abzuleiten. Nichts, womit ich mich belasten will, aber eine Basis um selbst was zu bauen.

Wer sein eigenes WordPressblog selbst hostet hat andere Möglichkeiten, aber da ich mich nicht um die Internas des Blogs kümmern will, absichern, Backups und das alles, muss ich mir anders behelfen.

Eine Webseite kann man auch programmgesteuert abrufen. Gut – das machen ja auch Firefox, Chromium, Safari und Opera, aber diese stellen sie auch grafisch dar. Man kann einfach den HTML-Code runterladen, und in diesem sieht der Zähler so aus (Zeilenumbrüche und Einrückung im Original anders):

<div id=“secondary“ class=“widget-area“ role=“complementary“>
<aside id=“blog-stats-4″ class=“widget widget_blog-stats“>

<h3 class=“widget-title“></h3>
<ul>
<li>184,914 </li>
</ul>
</aside>

Anhand der Zahl ist der Block leicht zu finden. Den Quellcode kann man sich auch im Browser ansehen, aber man will ja nicht stündlich die eigene Webseite manuell speichern, also das erledigt man mit wget:

wget https://demystifikation.wordpress.com/

für andere Webseiten eben mit einer anderen Adresse. Weil ich den Widget-Titel im Design gelöscht habe ist das leer bei mir. Gespeichert wird das runtergeladene unter index.html. Allerdings brauche ich gar nicht die ganze Datei sondern will da nur einen Teil aausfiltern, deswegen sage ich mit -O wo der Output hinsoll, und mit einem verlorenen Minuszeichen, dass es auf die Konsole ausgegeben werden soll.

wget -q https://demystifikation.wordpress.com/ -O -

Das -q steht für quiet und unterdrückt irgendwelche Statusmeldungen von wget, wieviel Prozent der Arbeit schon geleistet ist, und solchen Firlefanz.

Den Output filtere ich dann mit grep auf die Zeile, die den HTML-Code ‚<aside id=“blog-stats-4‘ enthält, wobei -A1 bewirkt, dass eine zusätzliche Zeile ausgegeben wird, und als zweiten Filter nutze ich sed, dem ich sage, dass ich vom Listitem nur die Folge an Ziffern und Kommazeichen will, und das Kommazeichen soll dann auch weg.

sed -nr "s/.*<li>([0-9,]+).<\/li>.*/\1/;s/,//p"

Wer oft HTML, XHTML und XML-Code parsen muss wird vielleicht lieber zu einem Tool wie xmlstarlet greifen, welches den Vorteil hat, robust gegenüber Zeilenumbrüchen zu sein oder dem Vorkommen von Suchbegriffen in Kommentaren, aber das ist hier nicht zu erwarten. Sollte sich das HTML ändern, dann womöglich auch gleich soviel, dass einem das auchnicht weiterhilft.

Im ganzen sieht die Kette dann so aus:

counter=$(wget -q https://demystifikation.wordpress.com/ -O - | grep -A1 '<aside id="blog-stats-4' | sed -nr "s/.*<li>([0-9,]+).<\/li>.*/\1/;s/,//p")

Jetzt steht in der Variablen counter nur noch die Zahl 184914 und gespeichert wurde gar nichts.

lastcount=$(< ~/.blogcounter)
increase=$((counter-lastcount))
#
old=$(date -r ~/.blogcounter +%s)
now=$(date +%s) 
timespan=$((now-old))
#
heat=$(test $timespan -ge 0 && echo $((increase*3600/timespan)) || echo "--")

Dann sage ich

  • lastcount soll der Inhalt der Datei ~/.blogcounter sein, eine versteckte Datei, die das Programm später selbst schreiben wird, so dass es beim ersten Mal einen Fehler meldet, weil die Datei nicht vorhanden ist.
  • increase ist einfach die Differenz von altem Counter und Istzustand
  • old ist der Zeitstempel der Datei Blogcounter in Sekunden seit dem 1.1.1970
  • timespan ist die Zeitdifferenz zu now, also jetzt

 

heat=$(test $timespan -gt 0 && echo $((increase*3600/timespan)) || echo "--")

Heat sollen die mittleren Besucher pro Stunde sein seit der letzten Protokollierung, also wenn nach 30 Minuten 10 gezählt wurden 20 und wenn die Messung ausgefallen ist (Rechner aus) eventuell 5, wenn es nach 2 h 10 waren.

Getestet wird, ob die Zeitspanne > (greater than) 0 ist, dann sei heat der Wert der Berechnung, sonst „–“ (Division durch Null vermeiden!).

Jetzt wird es ein wenig kompliziert – wieso?

Nun, einmal will ich das Programm nutzen, um nur die stündlichen Differenzen zu protokollieren. Andererseits will ich jederzeit abfragen können ohne etwas zu protokollieren, etwa weil ein Beitrag von einem Alphablogger verlinkt wird, und plötzlich 1000e Besuche bekommt, so dass ich im 10-Minutentakt nachsehe, was das Volk macht.

test 1$# -gt 10 && test $1 = "-w" && echo $counter > ~/.blogcounter \
|| echo -e "Anzahl Anstieg /h Intervall (min) Messpunkt\n-------------------------------------------------------"

Das test 1$# ist ein furchtbarer Hack. $# ermittelt, wieviele Argumente einem Skript übergeben wurden. Aus unerfindlichen Gründen ist das aber nicht 0, wenn es keine Argumente sind, sondern nix, leer, nada, Nil, void, „“. Und dann scheitert der Test. Also klebe ich eine 1 davor und tesst nicht auf größer als 0, sondern auf größer als 10. Eigentlich müsste es da was eleganteres geben.

Waren es mehr als 0 Argumente prüfe ich, ob der Inhalt des 1. Arguments „-w“ war (w wie write, schreiben). Mit mehr oder anderen Argumenten rechne ich übrigens nicht.

War auch dies prima, dann, und nur dann schreibe ich die aktuelle Zahl in die versteckte Datei, die oben bereits erwähnt wurde. Ansonsten gebe ich eine Überschrift aus.

echo -e "$counter $increase $heat $((timespan/60)) $(date '+%H:%M %F')"

So oder so gebe ich dann die Werte aus, Zählerstand, Differenz, Seitenaufrufe /h seit letzter Messung und das Datum. So sieht ein isolierter Scriptaufruf (blogcounter.sh) aus:

Anzahl Anstieg /h Intervall (min) Messpunkt
-------------------------------------------------------
185203 0        0        22       20:22 2017-01-08

Etwas müde, gerade?

Seit 20 Uhr 0 Besucher, das sind 0 pro Stunde, Messintervall sind 22 Minuten und gemessen heute um 20:22 Uhr.

Außerdem hat Linux ja einen cron-Daemon, der chronologisch Dienste verrichten kann, wenn man im sagt wann und was. Den stellt man so ein:

daemonen

hilfreiche Linuxdaemonen, im Hintergrund wirkend

 0 * * * * /home/stefan/bin/blogcounter.sh -w >> /home/stefan/.bloglog

Das heißt jeweils zur Minute 0, jede Stunde (*), jeden Tag der Woche, des Monats usw. soll das Skript oben, das bei mir unter /home/stefan/bin/blogcounter.sh liegt ausgeführt werden, und die Ausgabe an die Datei /home/stefan/.bloglog angehängt werden (die erstellt wird, wenn sie noch nicht existiert). Das -w unterdrückt die Ausgabe der Überschrift, die man nicht für jede Zeile im Log haben will, und sorgt dafür, dass der Wert auch in die Datei ~/.blogcounter geschrieben wird.

Und dann gibt es noch ein kleines Script bloglog.sh, das so aussieht:

#!/bin/bash
#
# Blogtrafficlog der letzten 48 Stunden ausgeben
#
echo -e "Anzahl Anstieg Heat(/h) Intervall (min) Messpunkt"
echo "-------------------------------------------------------"
tail -n 48 ~/.bloglog | tac

Tail gibt nur die letzten 48 Zeilen der Datei ~/.bloglog aus, tac ist das Gegenteil von cat und gibt die Zeilen in umgekehrter Reihenfolge aus, also die jüngsten zuerst. Je nach Bildschirm und Fontgröße empfiehlt es siich, die Zahl an die eigenen Bedürfnisse anzupassen.

Die Ausgabe von bloglog.sh sieht beispielsweise so aus:

Anzahl Anstieg Heat(/h) Intervall (min) Messpunkt
-------------------------------------------------------
185205  1  1 60 22:00 2017-01-08
185204  1  1 60 21:00 2017-01-08
185203 22 21 60 20:00 2017-01-08
185181  0  0 59 19:00 2017-01-08
185181  4  4 60 18:00 2017-01-08
185177 10 10 60 17:00 2017-01-08
185167  3  2 60 16:00 2017-01-08
185164  7  7 59 15:00 2017-01-08
185157  4  4 60 14:00 2017-01-08
185153  3  3 60 13:00 2017-01-08
185150 185150 187177 59 12:00 2017-01-08
 -185118 -183134 60 11:00 2017-01-08
185118 16 16 60 10:00 2017-01-08
185102  5  4 60 09:00 2017-01-08
185097  0  0 59 08:00 2017-01-08
185097  0  0 60 07:00 2017-01-08
...

Das genaue Layout kann mit WordPressmitteln nicht ohne übermäßigen Aufwand getreu wiedergegeben werden – ich denke so geht es.

Die zwei Zeilen, die hervortreten deuten darauf hin, dass der Counter um 11:00 nicht lesbar war, auf Null gesetzt wurde, so dass die Zahl einbrach um dann hochzuschnellen – ein Grund dafür ist mir nicht erkenntlich, aber es zeigt, dass das Skript insofern robust ist, als es 2 Stunden später wieder brav seinen Job tut.

Pro Stunde fallen ca. 25 Bytes Daten an, das macht 600 am Tag, rd. 220.000 im Jahr und in 100 Jahren 22 MB – dürfte also, selbst wenn es vergessen wird und ständig, über viele Systemaktualisierungen weiterläuft, nie Probleme verursachen.

Hier nochmal das ganze  blogcounter.sh-Skript am Stück:

#!/bin/bash 
#
# Blogcounter ermitteln
# Zahl erfassen
# Differenz zur letzten Messung berechnen
# Differenz ausgeben
# Zahl speichern
# Zeit der letzten Messung erfassen
# Anstieg ermitteln
# Hits pro Stunde ermitteln
#
counter=$(wget -q https://demystifikation.wordpress.com/ -O - | grep -A1 '<aside id="blog-stats-4' | sed -nr "s/.*<li>([0-9,]+).<\/li>.*/\1/;s/,//p")
lastcount=$(< ~/.blogcounter)
increase=$((counter-lastcount))
#
old=$(date -r ~/.blogcounter +%s)
now=$(date +%s) 
timespan=$((now-old))
#
heat=$(test $timespan -gt 0 && echo $((increase*3600/timespan)) || echo "--")
# only write to counter file if param -w was given
# allows for hourly logged values, triggered by cron (with -w) and
# intermediate views without logging 
test 1$# -gt 10 && test $1 = "-w" && echo $counter > ~/.blogcounter || echo -e "Anzahl Anstieg /h Intervall (min) Messpunkt\n-------------------------------------------------------"
#
# Ergebnisse loggen. Das ganze sollte per cron stündlich laufen. Mit e. Script
# die letzten 24 oder 48 Messungen anchauen.
#
# Crontabzeile: 
# 0 * * * * /home/stefan/bin/blogcounter.sh -w >> /home/stefan/.bloglog
#
echo -e "$counter $increase $heat $((timespan/60)) $(date '+%H:%M %F')"

Weiterführende Hilfe bekommt man zu den einzelnen Befehlen mit

  • man wget
  • man sed
  • man tail
  • man date
  • man bash
  • help test
  • man tac
  • man cron
  • man crontab

und zu allen Befehlen, außer test, (was ein Kommando der Bash ist) auch mit PROGRAMM –help.

Ein Register für’s PDF

Kürzlich stand ich vor der Aufagabe ein Orts- und ein Personenregister für ein PDF zu erzeugen. Der Text lag druckfertig als PDF vor. Das Personen- und Ortsregister als Wörstdokument (natürlich!) – ließ sich aber problemlos als Text speichern, so dass jeweils ein Eintrag pro Zeile ausgegeben wurde – unter Umständen eben länger als eine Bildschirmzeile, weil nicht nur der Name dastand, sondern üppig anreichernde Informationen.

Mit Linuxmitteln ist das eine Aufgabe, die sich nicht vollautomatisch erledigen lässt (nicht dass ich wüßte), aber viele Arbeitsschritte lassen sich teilautomatisieren. Sehr zum Nachteil der armen Textverarbeiter kennen diese natürlich nur selten die Möglichkeiten kleiner Programme wie grep, sed, sort, cat, head, tail und all die anderen. Sonst könnten sie sich das Leben oft selbst vereinfachen. Weiterlesen