Wat is HDTP?
HDTP is een afkorting voor High-Throughput Tabular Data Processor. Deze Java-applicatie is bedoeld om gegevensverkenning en reductie van taken in grote tekstbestanden mogelijk te maken. De software is geoptimaliseerd voor micro matrix en diepgaande parallelle sequencing-gegevens, maar kan ook door tekens gescheiden tabellarische gegevenssets accepteren. In het laatste geval moet de eerste rij van de gegevensset worden aangewezen als titelrij en de namen van de overeenkomstige kolommen bevatten. HTDP kan ook Variant Call Format(VCF)-bestanden versies 4.0, 4.1 en 4.2 importeren, verwerken en converteren. HTDP biedt snelle filterfunctionaliteit en kan gegevens verwerken die bestaan uit enkele of meerdere invoerbestanden. Bestanden in verschillende ondersteunde formaten kunnen tegelijkertijd worden verwerkt. De verwerkte gegevens kunnen worden geëxporteerd als door tabs gescheiden bestanden.

Features;
  • werkt met alle tekens gescheiden kolomgegevens (bijvoorbeeld BED, GFF, GTF, WIG, VCF)
  • voeg verticale en horizontale tabulaire gegevensbestanden samen
  • voeg tabulaire gegevensbestanden samen met gelijke locatie of gemeenschappelijke kolom(men)
  • onbeperkte filter- en gegevensreductiemogelijkheden
  • bestanden met verschillende gegevensformaten en inhoud kunnen tegelijkertijd worden geanalyseerd

Systeemvereisten
  • Minimum JRE: 1.6.0 (getest met versie 1.6.0ga5)


HDTP op een eComStation machine met Open JDK


Installeren van HDTP
Download HTDP.tar.gz. Maak op je harde schijf een nieuwe map(directory) met de naam "htdp". Open het bestand "HTDP.tar.gz", je krijgt de map(directory) "HTDP.tar". Open deze map(directory) en je krijgt de map(directory) "HTDP". Kopieer de inhoud naar de nieuw gemaakte map(directory) "htdp". Je kunt ook de map(directory) "HTDP" naar je schijf kopiëren, maar Ik hou niet van map(directory) namen in hoofdletters.

Er is ook een handleiding, misschien heb je het nodig. Je kunt dan s1_user_manual_20171229.pdf downloaden.

Het gebruikte cmd bestand
HDTP werkt met Open JDK in OS/2-eCS. Ik heb een "htdp.cmd" bestand met de volgende inhoud;
@echo off
set BEGINLIBPATH=[station: java]\JAVA160ga5\bin
set path=[station: java]\JAVA160ga5\bin
set CLASSPATH= 
[station: htdp]
cd [station: htdp]\htdp
java -Xmx800m -Duser.home=[station: htdp]\htdp -jar htdp.jar 2>htdp-bugs.txt
Ik gebruik 2 aparte mappen(directories), een voor Java en een voor HDTP. De in het cmd bestand gebruikte verwijzingen;

  • [station: java] = station met Java
  • [station: htdp] = station met HDTP

moet worden vervangen door echte schijfletters. Bewerk en sla het bestand "htdp.cmd" uit de distributie op. Dit bestand wordt gekopieerd naar de "htdp" map(directory). Verder kunnen paden anders zijn, pas dit naar behoefte aan.

Maak een nieuw programma object aan. Geef pad en de bestandsnaam op: "[station: htdp]\htdp\htdp.cmd". In het tabblad Sessie de selectievakjes "OS/2 venster", "Starten als pictogram" en "Venster sluiten bij einde programma" aanvinken. In het tabblad Algemeen kan bij naam "HDTP" worden opgegeven. Een OS/2-pictogram is beschikbaar in onderstaande distributie.

Parameters / opties verklaard
  • Met de opgave "-Duser.home=[station: htdp]\htdp" wordt ervoor gezorgd dat HDTP alle benodigde bestanden (indien van toepassing) in de eigen map(directory) opslaat inplaats van in de Home directory.
  • De specificatie "-Xmx800m" komt uit de handleiding en de website. De "-Xmx800m" geeft de maximale limiet aan. Met grote datafiles kan het net zo ver gaan als de limieten van je systeem, voor OS/2 systemen betekent dit een bronbestand van maximaal ongeveer 170 MB (afhankelijk van het type bestand) en dit kan dan ongeveer 3,5 Gb geheugen kosten. Nog groter lijkt geen probleem voor het programma.
  • De opgave "2>htdp-bugs.txt" zorgt ervoor dat alle probleem meldingen (bugs) worden bewaard in het bestand "htdp-bugs.txt". De 2 in "2>" is geen typefout! Het bestand blijft op mijn systeem leeg.

Werken met het programma
Als ik een nieuw programma probeer is het eerste wat ik test of het menu werkt en of er help beschikbaar is. Het vragen om hulp gaf de foutmelding dat het bestand "HTDP.jaruser_manual.pdf" niet kon worden gevonden. Dus ik heb de handleiding gedownload en het deze naam gegeven. De foutmelding bleef gelijk. Ik had nog geen geheugenspecificatie opgenomen. Ik had problemen met de afmetingen van de lay-out, ik had de handleiding nog niet gelezen. De afbeelding toont een export uit een database in Data Crow. Het bestand van Data Crow werd direct gelezen zonder bewerking of vertaling.

Download
In het bestand zitten bovenstaande cmd bestanden (alle schijfletters staan op C:) en een OS/2 HDTP icoontje: htdp-ecs.zip.

revisie 9 januari 2018