Aller au contenu

Execution sur plusieur echantillons

L'exécution du pipeline sur quelques échantillons est relativement simple, mais lorsque nous devons l'exécuter sur des centaines d'échantillons, il peut devenir un peu compliqué de taper chaque commande. Pour cela, il est possible d'utiliser la fonction batch.

usage: tb-profiler batch [-h] --csv CSV [--args ARGS] [--jobs JOBS]
                         [--threads_per_job THREADS_PER_JOB] [--dir DIR]
                         [--temp TEMP] [--version]

optional arguments:
  -h, --help            show this help message and exit
  --csv CSV             CSV with samples and files (default: None)
  --args ARGS           Arguments to use with tb-profiler (default: None)
  --jobs JOBS, -j JOBS  Threads to use (default: 1)
  --threads_per_job THREADS_PER_JOB, -t THREADS_PER_JOB
                        Threads to use (default: 1)
  --dir DIR, -d DIR     Storage directory (default: .)
  --temp TEMP           Temp firectory to process all files (default: .)
  --version             show program's version number and exit

Ici, vous pouvez fournir un fichier CSV avec les rubriques suivantes :

  • id - ceci sera utilisé pour nommer les fichiers (obligatoire)
  • read1 - la voie pour les reads forward
  • read2 - a voie pour les reads reverse
  • bam - la voie pour les fichiers bam/cram
  • vcf - la voie pour les fichiers vcf
  • fasta - la voie pour les fichiers fasta

Chaque ligne doit contenir au moins le champ id et au moins l'un des champs du fichier d'entrée en fonction des données dont vous disposez.