Tutorial prático do Fastp (Conda)

Fastp logo

Workflow com Fastp: pipeline completo de QC de FASTQ

Fala, pessoal! Bora falar sobre o Fastp Ferramenta ultrarrápida para pré-processamento de FASTQ. ?
Quem já trabalhou com dados de sequenciamento sabe a dor de cabeça que pode ser preparar arquivos FASTQ: precisa rodar uma ferramenta pra fazer o trimming, outra pra filtrar leituras ruins, depois ainda conferir a qualidade com um programa separado…
O Fastp chegou justamente pra simplificar essa história. Ele junta em um único pacote o que antes exigia várias etapas e ferramentas como Trimmomatic e Cutadapt. Além de ser bem mais rápido, ele foi pensado para pipelines modernas de bioinformática. Com ele, você consegue fazer filtragem Remove leituras de baixa qualidade ou contaminadas. , trimming Corta bases de baixa qualidade nas extremidades das leituras. e até controle de qualidade Avalia a qualidade geral das leituras e gera estatísticas detalhadas. em um só comando. E o melhor: ao final ele gera relatórios bonitos em HTML Relatório interativo para inspeção manual da qualidade. (pra você explorar na mão) e em JSON Formato estruturado para análise automatizada em pipelines. (perfeito pra integrar no fluxo automático).

Resumindo: o Fastp é tipo aquele canivete suíço do pré-processamento de FASTQ. Depois que você se acostuma com ele, fica difícil voltar a fazer cada etapa em uma ferramenta separada.

O que você vai precisar antes:

Conda — instalação aqui
WSL/Linux — tutorial aqui
SRA-Tools — útil para baixar FASTQs públicos (guia)

Neste guia vamos montar um pipeline completo de controle de qualidade Fluxo que cobre desde a checagem inicial até a consolidação final dos relatórios. para dados de sequenciamento, incluindo:

Avaliação inicial dos FASTQs (pré-trimming com Falco)
Trimming e filtragem com Fastp
Nova checagem de qualidade (pós-trimming com Falco)
Consolidação final com MultiQC

gif

1. Preparação do ambiente

Baixe e extraia os arquivos de exemplo:

wget 'https://drive.google.com/uc?export=download&id=11kdJnIvsXiOn3-dRKsAz4ATokhCo-gAW' -O analise_dados.tgz
tar -xvzf analise_dados.tgz

Os arquivos de exemplo disponibilizados no Drive servem apenas para facilitar a prática das aulas. Se preferir, você pode usar seus próprios dados ou até baixar FASTQs públicos pelo SRA-Tools.

Crie a estrutura de pastas:

mkdir analise_dados/aula_1
cd analise_dados/aula_1

mkdir adaptadores pre_trim pos_trim
mkdir pre_trim/ pos_trim/

wget https://raw.githubusercontent.com/usadellab/Trimmomatic/main/adapters/TruSeq3-PE.fa
mv TruSeq3-PE.fa adaptadores/
mv ../meta_aula_1_L001* pre_trim/

Crie o ambiente único:

conda create -n qc -c bioconda -c conda-forge fastp falco multiqc -y
conda activate qc

qc é o nome que a gente deu e é o nome do ambiente (vem de "quality control"). Dentro dele você já terá fastp, falco e multiqc.

2. Avaliação da qualidade (pré-trimming)

Entre na pasta pre_trim e rode o Falco nos FASTQs brutos:

cd pre_trim
mkdir -p results
falco *.fastq.gz -o results/

O falco é um substituto ultrarrápido do FastQC, ideal para inspeção inicial de qualidade.

3. Trimming e filtragem com Fastp

Agora rode o Fastp para remover adaptadores, cortar regiões de baixa qualidade e descartar reads ruins:

fastp \
  -i meta_aula_1_L001_R1_001.fastq.gz \
  -I meta_aula_1_L001_R2_001.fastq.gz \
  -o ../pos_trim/meta_aula_trim_1_L001_R1_001.fastq.gz \
  -O ../pos_trim/meta_aula_trim_1_L001_R2_001.fastq.gz \
  --dont_eval_duplication \
  --cut_right --cut_right_window_size 4 --cut_right_mean_quality 20 \
  --length_required 36 \
  --average_qual 20 \
  --adapter_fasta ../adaptadores/TruSeq3-PE.fa

Principais parâmetros:

Parâmetro	Descrição
`--cut_right`	Ativa corte adaptativo no fim das reads.
`--cut_right_window_size 4`	Tamanho da janela de corte dinâmico.
`--cut_right_mean_quality 20`	Qualidade mínima da janela (Q20).
`--length_required 36`	Descarta reads menores que 36 pb.
`--average_qual 20`	Remove reads com qualidade média abaixo de Q20.
`--adapter_fasta`	Arquivo com sequências de adaptadores (ex.: TruSeq3-PE).

O Fastp gera automaticamente relatórios .html e .json para inspeção e integração em pipelines.

4. Avaliação da qualidade (pós-trimming)

Agora rode o Falco nos arquivos processados:

cd ../pos_trim
mkdir -p results
falco *.fastq.gz -o results/

Compare os relatórios pré e pós trimming para validar a limpeza dos dados.

5. Consolidação dos relatórios com MultiQC

Use o MultiQC para juntar tudo em um único relatório:

multiqc results/ -o multiqc_report/ -c multiqc_config.yaml -m fastqc -v

Isso gera multiqc_report.html, que você pode abrir no navegador e visualizar todos os relatórios juntos.

Não sabe o que é o MultiQC ou ficou em dúvida sobre o que está acontecendo? Confira o tutorial completo do MultiQC.

Conclusão

Você concluiu um pipeline completo de controle de qualidade para FASTQ:

Pré-QC com Falco
Trimming e filtragem com Fastp
Pós-QC com Falco
Consolidação com MultiQC

Esse fluxo garante dados limpos, relatórios organizados e reprodutibilidade do começo ao fim.

Agora seus dados estão prontos para análises downstream.

Desafio!!!

E se você integrar esse fluxo em um Snakefile ou Nextflow pipeline?
Isso garante ainda mais reprodutibilidade e automação!
Até a próxima!

gif

Dê um suporte ao meu projeto. Doe um cafézinho ☕.
Pix: biologolee@gmail.com
Bitcoin: bc1qg7qrfhclzt3sm60en53qv8fmwpuacfaxt5v55k

QR Code

Tutorial prático do Fastp (Conda)

Workflow com Fastp: pipeline completo de QC de FASTQ

Passo a passo

1. Preparação do ambiente

2. Avaliação da qualidade (pré-trimming)

3. Trimming e filtragem com Fastp

Principais parâmetros:

4. Avaliação da qualidade (pós-trimming)

5. Consolidação dos relatórios com MultiQC

Conclusão

Desafio!!!

Referências