Tutorial prático do Fastp (Conda)

Fastp logo

Workflow com Fastp: pipeline completo de QC de FASTQ

Fala, pessoal! Bora falar sobre o Fastp Ferramenta ultrarrápida para pré-processamento de FASTQ. ?
Quem já trabalhou com dados de sequenciamento sabe a dor de cabeça que pode ser preparar arquivos FASTQ: precisa rodar uma ferramenta pra fazer o trimming, outra pra filtrar leituras ruins, depois ainda conferir a qualidade com um programa separado…
O Fastp chegou justamente pra simplificar essa história. Ele junta em um único pacote o que antes exigia várias etapas e ferramentas como Trimmomatic e Cutadapt. Além de ser bem mais rápido, ele foi pensado para pipelines modernas de bioinformática. Com ele, você consegue fazer filtragem Remove leituras de baixa qualidade ou contaminadas. , trimming Corta bases de baixa qualidade nas extremidades das leituras. e até controle de qualidade Avalia a qualidade geral das leituras e gera estatísticas detalhadas. em um só comando. E o melhor: ao final ele gera relatórios bonitos em HTML Relatório interativo para inspeção manual da qualidade. (pra você explorar na mão) e em JSON Formato estruturado para análise automatizada em pipelines. (perfeito pra integrar no fluxo automático).

Resumindo: o Fastp é tipo aquele canivete suíço do pré-processamento de FASTQ. Depois que você se acostuma com ele, fica difícil voltar a fazer cada etapa em uma ferramenta separada.

O que você vai precisar antes:

Neste guia vamos montar um pipeline completo de controle de qualidade Fluxo que cobre desde a checagem inicial até a consolidação final dos relatórios. para dados de sequenciamento, incluindo:

  • Avaliação inicial dos FASTQs (pré-trimming com Falco)
  • Trimming e filtragem com Fastp
  • Nova checagem de qualidade (pós-trimming com Falco)
  • Consolidação final com MultiQC

gif


Passo a passo

  1. Preparação do ambiente
  2. Avaliação da qualidade (pré-trimming)
  3. Trimming e filtragem com Fastp
  4. Avaliação da qualidade (pós-trimming)
  5. Consolidação dos relatórios com MultiQC

1. Preparação do ambiente

Baixe e extraia os arquivos de exemplo:

wget 'https://drive.google.com/uc?export=download&id=11kdJnIvsXiOn3-dRKsAz4ATokhCo-gAW' -O analise_dados.tgz
tar -xvzf analise_dados.tgz
Os arquivos de exemplo disponibilizados no Drive servem apenas para facilitar a prática das aulas. Se preferir, você pode usar seus próprios dados ou até baixar FASTQs públicos pelo SRA-Tools.

Crie a estrutura de pastas:

mkdir analise_dados/aula_1
cd analise_dados/aula_1

mkdir adaptadores pre_trim pos_trim
mkdir pre_trim/ pos_trim/

wget https://raw.githubusercontent.com/usadellab/Trimmomatic/main/adapters/TruSeq3-PE.fa
mv TruSeq3-PE.fa adaptadores/
mv ../meta_aula_1_L001* pre_trim/

Crie o ambiente único:

conda create -n qc -c bioconda -c conda-forge fastp falco multiqc -y
conda activate qc
qc é o nome que a gente deu e é o nome do ambiente (vem de "quality control"). Dentro dele você já terá fastp, falco e multiqc.

2. Avaliação da qualidade (pré-trimming)

Entre na pasta pre_trim e rode o Falco nos FASTQs brutos:

cd pre_trim
mkdir -p results
falco *.fastq.gz -o results/
O falco é um substituto ultrarrápido do FastQC, ideal para inspeção inicial de qualidade.

3. Trimming e filtragem com Fastp

Agora rode o Fastp para remover adaptadores, cortar regiões de baixa qualidade e descartar reads ruins:

fastp \
  -i meta_aula_1_L001_R1_001.fastq.gz \
  -I meta_aula_1_L001_R2_001.fastq.gz \
  -o ../pos_trim/meta_aula_trim_1_L001_R1_001.fastq.gz \
  -O ../pos_trim/meta_aula_trim_1_L001_R2_001.fastq.gz \
  --dont_eval_duplication \
  --cut_right --cut_right_window_size 4 --cut_right_mean_quality 20 \
  --length_required 36 \
  --average_qual 20 \
  --adapter_fasta ../adaptadores/TruSeq3-PE.fa

Principais parâmetros:

Parâmetro Descrição
--cut_right Ativa corte adaptativo no fim das reads.
--cut_right_window_size 4 Tamanho da janela de corte dinâmico.
--cut_right_mean_quality 20 Qualidade mínima da janela (Q20).
--length_required 36 Descarta reads menores que 36 pb.
--average_qual 20 Remove reads com qualidade média abaixo de Q20.
--adapter_fasta Arquivo com sequências de adaptadores (ex.: TruSeq3-PE).
O Fastp gera automaticamente relatórios .html e .json para inspeção e integração em pipelines.

4. Avaliação da qualidade (pós-trimming)

Agora rode o Falco nos arquivos processados:

cd ../pos_trim
mkdir -p results
falco *.fastq.gz -o results/
Compare os relatórios pré e pós trimming para validar a limpeza dos dados.

5. Consolidação dos relatórios com MultiQC

Use o MultiQC para juntar tudo em um único relatório:

multiqc results/ -o multiqc_report/ -c multiqc_config.yaml -m fastqc -v
Isso gera multiqc_report.html, que você pode abrir no navegador e visualizar todos os relatórios juntos.
Não sabe o que é o MultiQC ou ficou em dúvida sobre o que está acontecendo? Confira o tutorial completo do MultiQC.

Conclusão

Você concluiu um pipeline completo de controle de qualidade para FASTQ:

  • Pré-QC com Falco
  • Trimming e filtragem com Fastp
  • Pós-QC com Falco
  • Consolidação com MultiQC

Esse fluxo garante dados limpos, relatórios organizados e reprodutibilidade do começo ao fim.

Agora seus dados estão prontos para análises downstream.


Desafio!!!

E se você integrar esse fluxo em um Snakefile ou Nextflow pipeline?
Isso garante ainda mais reprodutibilidade e automação!
Até a próxima!

gif


Dê um suporte ao meu projeto. Doe um cafézinho ☕.
Pix: biologolee@gmail.com
Bitcoin: bc1qg7qrfhclzt3sm60en53qv8fmwpuacfaxt5v55k

QR Code


Referências

  1. Documentação oficial do Conda
  2. SRA-Tools (Wiki oficial)
  3. fastp — repositório oficial
  4. fastp: an ultra-fast all-in-one FASTQ preprocessor (Bioinformatics, 2018)
  5. Pacote fastp no Bioconda
  6. Falco — repositório oficial
  7. Falco: high-speed FastQC emulation (Nucleic Acids Research, 2021)
  8. MultiQC — site oficial