Tutorial prático do Fastp (Conda)
Workflow com Fastp: pipeline completo de QC de FASTQ
Fala, pessoal! Bora falar sobre o
Fastp
Ferramenta ultrarrápida para pré-processamento de FASTQ.
?
Quem já trabalhou com dados de sequenciamento sabe a dor de cabeça que pode ser
preparar arquivos FASTQ: precisa rodar uma ferramenta pra fazer o trimming, outra pra filtrar leituras ruins,
depois ainda conferir a qualidade com um programa separado…
O Fastp chegou justamente pra simplificar essa história. Ele junta em um único pacote
o que antes exigia várias etapas e ferramentas como Trimmomatic e Cutadapt.
Além de ser bem mais rápido, ele foi pensado para pipelines modernas de bioinformática.
Com ele, você consegue fazer
filtragem
Remove leituras de baixa qualidade ou contaminadas.
,
trimming
Corta bases de baixa qualidade nas extremidades das leituras.
e até
controle de qualidade
Avalia a qualidade geral das leituras e gera estatísticas detalhadas.
em um só comando. E o melhor:
ao final ele gera relatórios bonitos em
HTML
Relatório interativo para inspeção manual da qualidade.
(pra você explorar na mão) e em
JSON
Formato estruturado para análise automatizada em pipelines.
(perfeito pra integrar no fluxo automático).
Resumindo: o Fastp é tipo aquele canivete suíço do pré-processamento de FASTQ. Depois que você se acostuma com ele, fica difícil voltar a fazer cada etapa em uma ferramenta separada.
O que você vai precisar antes:
- Conda — instalação aqui
- WSL/Linux — tutorial aqui
- SRA-Tools — útil para baixar FASTQs públicos (guia)
Neste guia vamos montar um pipeline completo de controle de qualidade Fluxo que cobre desde a checagem inicial até a consolidação final dos relatórios. para dados de sequenciamento, incluindo:
- Avaliação inicial dos FASTQs (pré-trimming com Falco)
- Trimming e filtragem com Fastp
- Nova checagem de qualidade (pós-trimming com Falco)
- Consolidação final com MultiQC
Passo a passo
- Preparação do ambiente
- Avaliação da qualidade (pré-trimming)
- Trimming e filtragem com Fastp
- Avaliação da qualidade (pós-trimming)
- Consolidação dos relatórios com MultiQC
1. Preparação do ambiente
Baixe e extraia os arquivos de exemplo:
wget 'https://drive.google.com/uc?export=download&id=11kdJnIvsXiOn3-dRKsAz4ATokhCo-gAW' -O analise_dados.tgz tar -xvzf analise_dados.tgz
Os arquivos de exemplo disponibilizados no Drive servem apenas para facilitar a prática das aulas. Se preferir, você pode usar seus próprios dados ou até baixar FASTQs públicos pelo SRA-Tools.
Crie a estrutura de pastas:
mkdir analise_dados/aula_1 cd analise_dados/aula_1 mkdir adaptadores pre_trim pos_trim mkdir pre_trim/ pos_trim/ wget https://raw.githubusercontent.com/usadellab/Trimmomatic/main/adapters/TruSeq3-PE.fa mv TruSeq3-PE.fa adaptadores/ mv ../meta_aula_1_L001* pre_trim/
Crie o ambiente único:
conda create -n qc -c bioconda -c conda-forge fastp falco multiqc -y conda activate qc
qc é o nome que a gente deu e é o nome do ambiente (vem de "quality control"). Dentro dele você já teráfastp
,falco
emultiqc
.
2. Avaliação da qualidade (pré-trimming)
Entre na pasta pre_trim
e rode o Falco nos FASTQs brutos:
cd pre_trim mkdir -p results falco *.fastq.gz -o results/
O falco
é um substituto ultrarrápido do FastQC, ideal para inspeção inicial de qualidade.
3. Trimming e filtragem com Fastp
Agora rode o Fastp para remover adaptadores, cortar regiões de baixa qualidade e descartar reads ruins:
fastp \ -i meta_aula_1_L001_R1_001.fastq.gz \ -I meta_aula_1_L001_R2_001.fastq.gz \ -o ../pos_trim/meta_aula_trim_1_L001_R1_001.fastq.gz \ -O ../pos_trim/meta_aula_trim_1_L001_R2_001.fastq.gz \ --dont_eval_duplication \ --cut_right --cut_right_window_size 4 --cut_right_mean_quality 20 \ --length_required 36 \ --average_qual 20 \ --adapter_fasta ../adaptadores/TruSeq3-PE.fa
Principais parâmetros:
Parâmetro | Descrição |
---|---|
--cut_right |
Ativa corte adaptativo no fim das reads. |
--cut_right_window_size 4 |
Tamanho da janela de corte dinâmico. |
--cut_right_mean_quality 20 |
Qualidade mínima da janela (Q20). |
--length_required 36 |
Descarta reads menores que 36 pb. |
--average_qual 20 |
Remove reads com qualidade média abaixo de Q20. |
--adapter_fasta |
Arquivo com sequências de adaptadores (ex.: TruSeq3-PE). |
O Fastp gera automaticamente relatórios.html
e.json
para inspeção e integração em pipelines.
4. Avaliação da qualidade (pós-trimming)
Agora rode o Falco nos arquivos processados:
cd ../pos_trim mkdir -p results falco *.fastq.gz -o results/
Compare os relatórios pré e pós trimming para validar a limpeza dos dados.
5. Consolidação dos relatórios com MultiQC
Use o MultiQC para juntar tudo em um único relatório:
multiqc results/ -o multiqc_report/ -c multiqc_config.yaml -m fastqc -v
Isso gera multiqc_report.html
, que você pode abrir no navegador e visualizar todos os relatórios juntos.
Não sabe o que é o MultiQC ou ficou em dúvida sobre o que está acontecendo? Confira o tutorial completo do MultiQC.
Conclusão
Você concluiu um pipeline completo de controle de qualidade para FASTQ:
- Pré-QC com Falco
- Trimming e filtragem com Fastp
- Pós-QC com Falco
- Consolidação com MultiQC
Esse fluxo garante dados limpos, relatórios organizados e reprodutibilidade do começo ao fim.
Agora seus dados estão prontos para análises downstream.
Desafio!!!
E se você integrar esse fluxo em um Snakefile ou Nextflow pipeline?
Isso garante ainda mais reprodutibilidade e automação!
Até a próxima!
Dê um suporte ao meu projeto. Doe um cafézinho ☕.
Pix: biologolee@gmail.com
Bitcoin: bc1qg7qrfhclzt3sm60en53qv8fmwpuacfaxt5v55k