01-转录组上游分析-概述、fastq、准备工作

2025/1/3 11:16:00 来源：https://blog.csdn.net/weixin_57975238/article/details/143667226 浏览: 次关键词：01-转录组上游分析-概述、fastq、准备工作

from 生物技能树

文章目录

转录组测序分析
一、转录组分析一般流程
需要理解的知识点
fastq数据格式
二、Linux复习
- 在这里插入图片描述 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/3f4a5ffea73b4f499759acc8fa91d945.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6e27120b06f840d7a8f572354bbfea5b.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a516143d1eb4495a88ba1586b57b84e5.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/c870f1ecc2b04d129de034846fbe159e.png)
三、准备工作
- 1.工作目录管理
- - 1.1 目录一览
  - 1.2 详细命令
四、课后习题答案

转录组测序分析

一、转录组分析一般流程

在这里插入图片描述

需要理解的知识点

1：测序原理-边合成边测序（SBS）：

SBS（Sequencing-By-Synthesis）：通过单分子阵列实现在小型芯片（Flowcell）上进行桥式PCR 反应。通过可逆阻断技术实现每次只合成一个碱基，再利用四种带有不同荧光标记的碱基，通过荧光激发/捕获，读取碱基信息基于可逆终止的、荧光标记dNTP，边合成边测序
2：双端测序，得到的文件每个样本有2个fastq文件，指的是read1和read2
3：测序得到的是荧光信号，根据荧光信号定量

fastq数据格式

在这里插入图片描述

二、Linux复习

在这里插入图片描述

三、准备工作

1.工作目录管理

这部分非常重要，拥有一个优秀的工作习惯比什么都重要

1.1 目录一览

在这里插入图片描述

1.2 详细命令

在这里插入图片描述

四、课后习题答案

1.统计reads_1.fq文件种共有多少条reads？

# NR表示行号
# %表示取余数
zless  SRR1039510_1.fastq.gz | grep "@SRR" -c
zless  SRR1039510_1.fastq.gz | grep '^@SRR' |wc -l
zless -S SRR1039510_1.fastq.gz | paste - - - - |wc -l
zless  SRR1039510_1.fastq.gz |wc -l | awk '{print $0/4}'
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2) {print} }' |wc -l# sed 版本 课后习题

2.输出reads_1.fq文件中所有的序列ID（即第一行）

zless  SRR1039510_1.fastq.gz | grep '^@SRR'  |less -S
zless  SRR1039510_1.fastq.gz | paste - - - - |cut -f 1 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==1){print}}' |less -S

3.输出SRR1039510_1.fastq.gz文件中所有的序列（即第二行）

zless  SRR1039510_1.fastq.gz | paste - - - - |cut -f 2 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==2){print}}' |less -S

4.统计SRR1039510_1.fastq.gz碱基总数

# 简单版本
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |tr -d '\n' |wc -m
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |grep -o [ATCGN] |wc -l# awk的高阶用法：BEGIN END模块
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2){print} }' | awk 'BEGIN {num=0} {num=num+length($0)}  END{ print "num="num}'