from 生物技能树
文章目录
- 转录组测序分析
- 一、转录组分析一般流程
- 需要理解的知识点
- fastq数据格式
- 二、Linux复习
- 在这里插入图片描述 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/3f4a5ffea73b4f499759acc8fa91d945.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6e27120b06f840d7a8f572354bbfea5b.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a516143d1eb4495a88ba1586b57b84e5.png) ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/c870f1ecc2b04d129de034846fbe159e.png)
- 三、准备工作
- 1.工作目录管理
- 1.1 目录一览
- 1.2 详细命令
- 四、课后习题答案
转录组测序分析
一、转录组分析一般流程
需要理解的知识点
1:测序原理-边合成边测序(SBS):
SBS(Sequencing-By-Synthesis): 通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR 反应。通过可逆阻断技术实现每次只合成一个碱基,再利用 四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱 基信息 基于可逆终止的、荧光标记dNTP,边合成边测序
2:双端测序,得到的文件每个样本有2个fastq文件,指的是read1和read2
3:测序得到的是荧光信号,根据荧光信号定量
fastq数据格式
二、Linux复习
三、准备工作
1.工作目录管理
这部分非常重要,拥有一个优秀的工作习惯比什么都重要
1.1 目录一览
1.2 详细命令
四、课后习题答案
1.统计reads_1.fq文件种共有多少条reads?
# NR表示行号
# %表示取余数
zless SRR1039510_1.fastq.gz | grep "@SRR" -c
zless SRR1039510_1.fastq.gz | grep '^@SRR' |wc -l
zless -S SRR1039510_1.fastq.gz | paste - - - - |wc -l
zless SRR1039510_1.fastq.gz |wc -l | awk '{print $0/4}'
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2) {print} }' |wc -l# sed 版本 课后习题
2.输出reads_1.fq文件中所有的序列ID(即第一行)
zless SRR1039510_1.fastq.gz | grep '^@SRR' |less -S
zless SRR1039510_1.fastq.gz | paste - - - - |cut -f 1 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==1){print}}' |less -S
3.输出SRR1039510_1.fastq.gz文件中所有的序列(即第二行)
zless SRR1039510_1.fastq.gz | paste - - - - |cut -f 2 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==2){print}}' |less -S
4.统计SRR1039510_1.fastq.gz碱基总数
# 简单版本
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |tr -d '\n' |wc -m
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |grep -o [ATCGN] |wc -l# awk的高阶用法:BEGIN END模块
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2){print} }' | awk 'BEGIN {num=0} {num=num+length($0)} END{ print "num="num}'