官方微信赞助推广网推广标签      本站信息都是网络用户发布,未经证实,谨防网络诈骗。本站内容均为会员发表,并不代表本站立场!

中国推广网

QQ登录

免注册,加入推广网

扫一扫,登录推广网

上一主题 下一主题

生信分析中常见的数据文件格式

[复制链接]
跳转到指定楼层
楼主
ggtdfgfdg 发表于 2022-6-19 19:10:28
  前面我们介绍了各种测序技术的原理:illumina、Sanger、第三代和第四代测序技术原理,我们测序得到的是带有质量值的碱基序列fastq格式,参考基因组是fasta格式。⽤⽐对⼯具把fastq格式的序列回帖到对应的fasta格式的参考基因组序列,就可以产⽣sam格式的⽐对⽂件。把sam格式的⽂本⽂件压缩成⼆进制bam⽂件可以节省空间。如果是记录某些位点或者区域碱基的变化,就是VCF⽂件格式。如果对参考基因组上⾯的各个区段标记它们的性质,⽐如哪些区域是外显⼦,内含⼦, UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式⽂件,记录染⾊体号以及起始终⽌坐标,生信分析正负链即可。
  1.fastq文件
  FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
  FASTQ文件中每个序列通常有四行:
  序列标识以及相关的描述信息,以‘@’开头;
  第二行是序列
  第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
  第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

分享到:  新浪微博新浪微博 QQ空间QQ空间
中国推广网 - 免责申明1、本主题所有言论和图片纯属会员个人推广行为,并不代表本站赞同其观点和对其真实性负责
2、本站不提供和不存在任何金钱交易(本站管理账号发布的帖子除外),谨防上当受骗!本站唯一管理账号:推广网官方
3、本站所有主题由该帖子作者发表,该帖子作者享有帖子相关版权并且依法承担一切因本文发表而直接或间接导致的民事或刑事法律责任

中国推广网提供免费推广,免费营销,免费发布广告信息的网络推广平台。
关闭

网站推荐上一条 /1 下一条

扫描二维码
把此页分享给朋友

小黑屋|广告服务|联系我们|推广帮助|(京ICP备16009988号)

中国推广网(推广论坛)是免费网络推广平台||免费推广就上中国推广网

技术支持:推广网官方

中国推广网·免费发广告平台

快速回复 返回顶部 返回列表