欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 八卦 > Sqoop支持ORC文件格式

Sqoop支持ORC文件格式

2025/2/25 21:09:19 来源:https://blog.csdn.net/weixin_46161645/article/details/145399726  浏览:    关键词:Sqoop支持ORC文件格式

个人博客地址:Sqoop支持ORC文件格式 | 一张假钞的真实世界

ORC介绍

ORC文件格式是Hive 0.11.0版本引入的一种文件格式。ORC的引入是为了解决其他Hive文件格式的局限性。使用ORC文件格式提升Hive读取、写入及处理数据的性能。

与RCFile对比,ORC文件格式有很多优点:

  • 每个Task只输出一个文件,降低NameNode的负载。
  • Hive数据类型支持,包括:datetime、decimal以及复杂数据类型(struct、list、map、union)。
  • 文件中存储轻量级的索引:
    • 跳过不通过谓语过滤的行组
    • 跳转到指定的行
  • 基于数据类型的块模式压缩:
    • 整型数据列采用行程长度编码(run-length encoding)
    • 字符串数据列采用词典编码(dictionary encoding)
  • 使用独立的RecordReader并发读取相同的文件
  • 无需扫描markers就可以分割文件的能力
  • 绑定读写需要的内存量
  • 使用Protocol Buffer存储元数据,允许添加、移除字段

Hive官网介绍:

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词