选取内容(COSS Select)
利用 COSS Select(MinIO/S3),您可以使用简单的SQL语句从COSS的单个文件中选取内容,仅获取所需要的数据,从而减少从COSS传输的数据量,提升您获取数据的效率。
前提条件
目前支持RFC 4180标准的CSV(包括TSV等类CSV文件,文件的行列分隔符以及Quote字符都可自定义)和JSON文件,且文件编码为UTF-8。
通过控制台可以对128MB以下的文件提取40MB以下的数据记录。如果您需要处理更大的文件或返回更多的记录,请使用 API:
SelectObjectContent。
操作步骤
-
登录COSS管理控制台。
- 单击Bucket列表,之后单击目标Bucket名称。
- 单击文件管理页签。
- 件对应的更多 > 选取内容。
- 在选取内容页面设置相关参数。
- 文件类型:按文件实际情况选择文件的类型,可选项为:CSV/JSON和Parquet。
- 分隔符(针对CSV文件):选择逗号(,)或自定义分隔符。
- 标题行(针对CSV文件):选择文件第一行是否包含列标题。
- JSON格式符(针对JSON文件):选择您的JSON文件对应的格式。
- 压缩格式:选择您当前的文件是否为压缩文件。目前压缩文件仅支持GZIP文件。
- 标准的Parquet格式,参考Apache Parquet官网。