腾讯双螺旋(Tencent Helix)是面向生物基因等行业的一站式数据管理工具,用户可通过双螺旋将海量数据快速上传云端存储,并调用云上丰富的高性能资源进行高速计算。帮助客户更高效、经济地存储、计算、传输、管理、分析海量数据。
功能
腾讯云双螺旋提供了项目管理、作业管理等多种功能。
项目管理
用户可根据自己的业务情况,在双螺旋上创建多个项目。每个项目对应一块业务或者一个客户。创建项目之后,系统会为每个项目分配一个云存储(COS)Bucket,后续用户在该项目中上传的文件,都将存入这个项目 Bucket 中。
数据管理
数据上传至云端后,用户对数据进行分享、复制、下载、冷备、解冻等各项操作。
a. 上传数据:用户创建完项目后,可通过 Web、客户端工具将文件从本地上传至云端的项目 Bucket。如果现有数据存放在AWS或阿里云存储,也可通过迁移工具,将数据存入腾讯云。b. 分享数据:用户可将已经上传云端的数据,分享给腾讯云上的其他用户。此功能可应用于给客户交付业务数据等场景。c. 复制数据:用户可将已经上传云端的数据,从一个项目复制到另外一个项目,或从一个文件夹复制到另一个文件夹。d. 删除数据:用户可删除已经上传云端的数据或文件夹。
作业管理
a. 新建作业:当用户需要使用云上海量计算能力进行数据分析时,可在双螺旋上新建作业来执行分析任务。用户在新建一个作业时,需要完成以下相应作业配置:
- 基本信息:作业名称、描述及所属项目;
- 计算节点配置:选择执行任务的机型配置(包括 CPU、内存等)和镜像,并指定计算节点所配置数据盘的本地目录。配置计算节点的登录密码,以便计算过程中可访问相应的计算节点。配置作业所需的结算节点数量;
- 输入配置:指定项目 Bucket 在计算节点的本地挂载目录。在执行作业时,系统会自动将作业所属项目的项目 Bucket 挂载到每个计算节点上,以便在计算过程中读写数据。如果计算过程中需要用到存储在项目 Bucket 之外的其他 Bucket 上的数据,可以指定数据所在目录与本地目录之间的对应关系,将该部分数据/目录挂载到计算节点上参与计算;
- 输出配置:在计算完成后,计算节点将进行回收,所以需要您提前设定计算结果所在目录与项目 Bucket 中存储结果目录的对应关系。在作业完成后,系统将按照用户的输出设置,将结果同步回项目 Bucket 后,再回收计算节点。
- 作业命令:用户在双螺旋控制台上输入的作业命令,将被投放到执行当次作业的计算节点上,计算节点将按照命令执行作业。
b. 查看作业:用户新建完作业之后,可在作业列表中查看作业运行状态,必要时可登录执行作业的计算节点。
c. 删除作业用户可将已经完成的作业,从作业列表中删除。
通用设置
- 机型设置:双螺旋提供了多种配置的丰富机型供用户选择,用户可根据自身业务对 CPU、内存、存储的需求,提前选择对应配置的机型,并将其存为自定义机型供创建作业时选用。
- 镜像管理:用户可提前将计算中需要用到的软件和脚本打包成镜像,存放在云端。创建作业时,选择对应的镜像创建计算节点,即可使用其中的软件和脚本进行分析和计算。