饭桶教程-大语言模型实战-

大语言模型实战

我们将仿照SQLCoder的方式，使用面向代码生成应用的大型语言模型进行微调，以实现SQL生成任务，选取的代码生成底座为DeepSeek Coder。

DeepSeek Coder涵盖了一系列从头开始训练的代码语言模型，这些模型分别在英语和中文中以87%的代码和13%的自然语言进行训练。每个模型都在涉及80多种编程语言的2万亿个Token数据上进行预训练，提供了多个不同大小的代码模型，从10亿到330亿版本不等。这些模型首先在存储库级别的代码语料库上进行预训练，使用1.6万个Token的窗口大小和额外的代码填充任务，形成基础模型（DeepSeek-Coder-Base）。随后，通过使用20亿个Token的指令数据对基础模型进行微调，得到了经过指令调整的模型，即DeepSeek-Coder-Instruct。此外，DeepSeek Coder是开源的，可供研究和商业用途免费使用，为广大开发者和研究人员提供了强大的代码语言模型资源。

1. 项目介绍

本项目是基于DeepSeek Coder完成SQL生成的微调任务。利用DeepSeek Coder模型从开源数据中进行数据构造，并进行模型微调。代码见GitHub中的SQLGenProj项目，项目主要结构如下。

·data：存放数据及数据处理的文件夹。

■dev.jsonl：验证集数据。

■train.jsonl：训练数据。

■dusql_process.py：用于针对开源数据进行数据处理，生成训练集及验证集数据。

·finetune：模型训练的文件夹。

■train_deepseek.py：使用DeepSeek Coder模型训练的函数。

·predict：推理所需的代码文件夹。

■predict.py：利用已训练的模型进行生成的方法。

本项目从数据预处理、模型微调和模型预测几个部分入手，带领大家一起完成SQL生成的微调任务。

2. 数据预处理