文心大模型文档

数据准备

用户设置

  • 在代码最开始处设置您在官网获取到的ak和sk
import wenxin_api
wenxin_api.ak = "your ak"
wenxin_api.sk = "your sk"

准备训练数据

  • 数据格式:数据必须是JSONL文档,其中每一行的src代表输入,tgt代表输出,数据格式:
{"src": "input_text", "tgt": "output_text"}
{"src": "input_text", "tgt": "output_text"}
  • 建议训练数据量:5-300
  • src最大字符数1000,tgt最大字符数1000。
  • 数据示例:

    1.大纲生成故事数据示例

{"src": "标题:运神像的驴子。大纲:对着神像顶礼膜拜|再也不肯往前走|神像放在驴子|赶着进城|驴夫狠狠|洋洋得意|大喊大叫|遇见。正文:", "tgt": "有个人把神像放在驴子背上,赶着进城。凡是遇见他们的人都对着神像顶礼膜拜。驴子以为人们是向它致敬,便洋洋得意,大喊大叫,再也不肯往前走了。结果挨了驴夫狠狠的一棍。"}

{"src": "标题:聪明人和他的两个学生。大纲:一块钱买件东西|油灯回来|灯光洒满|灯点着|有个聪明人|干草塞满|房间塞满|塞满房间。正文:", "tgt": "有个聪明人给自己的两个学生出了一个难题:用一块钱买件东西并把一间黑暗的房间塞满。一个学生拿这一块钱买了许多干草,摆进这个房间,房间被这许多干草塞满了。另一个学生却只费了四角钱,买了一盏油灯回来。他把灯点着了,房间里立刻亮了起来,灯光洒满了房间。聪明人对第二个学生的办法连连称赞,因为这才是塞满房间最好的办法。"}

2.文本补全数据示例

{"src": "在一个遥远的地方,有一个大森林。猎人们经常光顾这里,所以动物们都非常谨慎小心,生怕让猎人捕去。一天,有一个猎人又来到了森林,他在草地上铺了一张网,然后就在网上不停地打滚耍把戏。一群隐藏在密林里的小熊看见了,非常羡慕。等猎人走了后,它们也跑到网上开心的玩耍起来。结果猎人偷偷躲在暗处把网收拢了起来,所有的小熊都被猎人抓住了。[MASK]", "tgt": "猎人满载而归。"}

{"src": "有位母亲生了两个女儿。二女儿心眼很坏,但在母亲面前表现的很乖巧。大女儿又孝顺又勤劳,可母亲总觉得她不如二女儿。母亲老了。她把积蓄交给了二女儿,结果被挥霍一空。大女儿勤劳节俭,攒下了钱。[MASK]", "tgt": "她没有怨恨母亲,而是守护在母亲身边,母亲这才明白哪个女儿才是对她最好的女儿。"}

创建数据集

from wenxin_api import Dataset
local_file_path = "your file"
dataset = Dataset.create(local_file_path=local_file_path)

查看已有数据集

from wenxin_api import Dataset

#查看所有数据集
datasets = Dataset.list()
print(datasets)

# 查看指定数据集
data_id = "your dataset id"
dataset = Dataset.retrieve(data_id=data_id)
print(dataset)
  • 数据集返回格式
{
    "id":88,
    "name":"test5",
    "url":"http://bj.bcebos.com/api-platform-wenxin/tuning/2EEE631CDBFE7FB2DA78720680055CAC",
    "md5":"2eee631cdbfe7fb2da78720680055cac",
    "type":"data"
}

删除数据集

from wenxin_api import Dataset

dataset_id="your dataset id" 
Dataset.delete(data_id=dataset_id)
上一篇
快速开始
下一篇
模型训练