文心大模型文档

任务示例


精调(prompt-tuning)可以解决自然语言处理的各种问题,使用精调的关键在于您的业务数据。下面,我们列出了最常见的精调用例和相应的使用方法。

洗护产品介绍

数据准备

假设您要生成洗发水的介绍文案,训练数据集格式可参考如下所示:

{"src": "产品属性:类目:身体护理 品类: 二合一洗发沐浴露,功效:香味-无香、温和-洗净不伤头皮、温和-安全、温和-易清洗,成分:植物成分,人群:母婴。根据上述产品属性生成产品文案:", "tgt": "Mama&Kids婴儿泡沫洗发水,日本原装进口,无香料,无色素,低刺激,去除头皮多余油脂,有效清洁污垢,温和无泪配方,呵护宝宝头皮,泡沫洁净清爽。"}
{"src": "产品属性:类目:身体护理 品类: 洗发水,功效:香味-花果香调、温和-洗净不伤头皮、温和-安全、温和-易清洗,成分:植物成分,人群:都市丽人。根据上述产品属性生成产品文案:", "tgt": "卡诗元气姜粉瓶无硅油洗发露,48H长效控油,秀发丰盈蓬松。纯天然萃取元气姜根精华,维稳头皮。泡沫绵密,冲洗方便。"}

请保证您的训练数据质量,因为经过精调的模型会模仿您给定示例的风格,当前场景建议训练数据量在100条左右。 然后,您需要把训练数据上传到指定位置:

local_file_path = "your file"
dataset = Dataset.create(local_file_path=local_file_path)

启动训练任务

准备好训练数据后,您就可以启动训练任务进行精调了。

from wenxin_api import Train
from wenxin_api import ERNIE_1P5B_MODEL # 当前选择的是15亿模型,百亿请选择ERNIE_10B_MODEL,千亿模型请选择ERNIE_100B_MODEL
data_id = "your data id"
dataset = Dataset.retrieve(data_id=data_id)
Train.create(train_datasets=[dataset], base_model=ERNIE_100B_MODEL)

您提交的训练任务在我们系统中会按提交时间排队运行,所以精调模型可能需要几分钟或几小时,具体取决于您选择的模型量级、训练数据集的大小和排队时间,您可以通过以下方式查询任务状态:

train_id="your train id"
task = Train.retrieve(task_id=train_id)
print(task)

状态码为204时,表示训练完成。其他常见的状态码可以参考:状态码汇总

  • 返回字段示例
{
    "job_id":"job-0bb62f210535f7c6",
    "response":"{}",
    "task_state":203,
    "task_id":16,
    "task_type":1,
    "type":"task",
    "base_model":3
}

调用训练好的模型

# 根据训练任务的id获取模型
model = Model.retrieve(task_id=task_id) #
text = "产品属性:类目:身体护理 品类: 洗发水,功效:香味-柑橘薄荷、温和-洗净不伤头皮、温和-安全、温和-易清洗,成分:海盐,人群:男士。根据上述产品属性生成产品文案:"
rst = TextGeneration.create(model=model, text=text)

诗歌创作

假如您想要开发一款诗歌创作神器,您可以根据想要生成的诗歌风格特点或诗人收集数据,数据集格式可参考如下所示:

{"src": "标题:四月,作者:北岛。诗歌内容:", "tgt": "四月的风格不变:\n鲜花加冰霜加抒情的翅膀\n海浪上泡沫的眼睛\n看见一把剪刀\n藏在那风暴的口袋中\n我双脚冰冷,在田野\n那阳光鞣制的虎皮前止步\n而头在夏天的闪电之间冥想\n两只在冬天聋了的耳朵\n向四周张望\n星星,那些小小的拳头\n集结着浩大的游行"}
{"src": "标题:远和近,作者:顾城。诗歌内容:", "tgt": "你,一会看我,一会看云。我觉得,你看我时很远,你看云时很近。"}

国学知识问答

假如您想要做某个领域国学知识的问答机器人,你可以通过训练该领域的特定数据的方式训练一个专属模型,数据集格式可参考如下所示:

{"src": "问题:《诗经・关雎》中的“河之洲”到底在哪?回答:", "tgt": "《关雎》中的“在河之洲”所指何地,多少年来,从教科书到《诗经》的多种版本,均未明确注释。经考证,就在黄河中游,乃河南省济源市坡头镇西滩村也。\n翻阅《中国历史地图集》,在周代的版图上寻觅,便可以看到在万里黄河的中游,有一片像小岛似的滩涂。奔腾的黄河水,其主河道从这里一分为二,围绕着这片滩涂形成南北二水之势。然后,在滩之东端又合二为一,卷起滔滔巨浪,东流入海。这片多达万亩之余的滩涂,素有“万里黄河第一滩”之称。河南省济源市坡头镇西滩村的人们,世世代代就居住在这片被誉为“河心岛”的滩涂之上。\n从宏观上看,西滩与《诗经》十五国风“周南”所涵盖的地域有缘。《诗经》中的十五国风,是指周南、召南等十五个地方的土风歌谣。关于周南,《辞海》解释中有“《史记・太史公自序》:‘太史公留滞周南’。《集解》谓即洛阳;《索隐》谓陕以东皆周南之地”之语。西滩与洛阳仅一河之隔,应属周南的统治区域。国风中的不少诗篇也都是河南地区的民歌。\n从微观上说,黄河古代称河具有惟一性和排他性,我国江河众多,但在古代尤其是汉代之前,除黄河外,所有的水系都不能称河。\n在周代的版图上,西滩可以说是万里黄河之中惟一人类能够定居的岛屿。多少年来,黄河西滩绿树掩映,农舍点点,瓜果飘香,渔舟晚唱,人们自给自足,民不交皇粮,官不征田赋,不谙水性的兵匪毛贼,轻易不敢越河进滩袭扰。村民们如世外桃源般地在此生息繁衍,创造着自己的历史和文明。尽管历史上黄河多次泛滥,但是西滩从未被洪水淹没。\n西滩的形成和存在,自然也为《关雎》一诗的创作,奠定了基础,表现诗意的载体也就更加明确。\n《关雎》中的雎鸠鸟和主人公“窈窕淑女”采摘的植物――荇菜,西滩可觅其踪。荇菜属于多年生草本植物,龙胆科类,今名�n菜,别称金莲儿、水荷、水葵。据《诗经植物图鉴》载:“荇菜分布于中国南北各省以及韩国、日本和俄罗斯等国,生育于池塘及流动缓慢的溪河中。”1987年,济源中草药资源普查领导小组,在普查过程中,也在济源王屋山区的小溪边和黄河沿岸发现了大量生长的荇菜,当然也就包括西滩了。\n另外,从唐诗中也可以看出,西滩在古代就曾是古人的游览胜地。唐代诗人温庭筠有《河中陪帅游亭》诗曰:“倚阑愁立独徘徊,欲赋惭非宋玉才。满座山光摇剑戟,绕城波色动楼台。鸟飞天外斜阳尽,人过桥心倒影来。添得五湖多少恨,柳花飘荡似寒梅。”曾在王屋山学道的唐代诗人李商隐,也有《奉同诸公题河中任中丞新创河亭四韵之作》诗云:“万里谁能访十洲,新亭云构压中流。河鲛纵玩难为室,海蜃遥惊耻化楼。左右名山穷远目,东西大道锁轻舟。独留巧思传千古,长与蒲津作胜游。”\n如今,随着黄河小浪底水利枢纽工程的建成,国家又在其下游15公里处修建了二坝――形成了一个23平方公里的西霞院反调节水库。昔日宁静的西滩,夹于其间。新西滩成为名副其实的一个小岛,但它无疑是一个充满人文特色的新景点。"}
{"src": "问题:林黛玉的性格特点。回答:", "tgt": "林黛玉可谓是内向型女子的一个典型,林黛玉的性格特点是敏感、细心、绝顶聪明,悟性极强。她在对待和宝玉的感情问题上常常表现过分自卑,猜疑和忧虑,既不相信自己,更不相信别人。这种猜疑结果,常常一方面伤害自己,另一方面又伤害自己的心上人。这类性格就是心理学家定义的内向型性格。其心理特点上往往具有高度的情绪易感性,她们的行为孤僻,寡言,但又常为一些别人认为微不足道的事情而动感情。表面上看,她们有时似乎很坚强,但内心世界却充满自卑和懦怯。\n黛玉用诗词来宣泄自已的离情别绪。她所写的多是些哀伤的诗句,想到的往往是死、老、分散、衰败。正是由于身体上的先天虚弱,黛玉对事物的反应比较消极,什么事多从其反面来考虑,这也导致了黛玉在思维方式上极为消极和被动。\n人的气质是和性格联系在一起的,某种气质更容易形成某种性格,如多血质人的容易形成乐于助人,活泼好动的性格,而黛玉属于抑郁质,这种气质为她性格的形成起了奠基的作用,这使得她“喜散不喜聚”、“喜静不喜动”。大观园中的女儿们知道她天生气质如此,对她也就不过分地苛求了。这些姐妹们喜欢宝钗的多于喜欢黛玉的,每次湘云来贾府总是爱找宝姐姐玩,而不会首先去找林妹妹,这使得黛玉与别人的社会性的交往逐渐减少,也促成了她更加忧郁的性格。家道中落对黛玉造成的影响就是:敢爱而不敢言,只有把爱深深地放在心中,期待着别人能帮她一把,把自己的爱情寄托于别人的怜悯,形成了强烈的依赖感。只把着了一个救命的稻草,信守爱情,正所谓,爱至深,伤也深。最后,直至为爱情付出了自己的生命。"}

歌词创作

假如您想要开发一款写歌词神器,您可以在训练数据中通过设置歌名、关键词等输入来训练模型生成歌词,数据集格式可参考如下所示:

{"src": "歌曲名:爱的祷告。关键词:枯竭、心痛、苦恼。歌词:", "tgt": "像没有去路\n心似跌进荒岛爱已经枯竭\n完全没有朝露爱你的一切\n你却永不知道Ha\n爱的祷告\n背坐床前仍想透露Ha\n爱的苦恼 在我心\n千尺高令我心痛\n变得苍老为何从前热爱却偏停步\n没法进一步逼不得已凝住爱慕\n从此消失\n相爱地图迷迷糊糊是我这刻爱情路没法再披露心中的爱仍是你吧却不知怎去弥补!像没有去路\n心似跌进荒岛爱已经枯竭\n完全没有朝露爱你的一切\n你却永不知道Ha\n爱的祷告\n背坐床前仍想透露Ha\n爱的苦恼 在我心\n千尺高令我心痛\n变得苍老为何从前热爱却偏停步\n没法进一步逼不得已凝住爱慕\n从此消失\n相爱地图迷迷糊糊是我这刻爱情路没法再披露心中的爱仍是你吧却不知怎去弥补无人明\n是我痛苦程度达至那一度彷佛将爱遗在马路才知分开真正糊涂情人回来伴我再走前路令我再骄傲轻轻亲我重拾爱慕\n再将恋曲配乐谱"}
{"src": "歌曲名:因为你。关键词:总有一天。歌词:", "tgt": "听一首\n伤心的情歌\n掉眼泪\n是不是为你\n换一曲\n快乐的纯音乐\n忽然掉进了回忆\n最怕我快乐悲伤都是因为你\n终于我宁愿世界不再有爱情\n总有一天会过去所有爱你都忘记\n只剩朋友的关心\n找一份\n忙碌的工作\n太疲惫\n较容易睡去\n过些天\n一个人去旅行\n不再有你的消息\n最怕我快乐悲伤都是因为你\n终于我宁愿世界不再有爱情\n总有一天会过去所有爱你都忘记\n只剩朋友的关心\n最怕我快乐悲伤都是因为你\n终于我宁愿世界不再有爱情\n总有一天会过去所有爱你都忘记\n只剩朋友的关心\n总有一天会过去所有爱你都忘记\n只剩自己就安心"}

电商评论倾向分析

假设您想做关于电商评论的情感倾向分析,数据集格式可参考如下所示:

{"src": "评价:差评,真垃圾,快递外面就套个塑料袋,回来都散了。\n这是好评吗?", "tgt": "不是"}
{"src": "评价:发货速度快,包装完好,全新未拆封正品,价格还可以,期待有良好的使用效果\n这是好评吗?", "tgt": "是"}
上一篇
模型调用
下一篇
状态码汇总