Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
大模型(LLMs)LLM生成SFT數(shù)據(jù)方法面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-05-01 10:00:56
(侵權(quán)舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)LLM生成SFT數(shù)據(jù)方法面  PDF 下載 圖1

 

 

資料內(nèi)容:

 
一、SFT數(shù)據(jù)集如何生成?
SFT數(shù)據(jù)集構(gòu)建通常有兩種方法:人工標注和使用LLM(比如GPT-4)來生成的,人工標注對于構(gòu)
建垂直領(lǐng)域比較合適,可以減少有偏數(shù)據(jù),但是成本略高;使用LLM生成,可以在短時間內(nèi)生成大
量數(shù)據(jù)。
 
二、Self-Instruct
2.1 什么是 Self-Instruct ?
一個通過預訓練語言模型自己引導自己來提高 的指令遵循能力的框架。
 
2.2 Self-Instruct 處理思路?
步驟1:作者從 175個種子任務中隨機抽取 8 條自然語言指令作為示例,并提示InstructGPT
成更多的任務指令。
步驟2:作者確定步驟1中生成的指令是否是一個分類任務。如果是,他們要求 InstructGPT
據(jù)給定的指令為輸出生成所有可能的選項,并隨機選擇特定的輸出類別,提示 InstructGPT
成相應的輸入內(nèi)容。對于不屬于分類任務的指令,應該有無數(shù)的輸出選項。作者提出了
入優(yōu)先策略,首先提示 InstructGPT根據(jù)給定的指令生成輸入,然后根據(jù)指令和生成的
生成輸出。
步驟3:基于第 2 步的結(jié)果,作者使用 InstructGPT 生成相應指令任務的輸入輸出,采用
輸出優(yōu)先輸入優(yōu)先的策略。
步驟4:作者對生成的指令任務進行了后處理(例如,過濾類似指令,去除輸入輸出的重復數(shù)
據(jù)),最終得到52K條英文指令