久久人人爽人人爽人人片宅男,美女扒开尿眼无遮挡,精品亚洲成AV人片在线观看WW

大模型（LLMs）LLM生成SFT數(shù)據(jù)方法面 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-05-01 10:00:56

(侵權舉報)

(假如點擊沒反應，多刷新兩次就OK！)

大模型（LLMs）LLM生成SFT數(shù)據(jù)方法面 PDF 下載圖1

資料內容：

一、SFT數(shù)據(jù)集如何生成？

SFT數(shù)據(jù)集構建通常有兩種方法：人工標注和使用LLM（比如GPT-4）來生成的，人工標注對于構

建垂直領域比較合適，可以減少有偏數(shù)據(jù)，但是成本略高；使用LLM生成，可以在短時間內生成大

量數(shù)據(jù)。

二、Self-Instruct 篇

2.1 什么是 Self-Instruct ？

一個通過預訓練語言模型自己引導自己來提高的指令遵循能力的框架。

2.2 Self-Instruct 處理思路？

• 步驟1：作者從 175個種子任務中隨機抽取 8 條自然語言指令作為示例，并提示InstructGPT生

成更多的任務指令。

• 步驟2：作者確定步驟1中生成的指令是否是一個分類任務。如果是，他們要求 InstructGPT 根

據(jù)給定的指令為輸出生成所有可能的選項，并隨機選擇特定的輸出類別，提示 InstructGPT 生

成相應的“輸入”內容。對于不屬于分類任務的指令，應該有無數(shù)的“輸出”選項。作者提出了“輸

入優(yōu)先”策略，首先提示 InstructGPT根據(jù)給定的“指令”生成“輸入”，然后根據(jù)“指令”和生成的“輸

入”生成“輸出”。

• 步驟3：基于第 2 步的結果，作者使用 InstructGPT 生成相應指令任務的“輸入”和“輸出”，采用

“輸出優(yōu)先”或“輸入優(yōu)先”的策略。

• 步驟4：作者對生成的指令任務進行了后處理(例如，過濾類似指令，去除輸入輸出的重復數(shù)

據(jù))，最終得到52K條英文指令