酷酷的群 - 简书

酷酷的群

IP属地：浙江

直接偏好优化技术DPO基础理论及推导
论文标题：Direct Preference Optimization: Your Language Model is Secretly a R...

0.1 506 0 1
自适应视图增强的谣言检测图对比学习方法
论文标题：Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning A...

137 0 0

生成式大模型的RLHF技术（一）：基础
一、概述大语言模型（LLMs）在预训练的过程中通常会捕捉数据的特征，而这些训练数据通常既包含高质量的也包含低质量的，因此模型有时会产生不被期望...

0.1 804 0 1
LoRA：大模型下游任务的低秩适应
论文标题：LoRA: Low-Rank Adaptation of Large Language Models论文链接：https://arxi...

0.1 676 0 1
Megatron-LM：Transformer模型专用分布式张量模型并行方法
论文标题：Megatron-LM: Training Multi-Billion Parameter Language Models Using...

500 0 1
思维树：大模型的复杂推理技术
论文标题：Tree of Thoughts: Deliberate Problem Solving with Large Language Mo...

0.1 652 0 1
LIMA：小规模监督数据指令微调
论文标题：LIMA: Less Is More for Alignment论文链接：https://arxiv.org/abs/2305.112...

0.1 274 0 1

语言模型的自洽性思维链推理技术
论文标题：Self-Consistency Improves Chain of Thought Reasoning in Language Mo...

331 0 1
GPipe：微批量流水线并行
论文标题：GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism论文链接：https...

0.5 291 0 2