预训练 Tiny-llamma 1.1B 模型需要 90天时间,16块A-100 (40显存) 的显卡。数据量3 trillion个tokens。
这些训练数据,每个tokens如果按照每个占4字节来计算,则需要12TB的硬盘。
gpufuwuqi的价格是每个月1550。(这么便宜?)1550 * 16 *3 = 74400元。[1]
查它的网站备案是厦门同力合创公司。这家公司有被投诉的记录。
胖哒云游 客服联系不上 不给予退款相关的服务厦门同力合创网络科技有限 公司深圳分公司客服不处理,不予退款,服务不到位,联系不到客服
另外一个计算
TinyLlama is only a 1.1B parameter model. Yet, the project had to use 16 A100-40G GPUs over almost 3 months. Even on a very cheap cloud, e.g. $1 per A100-40G per hour, it would cost around $35,000.7 Feb 2024