TGTGInsighttelegram intelligenceLIVE / telegram public index
← PHYGITAL+CREATIVE
PHYGITAL+CREATIVE avatar

TGINSIGHT POST

Post #2766

@phygitalcreative

PHYGITAL+CREATIVE

Viżjonijiet160Għadd ta' viżjonijiet
IppubblikatApr 1818/04/2023 00:11
Kontenut

Kontenut tal-post

📑RedPajama: текстовый датасет на 1.2 триллиона токенов! Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными! RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки. RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных: - CommonCrawl: 5 дампов - C4 датасет - GitHub код, отфильтрованный по лицензиям - arXiv: Научные статьи - Books: Корпус открытых книг - Wikipedia: Подмножество страниц - StackExchange: скроулили 28 крупнейших сайтов платформы Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных. Блогпост Скачать датасет @ai_newz