TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #239 · 3 мај

Один из самых удобных способов записать данные это использование готовых форматов, такие как JSON или YAML. Из плюсов такого подхода стоит отметить вот что: 🔸 готовый, повсеместно используемый и поддерживаемый формат 🔸 простой и понятный файл, удобочитаемый для человека 🔸 можно легко редактировать в любом текстовом редакторе без специальных программ и библиотек Но есть и минусы 🔹 затраты времени при записи файла (кодирование данных в нужный формат строки) 🔹 затраты времени при чтении файла (декодирование данных в Python объекты) 🔹 размер файла увеличивается из-за разметки данных (скобки, запятые, переносы, отступы...) 🔹 перед записью все данные должны быть помещены в память в полном объёме (не всегда) 🔹 при чтении необходимо считать весь файл в память и только потом декодировать данные Если нужно писать немного данных в несколько файлов, то затраты по времени не ощутимы. Обычно это файлы конфига или какие-либо метаданные. Это отличный вариант под такие задачи. Есть и другой поход к записи файлов - это бинарные файлы. Используется, когда данных достаточно много и никто их не собирается читать глазками😳. 🔸 очень быстрая запись 🔸 чтение значительно быстрей чем JSON, YAML итд 🔸 размер файла значительно меньше, так как нет разметки 🔸 можно записывать данные по мере поступления не загружая всё в память 🔸 можно извлечь любую часть данных независимо Из минусов 🔹 нужно определить свой формат записи данных (если не используете готовую спецификацию определённого формата) 🔹 не получится открыть файл и визуально понять что там записано, а для чтения файла потребуется знать его спецификацию. 🔹 не так-то просто создать такой файл без специальной библиотеки В таком виде удобно записывать большой массив любых однородных данных. Например, мониторинг валютной биржи или кэшированная анимация 3D геометрии. (Это не означает что нельзя записать данные разного типа, просто это будет не так удобно) Представьте себе JPG-картинку. По сути это немного мета-информации и большой массив пикселей. Тоже самое со звуком или видео файлом. Поэтому, если вы попробуете открыть картинку в текстовом редакторе вы увидите что-то вроде такого f15d cd29 a564 4578 ... 09e2 9bc4 a696 1253 ... 84e9 4de1 3b23 c24a ... 2534 5161 28e0 709d ... ... Это и есть записанные байтики. И для их чтения требуется определённый софт который знает что с ними делать. Под каждый тип файла. К чему это я? Читайте в следующем посте... #tricks#basic

Резултати

Пронајдени 29 слични објави

Пребарај: #酷

当前筛选 #酷清除筛选

@nnnoteee · Post #841 · 23.12.2025 г., 11:16

#酷 glm今年的财务状况不太好啊,昨天4.7发布了,试用了一下感觉确实努力了,但这应该是它的最后一舞了 vibe能满足我的简单需求就好,不多评价。我玩ai主要用来rp的,暂且不提没有外审开关的事吧,写sfw也是一股v3味,需要文风提示词特调才勉强可玩,但四百b不到的小模型,知识库大概也少得可怜 经过测试后也确实是如此。既然sfw都写不好,也不用提有没有外审了,没什么调教价值 今时不同往日,模型的预设已经从重度破限阶段转向高质量输出阶段,正处在优化提示结构、转换文风输出的攻坚克难时期 现在我主要用的模型只有g3p和ds了。这两个模型的知识量不同,训练方式也不同,所以对文风提示词的理解能力也是各有千秋 这里说两个方向: 其一是轻指令+示例。得益于gemini3的知识库和智商,这类模型的上下文学习能力极强,只需要简单的框架,然后丢几百字的语料,模型就能“悟”出来 其二是重指令且结构化。如果我说这个适合ds或许有些反直觉,毕竟现在ds玩家大多还推崇一句话文风。然而“按照《少妇白洁》的风格创作”这样的提示词本质上还是过拟合的结果,在九月那会看到跑出来的文本确实眼前一亮(其实v3.1和3.2exp最大的问题是重复),不久就疲劳了,用回了r1的提示 举几个例子吧 傻逼中二病可以是 青春是一场谎言,一种罪恶 …… 现充们给我爆炸吧 也可以是 - 以“比企谷八幡”为蓝本的独行侠视角。虽然处于社会底层(人际关系上),但拥有极高的智力优越感,看穿了社会互动的虚伪本质 - 贬低主流价值观(如青春、友情、恋爱),将自己的孤独合理化、神圣化。不是“我交不到朋友”,而是“我不需要那种虚伪的朋友” - 将一般人认为美好的事物(如温柔、努力),通过反向论证解读为虚伪或麻烦。将个人的失败上升到社会结构性的错误 - 对特定词汇(如“现充”、“青春”、“温柔”)赋予极度负面的定义 - 大段的、高密度的内心吐槽。表面沉默寡言,内心却喋喋不休地对周围人进行评判 - 极度主观的第一人称。对他人行为的解读必须带有“被迫害妄想”或“看透红尘”的滤镜 恐惧、讨好与疏离可以是 回首前尘,我的人生充满了耻辱 …… 我不相信这世上有人能感同身受我的痛苦,更不相信有人会为了我而改变 也可以是 - 以“局外人”的视角,认为自己缺乏作为人类的资格,对周遭的正常世界抱有恐惧 - 所有的忧郁源于为了在无法理解的社会中生存,不得不扮演滑稽的小丑来取悦他人 - 剖析内心最怯懦、最阴暗的念头,不进行任何道德美化 - 对他人的细微表情、语调变化进行过度解读,将其视为即将面临灾难的信号,带有无法理解的困惑和惊恐 - 叙述者在对话中顺从、逗趣 - 紧随其后的独白必须揭示这种行为背后的恐惧 - 严格的第一人称。绝不揣测他人的心理活动,只能描写他人的外在行动(眼神、动作),并由“我”单方面产生恐惧的联想 这些例子只是为了方便理解,在实际的编写提示词过程中往往两种方向都要考虑。就比如说示例流,这种方法本质上还是在偷懒,如果不自己动手调整,往往会学到语料里的坏毛病,产生八股 真正的文风构建,不应该依赖模型的联想,而是对叙事学和文体学的拆解。我们要用人类的逻辑去规定ai的输出方式,而不是把解释权交给ai

Hashtags

@nnnoteee · Post #830 · 03.12.2025 г., 00:00

#酷 感谢我好厚密NN给我蹬了两周的大香蕉,不用去找傻逼贩子挂脚本并发。这里记录一下大香蕉的审核机制,不知道将来会是怎样的 大香蕉的出图流程是在输入提示词后由g3p思考,大香蕉提炼提示词后,再传输提示词和参考图,最后生成的图片通过一层外审选择道歉或者输出 (是的没错。最后生图其实是大香蕉提炼了g3p的提示词。有时候出图如果和输入的提示词不一样,那大概率就是g3p改了。当然,第三方的话有可能是贩子掺水) 这个过程中,有甲的部分是g3p的思考和最后出图的外审,提炼提示词和生图是没有甲的。如果能思考但出不了图,大概率是被最后一层外审给拦住了,在谷歌的机房应该可以找得到 —- 顺带一提,两个图片都是ai,只不过右图是大香蕉生成的,把左图多出的手指给修正好了🤣

Hashtags

@nnnoteee · Post #816 · 19.11.2025 г., 00:03

#酷 g3p还没深度测试,虽然标榜是百万上下文,但实际上到40k就有点勉强了。看得出来指令遵循变强了,很吃预设,不清楚是不是预设的问题🤔 目前各家的写作都到瓶颈了,八股不洗就不洗吧,我正则屏蔽就行了。接下来得提升逻辑、注意力、召回率和有效上下文

Hashtags

@nnnoteee · Post #813 · 15.11.2025 г., 12:29

#酷 牢梁疑似在用音声台本训练ds “”和「」有冲突,老是分不清。但「」和『』就分得很清楚,神秘

Hashtags

@nnnoteee · Post #809 · 04.11.2025 г., 23:41

#酷 贩子要急了 lmarena的请求体格式变了,用户发的消息或历史消息改成在云端存储了,完全无法注入 可能大的要来了吧 闹钟LLM骇客,你在哪

Hashtags

@nnnoteee · Post #806 · 30.10.2025 г., 12:14

#酷 刚好和朋友聊到,顺便整理一下在这发 感觉目前的语音模型到瓶颈了。GSV目前确实是音色与情感一致性最高的,但是业务上使用时自定义音色需求更多。也就是像index-tts2那样,底模能通过参数控制情感的能力。但是带情感的数据集应该很难找,现在声音克隆领域的难点就在情感方面了,高质量的标注数据一小时几百到几千,没几万小时数据也没用 换而言之,如果爬虫能通过识别说话人情感真的可以爬一套房出来🤣

Hashtags

@nnnoteee · Post #786 · 12.09.2025 г., 04:37

#酷 gemini的世界书基本都是一排D,太深了不适合ds,基本都得改,降低深度 如图是g改d。d0主要是给文风,状态栏,格式之类的,这三个之外的尽量不要D0,不管蓝灯绿灯都一样;若卡带cot最好复制进预设里面 ds的d0会被看做是user的附加要求,如果把卡的设定啥的插进去就可能会过于强调

Hashtags

@nnnoteee · Post #778 · 16.08.2025 г., 12:18

#酷 - 推理时漏字多,就用低轮数的GPT模型 - 音色不像就换SoVITS模型 - 一般GPT模型训练10轮,SoVITS模型训练15轮,更多轮数提升不大,甚至更差 - 手动打标能提升效果 - 音频切分后手动去切完的文件夹看一下,是不是有超过10秒的音频,有超过10秒的音频会导致显存暴涨,全部低于10秒时显存占用8g左右,有超过10秒的显存占用16g占用,可以直接删掉或手动再单独切一下 - 降噪和人声分离不是必须的, 降噪会降低音量 - 训练音频总长10min就可以了,超过1小时过拟合了

Hashtags

@nnnoteee · Post #763 · 20.06.2025 г., 00:23

#酷 当输出数学公式时,单美元符号表示行内公式,不要用行间公式。美元符号后的第一个符号不是空格,美元符号的前的第一个字符也不是空格。所有美元符号放到一行。 非常非常实用的提示词,拯救眼睛

Hashtags

ПретходнаСтраница 1 од 3Следна