最近帖子
第 11/37 页 · 共 441 条
发布 5月11日
Claude 支持 100k上下文,视频 demo :100k上下文能做什么 🤯https://vxtwitter.com/anthropicai/status/1656700154190389248
发布 5月11日
Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力: 文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。 文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。 输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。 https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=
发布 5月11日
Google ai 官方 demo https://developers.generativeai.google/develop/sample-apps
发布 5月10日
今天必将是 Google 刷屏的一天,我就说下重点吧: 1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。 2.在代码能力上和GPT4差距仍然巨大, 37/85的差距 3.Flan版本的数学能力超过GPT4一点点 4.除了代码和数学,还特别提升了推理能力 技术报告地址: https://ai.google/static/documents/palm2techreport.pdf
发布 5月9日
OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。 《Claude’s Constitution 克劳德宪法》 它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。 它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。 https://www.anthropic.com/index/claudes-constitution
发布 5月9日
Meta ImageBind 多模态模型开源,我们离AGI又进一步。 当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。 ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。 (这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。) 一些应用(见图): - 通过火车的声音、图像、深度信息,生成准确的文字描述 - 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像 - 通过企鹅的声音,生成企鹅的图像 另一些可能性: - 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。 - 通过静态图像和音频组合,创建动画。 - 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图) 未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。 https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
发布 5月8日
News Minimalist 是一个让 AI 精选新闻的服务。 它使用 AI (ChatGPT-4) 每天阅读前 1000 条新闻,并根据事件的严重性、规模、潜力和来源可信度,按重要性从 0 到 10 对它们进行排名。 你可以选择一个适合自己的阈值,并订阅这个阈值内的 newsletter 。 听起来很合理对不对? 但是实际用下来感觉不work。 可以从图中看到,大部分的新闻都是3分以下,到达6分的新闻凤毛麟角。即便是到了6分,也不过是一些每个人都看过的无聊的大新闻。 而实际每天真正有趣的东西是多到看不过来的,它们并不在头条新闻里。 体验地址: https://www.newsminimalist.com/
发布 5月8日
AI 短视频制造机 ,自动把长视频截取成短视频,自动加综艺字体,自动加Emoji,感觉以后国内的综艺剪辑完全可以 AI 化 https://www.opus.pro/
发布 5月7日
【AI 孙燕姿】《爱在西元前》汉谟拉比法典颁布距今已经3799年-哔哩哔哩】 b23.tv/l5Jq3Ne 姿迷突然有种过节的感觉。 引用评论:姿迷的主要矛盾是听众对孙燕姿日子增长的歌曲渴求和孙燕姿低下的专辑生产力之间的矛盾,只有科技进步可以减少这种矛盾的产生。
发布 5月6日
LLaVA 大型语言和视觉助理 - 视觉对话,达到 GPT4 85%的水平 - Science QA 的准确率达到新 SoTA - 提供了官方demo地址,直接可用,速度很快,(而 GPT4 的图片功能还没开放) 官方介绍和demo https://llava-vl.github.io
发布 5月6日
StarCoder,来自 huggingface,最先进的代码大语言模型。超过其他开源产品和CloseAI水平。 - 8k 上下文 - 不仅可以编程还可以作为技术助手解答问题 - 只有15B参数,效果却超过了很多大参数模型,见图 官方介绍页面 https://huggingface.co/blog/starcoder
发布 5月6日
MPT-7B 开源商业可用LLM的新标准 - 包括base和三个微调模型,instruct,chat,写作 - 其中写作模型支持65k的上下文!是GPT4的两倍。(甚至支持到 84k 。) - 包含了开源代码训练 - 在基准测试中达到了 LLaMA-7B 的水平。 官方介绍: https://mosaicml.com/blog/mpt-7b