校园霸凌，谁来救救我？

发布时间：2024-09-03 06:20:25

“O”:视频输出。2023年，我们看到了文字到视频合成的浪潮:WALT（谷歌）、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等，数不胜数。然而，大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。

2023年，我们看到了扩散模型推理速度方面的一些重大理论改进，例如Song等人的原始一致性模型论文，以及最近的LCM。（另外，对抗扩散蒸馏。）我们已经开始看到使用这些想法的项目，例如Dan Wood的Art Spew(每秒77512×512图像，在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。

而令科学家感到惊喜的是，他们发现先前很多认为是噪声的信号，却被机器学习认为是可以做出预测的主要信号。

研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果，而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时，该模型在 BEIR 和 MTEB 基准测试上取得了新的记录，成为了文本嵌入领域的最先进方法。

2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。

画地为牢网

校园霸凌，谁来救救我？