mPLUG-DocOwl 1.5是由阿里巴巴集团推出的多模态大型语言模型,专注于OCR-free(无需光学字符识别)的文档理解。模型基于统一结构学习,强化对文本丰富图像如文档、表格和图表的结构信息理解能力。...
-
-
Matryoshka Diffusion Models(MDM)是由苹果公司研究人员推出的一种新型扩散模型框架,旨在解决生成高分辨率图像和视频时面临的计算和优化挑战。MDM基于在多个分辨率上联合去噪的扩散过程,采用嵌套UNe...
-
PDFtoChat 是一个开源的创新AI项目,支持用户基于自然语言对话的方式与 PDF 文件互动。工具基于最新的 AI 技术,包括 Together AI 和 Mixtral,理解用户的查询,从 PDF 内容中提取相关信息。...
-
TurboSeek是一个开源的AI搜索引擎,由Together.ai提供技术支持。基于现代化的技术栈,包括Next.js、Tailwind、Bing搜索API及先进的语言模型Mixtral 8x7B和Llama-3,为用户提...
-
Napkins.dev是一个创新的开源项目,基于AI技术将用户的截图或线框图快速转换成可运行的网页应用程序。该、项目背后依托于Meta的Llama 3.1 405B大型语言模型和Llama 3.2 Vision视觉模型,结合...
-
Self-Taught Evaluators是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。从未经标记的指令开始,用迭代自我改进方案生成对比模型输出。用LLM作为裁判,生成...
-
Lingua 是 Meta AI推出的一个轻量级且独立的代码库,旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件,便于研究人员尝试新的模型架构、损失函数和数据集。Lingua 专注于端到端训练、推理和评估,提...
-
Llama Tutor 是一个基于AI的个性化学习平台,由 Llama 3.1 和 Together AI 技术驱动,是一个完全开源的项目。支持用户输入想要学习的主题和教育水平,生成一个量身定做的学习计划。平台覆盖包括篮球、...
-
VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人控制动作。VideoAgent基于自我条件一致性方法细化视频...
-
NotesGPT是一款开源的AI驱动语音笔记工具,能将用户的语音笔记快速转录成文本,自动生成行动项。工具基于包括Convex数据库、Next.js框架、Together推理模型、Replicate的Whisper转录服务等先...