LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求...
-
-
video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用Ope...
-
VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时,不仅考...
-
EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义情感,如高兴、愤怒、悲伤等。...
-
PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub的issue、PR和Discussion进行互动...
-
Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时计算并用 LaTeX 格式渲染出详细的解题过程和答案,极大地提升学...
-
Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌...
-
The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。...
-
PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图...
-
Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且保持原有的格式和结构。Vi...