大家好,我是AI拉呱,一个专注于人工智领域与网络安全方面的博主,现任资深算法研究员一职,兼职硕士研究生导师;热爱机器学习和深度学习算法应用,深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖,拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。
1. DeepSeek公司介绍
1.1 DeepSeek是什么:what?
DeepSeek是一家成立于2023年7月17日的创新型科技公司,由知名量化资管巨头幻方量化创立。致力于开发和训练强大的大语言模型(LLM),这些模型可以用于各种自然语言处理任务,例如文本生成、AI基础设施构建以及AI应用探索等。
补充:“杭州六小龙”指的是游戏科学(黑悟空)、深度求索(DeepSeek)、宇树科技(四足机器人)、云深处科技(类人机器人)、强脑科技(研究脑机接口)和群核科技(空间智能)六家企业公司。这6家公司5家都是与AI强关联的公司。这六家公司的前景被极度看好,特别是深度求索的Deepseek模型。
1.2 DeepSeek为啥会出圈?Why?
- 背景:梁文锋,80后,浙江大学电子工程系人工智能方向毕业,本土背景。
- 特点:兼具强大的工程能力和模型研究能力,学习能力强,像极客而非老板。
- 理念:强调“是非观”置于“利害观”之前,倡导原创式创新(颠覆式创新)。
- 吸引人才:DeepSeek 通过组织和文化吸引了有才华的年轻人,通过开源开放吸引了社区的贡献者。
- 技术前沿:DeepSeek 的研究员大多是年轻人,他们选择加入 DeepSeek,一起挑战世界最强模型。
- 愿景:让每个开发者都能调用AGI能力,如同使用电力般自然
- 团队规模:百人团队,很多还是在校硕士和博士,每周有失败案例分享。
1.3 DeepSeek有哪些产品?what?
DeepSeek已发布了多个版本的模型,包括DeepSeekLLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2以及DeepSeek-V3等。这些模型在数学和编程上表现出色,能够轻松解决复杂问题。
DeepSeek-V3是DeepSeek的最新型号,性能赛过许多知名的AI模型,尤其是在数学和编程上,它就像一个天才学生,轻松解决了许多复杂的问题
1.4 DeepSeek可以做什么?How about?
1.QA问答
接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。
2.代码生成与调试
代码生成:根据需求生成代码片段(Python、JavaScript),自动补全与注释生成。
代码调试:debug的错误分析以及修改建议,代码性能的优化。
技术文档的生成:API文档的生成,代码库解释与示例生成。
3.专注于场景的Agent
将公司具体的场景转化为工作流,依据Agent的智能化能力+RAG场景知识+Tools(能力、API)来智能化的解决场景问题。
补充:Agent是什么?
AI智能体(Artificial Intelligence Agent),也被称为智能代理,是一种能够感知环境、做出决策并采取行动以实现特定目标的软件或硬件实体。
- 感知环境:
- 智能体可以通过各种传感器来获取环境信息。例如,在自动驾驶汽车这个智能体中,摄像头和雷达就是它的“感知器