AI免费学习网

👏🏻 你好！欢迎访问「AI免费学习网」，0门教程，教程全部原创，计算机教程大全，全免费！

2024-11-28发表2024-11-29更新AI / AI消息7 分钟读完 (大约1016个字)

字节要求攻击大模型的实习生赔偿800万

不知道大家这几天听说AI圈发生的一件事没有，就是字节起诉实习生篡改代码，并要求这位实习生赔偿800万，并公开道歉：

字节起诉实习生篡改代码

目前此案已由法院正式受理：

字节起诉实习生篡改代码

800万的赔偿，别说对于一个还未毕业的实习生，就是工作10年的老人也未必一下能拿得出来。

那么为啥字节终究还是没忍住这口气，还是要通过正规渠道，起诉这位实习生呢？

先来看看事情的经过，2024年10月，一则字节大模型在训练中被实习生攻击的言论，被引发广泛关注，传言称涉及 N多显卡，损失达到千万美刀：

字节起诉实习生篡改代码

很快字节发声，说确有此事，但事实被夸大了，应该说的就是损失千万美元应该不至于这么多：

字节起诉实习生篡改代码

这位实习生田某什么来头？

根据公司核实，田某没有AI Lab实习经历：

字节起诉实习生篡改代码

但田某却能通过篡改代码，成功攻击到大模型。虽然不是AI Lab的，但是就是做到了。

看来攻击大模型这件事，难度并没有想象的那么大。事实是如此吗？

答案是 Yes

通过修改代码攻击大模型，早在2021年就有研究者在计算机安全顶会USENIX发表paper，提出了AI系统存在代码修改被攻击的风险。

这种攻击的专业术语叫做 Blind backdoor attack

只需要修改少量的代码，就能达到极高的攻击成功率。具体的方法我就不在这里展开了，感兴趣的可以去查下，论文如下截图所示：

Blind backdoor attack

AI技术正在快速发展，但AI的安全风险有时却不被重视，导致了内部人员很容易就能攻击到AI系统的问题。

这种问题带来的后果还是比较严重的，否则字节也不会没忍住这口气，起诉这位实习生。损失不仅是看得到的金钱损失，还有训练时间的耽搁，工期的延误，商业拼的是技术，拼的也是时间。

因为AI系统安全防护的滞后，内部人员往往可以找到走后门的方法，去迫害AI系统，有时这也是不可避免的。

既然技术手段无法100%防护到，当出现了这样的情况后，严厉的处理，并通过法律和对于个人而言的“巨额”索赔，未尝不是一种好方法。能给后来人一种很好的警示，以防止此类事件再次发生。

总之，AI是一把双刃剑。

对AI感兴趣的，可以去「AI免费学习网」，访问地址如下，160门相关教程，算是比较全面了，而且还免费：

https://zglg.work

AI免费学习网

我还写了一个40+页的《普通人学AI》.PDF，只需在下面我的公众号回复：AI，即可免费领取：

为了方便学习，我把学习入口也直接放到下面的「阅读原文」那里了，希望这些教程和资料，能帮助到你！

如果觉得对你有用，可以点赞、转发和在看。谢谢你看我的文章，我们下篇再见。

分享转发

2024-11-29发表2024-11-30更新AI / AI消息7 分钟读完 (大约1022个字)

双非计算机硕士，投了109份简历，目前2个offer

首先感谢这位小哥把自己的秋招找工作经历，记录的这么清楚，并愿意分享出来，这样可以帮助更多和他经历相似的今年或以后找工作的学生。

这位小哥的基本情况如下：

1）杭州某双非大学的计算机硕士

2）一区论文1篇，专利1个

3）校奖学金一等1个，二等1个

小哥来自山东，主投地区北京、杭州、青岛、济南。

主投岗位软件开发、算法相关工作。

下面就是他已投递的109份简历，其中标记红色的是已被拒绝的，黄色的是未知的，标绿的是已拿到offer的。

这是第62-109个投递情况：

等划到这里，看到标记绿色已拿的2个offer，分别：

重汽，金蝶

重汽的offer，他已经拒绝了。

对金蝶的评价很好，尽管薪资可能未达到他的要求，但毕竟拿到一个保底的，心里就会安稳不少。毕竟offer再多，最后也只能去一家。

写这篇文章的时候，顺便查了下金蝶的公司文化，个人很喜欢他家的这句：长期坚持明心净心。

下面是小哥刚开始投递的1-61家公司。

刚开始的前30家公司，基本全被拒了，像饿了么、科大讯飞、用友、携程、滴滴、快手、京东、美团、浪潮等：

看到这里的类似学校和学历的毕业生，可以此为参考，多投简历，先拿到保底的offer。

大公司现在录取的学校和学历情况，很多也都有了解，在此不再详细展开，懂的都懂。

有不少网友留言，计算机都这样了，文科女硕士该怎么办：

有人猜测小哥的学校，浙理工或杭电，若是杭电还可以继续冲冲：

总结一下：

1）计算机毕业生找工作，除了学校和学历，另外还有一个很重要的能力，是否有过相关公司的实习经历，如果有1-2家，找工作的优势会大一些。

2）如果实习经历排到第二重要，那么实际动手能力、编程开发、数据结构的掌握情况，应该是第三重要了，公司喜欢招聘去了之后，很快就能干活的。

3）其他那些所谓的培训证书，学校统一培训98%都能拿到的证书，可以放到行李箱带回家，放一边了。

4）大环境无法选择，但精力用到哪些最重要的事情上，我们可以选择，选择不同，导致最后结果也不同。

先相信自己，再让别人相信你。

开源教程推荐

AI免费学习网

https://zglg.work

2 普通人学习AI

1）应该先从AI工具使用开始

2）应该先了解AI基础名词

普通人了解AI大忌：

1）不应该上来就学AI理论

2）不应该排斥AI，认为AI无用

基于上面，我也花费不少时间，做了一个详细的开源教程：《普通人学AI指南》.PDF

咱们先别弄那些高深的AI理论，先玩熟AI基本概念、AI工具、自己电脑搭建AI和知识库。

这个《普通人学AI指南》PDF，一共42页，站长编写，完全开源，在下面公众号回复：AI，直接拿走。

分享转发

2024-12-01发表2024-12-02更新AI / AI消息15 分钟读完 (大约2200个字)

2024年值得去的50家互联网公司名单

2024再有一个月就要和我们说再见了。相信大家这一年又多了一些好的故事跟别人说，祝福关注我的读者朋友们，未来一切顺利。

2024注定是不平凡的一年，AI继续突飞猛进的发展，目前国内互联网公司也都在着力应用AI迭代业务，继续降本增效。

今天这篇文章，盘点2024年最新的互联网科技公司，给未来找工作的朋友多一些参考。其中可能有些疏漏，若发现后欢迎留言补充。

我主要按照三大类（一线、二线、中小厂），排名不分先后，一共汇总了：值得加入的50家互联网公司。

一线大厂

字节跳动，成立于2012年，主营短视频平台，薪资20万-50万人民币，福利包括股票期权、五险一金等。
阿里巴巴，成立于1999年，主营电商平台，薪资20万-40万人民币，福利包括弹性工作、股权激励等。
腾讯，成立于1998年，主营社交平台，薪资20万-60万人民币，福利包括年终奖、医疗保险等。
百度，成立于2000年，主营搜索引擎，薪资15万-30万人民币，福利包括五险一金、股权激励等。
拼多多，成立于2015年，主营电商平台，薪资15万-40万人民币，福利包括年终奖、补充医疗等。
京东，成立于1998年，主营电商平台，薪资15万-45万人民币，福利包括五险一金、股票期权等。
美团，成立于2010年，主营外卖与共享单车，薪资18万-40万人民币，福利包括股票期权、五险一金等。

二线大厂

网易，成立于1997年，主营在线游戏与电商，薪资15万-30万人民币，福利包括五险一金、年终奖等。
哔哩哔哩，成立于2009年，主营二次元文化与视频分享，薪资15万-30万人民币，福利包括健身房、下午茶等。
快手，成立于2011年，主营短视频平台，薪资15万-35万人民币，福利包括弹性工作制、五险一金等。
小红书，成立于2013年，主营社交电商平台，薪资15万-30万人民币，福利包括补充医疗、员工培训等。
携程，成立于1999年，主营旅游预定平台，薪资15万-30万人民币，福利包括五险一金、健康体检等。
滴滴，成立于2012年，主营打车服务，薪资20万-40万人民币，福利包括补充医疗、团队活动等。
360，成立于2005年，主营互联网安全，薪资15万-30万人民币，福利包括带薪年假、五险一金等。
新浪，成立于1998年，主营门户网站与微博平台，薪资12万-25万人民币，福利包括五险一金等。
顺丰，成立于1993年，主营快递与物流，薪资12万-30万人民币，福利包括年终奖、带薪年假等。
蚂蚁集团，成立于2014年，主营金融科技，薪资20万-50万人民币，福利包括健康保障、股权激励等。
饿了么，成立于2008年，主营外卖平台，薪资15万-30万人民币，福利包括股票期权、带薪年假等。
搜狐，成立于1998年，主营门户网站与新闻资讯，薪资12万-25万人民币，福利包括五险一金等。
知乎，成立于2010年，主营知识分享社区，薪资15万-30万人民币，福利包括股票期权、五险一金等。
米哈游，成立于2012年，主营游戏开发，薪资15万-30万人民币，福利包括健康体检、弹性工作等。
高德地图，成立于2002年，主营地图与导航服务，薪资15万-30万人民币，福利待遇包括健康体检、年终奖等。

中小厂

好未来，成立于2003年，主营在线教育，薪资10万-20万人民币，福利包括五险一金、节假日福利等。
猿辅导，成立于2012年，主营K-12在线教育，薪资12万-25万人民币，福利包括年终奖、带薪年假等。
沪江英语，成立于2001年，主营在线语言学习平台，薪资10万-20万人民币，福利包括五险一金、年终奖等。
喜马拉雅，成立于2012年，主营在线音频平台，薪资12万-25万人民币，福利包括带薪年假、健身房等。
Keep，成立于2014年，主营健身APP，薪资15万-30万人民币，福利包括补充医疗、团队活动等。
贝壳，成立于2018年，主营房地产交易平台，薪资15万-30万人民币，福利包括年终奖、带薪年假等。
有赞，成立于2012年，主营电商服务平台，薪资15万-30万人民币，福利包括年终奖、员工培训等。
链家，成立于2001年，主营房地产中介，薪资12万-25万人民币，福利包括员工培训、健康保障等。
自如，成立于2011年，主营租房平台，薪资12万-25万人民币，福利包括补充医疗、员工活动等。
吉比特，成立于2004年，主营在线游戏开发，薪资15万-30万人民币，福利包括股票期权、带薪年假等。
完美世界，成立于2004年，主营在线游戏与影视制作，薪资15万-30万人民币，福利包括年终奖、五险一金等。
三七互娱，成立于2008年，主营在线游戏开发与运营，薪资12万-25万人民币，福利包括员工宿舍、带薪年假等。
优酷，成立于2006年，主营视频分享平台，薪资12万-25万人民币，福利包括五险一金、年终奖等。
陌陌，成立于2011年，主营社交平台，薪资12万-25万人民币，福利包括年终奖、员工活动等。
得物，成立于2015年，主营二手交易平台，薪资15万-30万人民币，福利包括股票期权、带薪年假等。
欢聚集团，成立于2005年，主营视频直播平台，薪资12万-25万人民币，福利包括健身房、团队活动等。
唯品会，成立于2008年，主营电商平台，薪资12万-25万人民币，福利包括五险一金、年终奖等。
斗鱼，成立于2014年，主营直播平台，薪资12万-25万人民币，待遇包括年终奖、带薪年假等。
虎牙，成立于2014年，主营直播平台，薪资12万-25万人民币，福利包括补充医疗、员工活动等。
58同城，成立于2005年，主营生活服务平台，薪资12万-25万人民币，福利包括带薪年假、健身房等。
BOSS直聘，成立于2014年，主营招聘平台，薪资12万-25万人民币，福利包括五险一金、年终奖等。
同程艺龙，成立于2004年，主营旅游服务平台，薪资15万-30万人民币，福利包括五险一金、带薪年假等。
驴妈妈，成立于2011年，主营在线旅游平台，薪资12万-25万人民币，福利包括年终奖、健身房等。
途牛，成立于2006年，主营旅游服务平台，薪资12万-25万人民币，福利包括五险一金、年终奖等。
去哪儿网，成立于2005年，主营旅游预定平台，薪资12万-25万人民币，福利待遇包括带薪年假等。
牛客网，成立于2011年，主营IT类招聘平台，薪资10万-20万人民币，福利包括补充医疗等。
脉脉，成立于2013年，主营职场社交平台，薪资12万-25万人民币，福利包括股票期权、健身房等。
满帮集团，成立于2015年，主营货运物流平台，薪资15万-30万人民币，福利包括健康体检、年终奖等。

分享转发

2024-12-02发表2024-12-03更新AI / AI消息7 分钟读完 (大约1046个字)

基于LangChain开发个人知识库

开发一个基于 LangChain 的 AI 知识库系统是一个非常强大的解决方案，能够帮助你组织、搜索和交互式地利用你的文档数据。

以下是详细的步骤、代码和说明。

步骤详解

1. 环境准备

首先，确保安装以下必要的依赖项：

1	pip install langchain openai chromadb llama-index python-dotenv flask

LangChain：用于构建智能语言处理链。
ChromaDB：用于存储和查询文档向量化索引。
LlamaIndex：用于文档分割和索引构建。
Flask：用于搭建 Web API。
python-dotenv：用于管理环境变量。

2. 准备工作

获取 OpenAI API 密钥，并将其存储在 .env 文件中：
1
OPENAI_API_KEY=your_openai_api_key

创建一个项目目录结构：

knowledge-base/
├── app.py             # Flask 应用主程序
├── documents/         # 存放文档的目录
│   ├── example1.txt
│   └── example2.pdf
├── requirements.txt   # 依赖清单
├── .env               # 环境变量文件

3. 代码实现

3.1 加载文档

支持多种文档格式，如 TXT 和 PDF。可以通过 LangChain 的 DocumentLoader 组件加载文档并进行预处理。

from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings

def load_documents(folder_path):
    """加载指定文件夹中的文档"""
    import os
    loaders = []
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        if filename.endswith(".txt"):
            loaders.append(TextLoader(file_path))
        elif filename.endswith(".pdf"):
            loaders.append(PyPDFLoader(file_path))

    documents = []
    for loader in loaders:
        documents.extend(loader.load())
    return documents

3.2 创建文档索引

将文档分割成小块，然后生成向量索引以便快速检索。

def create_vectorstore(documents):
    """将文档转换为向量存储"""
    # 文本分割器
    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
    docs = text_splitter.split_documents(documents)

    # 向量存储
    embeddings = OpenAIEmbeddings()
    vectorstore = Chroma.from_documents(docs, embeddings)
    return vectorstore

3.3 查询文档索引

利用 LangChain 的 RetrievalQA 模块，结合向量数据库和 OpenAI 模型，生成对用户查询的响应。

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

def build_retrieval_chain(vectorstore):
    """构建基于检索的问答链"""
    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
    llm = OpenAI(temperature=0.5)
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff"
    )
    return qa_chain

3.4 搭建 Flask API

实现一个 REST API，让用户可以上传文档并执行查询。

from flask import Flask, request, jsonify

app = Flask(__name__)

# 初始化
documents = load_documents("documents/")
vectorstore = create_vectorstore(documents)
qa_chain = build_retrieval_chain(vectorstore)

@app.route("/query", methods=["POST"])
def query_knowledge_base():
    """处理用户查询"""
    query = request.json.get("query")
    if not query:
        return jsonify({"error": "请提供查询内容"}), 400
    response = qa_chain.run(query)
    return jsonify({"response": response})

@app.route("/upload", methods=["POST"])
def upload_document():
    """上传新文档"""
    file = request.files.get("file")
    if not file:
        return jsonify({"error": "请上传文档"}), 400

    # 保存文件
    filepath = f"documents/{file.filename}"
    file.save(filepath)

    # 重新加载和更新索引
    new_docs = load_documents("documents/")
    global vectorstore, qa_chain
    vectorstore = create_vectorstore(new_docs)
    qa_chain = build_retrieval_chain(vectorstore)
    
    return jsonify({"message": f"文档 {file.filename} 上传成功，并已更新知识库！"})

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=8000)

4. 运行和测试

启动服务

在项目目录下运行 Flask 应用：

1	python app.py

测试接口

上传文档：

1	curl -X POST -F "file=@documents/example1.txt" http://127.0.0.1:8000/upload

查询知识库：

1
2
3

curl -X POST http://127.0.0.1:8000/query \
-H "Content-Type: application/json" \
-d '{"query": "这篇文档的主要内容是什么？"}'

5. 功能扩展

多语言支持：集成 LangChain 的 Prompt 模板，支持根据用户需求调整回答语言。
语义搜索优化：切换向量数据库为 Pinecone 或 FAISS。
Web 前端：使用 Streamlit 或 Vue.js 创建用户友好的界面。
权限管理：为上传和查询功能添加用户身份认证。

6. 部署到云

将此系统部署到云服务器，例如 AWS 或 GCP。

容器化：使用 Docker 创建容器。
反向代理：使用 Nginx 提供 HTTPS 支持。
监控与日志：通过 ELK 堆栈监控系统运行状态。

这是一个完整的基于 LangChain 的知识库管理系统，既支持文档的动态更新，又能通过自然语言高效查询内容，非常适合你的需求！

分享转发

2024-12-03发表2024-12-04更新AI / AI消息8 分钟读完 (大约1262个字)

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析

你好，我是郭震！

NeurIPS，全球最顶级的AI会议，代表当今最顶尖的AI最新研究技术。

能录得一篇这样级别的会议，难度不小。如果再在其中荣获最佳论文，那就相当于登顶珠穆朗玛峰。

今年NeurIPS的最佳论文属于中国研究者，属于北大、字节，其中第一作者是田某：

他或许对大家有些陌生，不过，一提他在今年攻击了字节大模型，他就变得被人所熟知了。

好吧，搞科学的研究员，要想被被普罗大众所知晓，好像得另辟蹊径，比如像田某走的路子。

玩笑了。千万别学！

前段时间被字节索赔800万：

在顶会，获得最佳论文奖，本来如此美好的事情，却被一时冲动，而变得…，令人唏嘘不已。

可谓戏剧拉满！

此文顺便分析下这篇最佳论文，其最大创新在哪里？high-level idea是什么？

光看摘要的前半部分，就知道这篇论文不一般，它提出了一种新的图像生成范式，VAR

VAR是自回归生图模型，通过“下一尺度预测”，这种多尺度的生成方式更贴合人类感知图像的层次性。

而传统的扩散模型都基于“下一像素预测”，进行图像生成。

光凭这点，就知道此论文不一般，具有开创意义，基于下一尺度预测的VAR带来了哪些图像生成效果的优势呢？

优势同样无比明显，可以说相当amazing! 基于ImageNet，低像素向上生成高像素的图像，是有难度的，但VAR生图的清晰度优秀：

优势1：在ImageNet 256×256数据集上的实验显示，VAR的FID达到1.73，远好于基线模型，将近11倍的提升，相当惊艳。

优势2：VAR展示了类似于大模型的Scaling Laws，Zero-shot的泛化能力。如此霸气的泛化能力，所带来的好处也显而易见，为图像修复、扩展和编辑等多任务，带来飞跃。如下，能对图像一顿魔改：

文本：LLM；视觉：VAR，做到与LLM平起平坐，足够见得VAR的举足轻重。

优势3：VAR通过并行生成显著降低了时间复杂度，相比传统自回归模型，生成速度提升了约20倍，也是相当amazing！

能拿到这样的大结果，基于的灵感，也是简单朴素：

不再逐像素预测，

而是逐尺度预测！

如下论文的用词，next-scale prediction 或者 next-resolution prediction:

总结来说：

论文的核心idea，一个词：从粗到细（coarse to fine）

为什么从粗到细，就能取得这样好的结果？？？

想想人类在感知或创作图像时，是怎样的？

通常是，先把握整体结构（粗略尺度），然后再填充细节（精细尺度）。

VAR就是效仿了这个特点，通过从低分辨率到高分辨率逐步生成图像，与这一感知过程一致，从而提升了生成的自然性和一致性。

先生成整体布局，再在局部进行细化。如下图所示，r1,r2,r3,像素粗糙到看不出是什么，直到细化到rk：

这种是明显区别于（b) AR，下一图像token的自回归方式：

论文展示了VAR 的 scaling laws，如下一共9个子块，每个子块的最右下角块学习的最充分，所以图像最清晰。比如，中间正弦波子块，最右小角的正弦波图像最清晰：

原因就是每个子块的x维度是训练阶段（代表模型训练阶段），y维度是训练层数（代表模型复杂程度，16层，30层等等）

另一个VAR的重要优势，类似于大模型的zero-shot泛化能力，在其身上也能看到展示：

泛化能力强大了后，图像修改起来就易如反掌，可以一顿魔改：

继续一顿魔改：

结论：本是人才，可一个魔改后，成了鬼才！

分享转发

2024-12-05发表2024-12-08更新AI / AI消息9 分钟读完 (大约1290个字)

黑客帝国要来！只要一张图，就能生成长达1分钟的游戏视频，谷歌最新AI模型相当惊艳

今日谷歌DeepMind发布Genie2，下面是我对此模型的一个基本分析。

这个模型如何玩呢？比较简单，我们只需要输入：

下面一张图+下面一段提示词：

提示词：一个电脑游戏场景，展示了一个粗犷的石洞或矿洞内部。画面采用第三人称视角，镜头从主角后方稍高处俯视。主角是一名手持长剑的骑士，站在三座石砌的拱门前。第一座拱门后，可以看到隧道内生长着散发着荧光的绿色奇异植物，给人一种梦幻的感觉。第二座拱门通向一条长廊，洞壁上布满铆接的铁板，远处隐约透出一种不安的光芒。第三座拱门内是一段粗糙的石阶，蜿蜒向上通往未知的高处，增添了探索的神秘感。

然后模型就会输出下面三段交互视频，注意看：

很有意思！

通过键盘和鼠标我们可以操控游戏玩家通往哪个门：

比如通往第三座拱门：

操控玩家进入第一座拱门：

操控玩家进入第二座拱门：

是的，太神奇了，要知道，只需要输入一张图+一段提示词，就能玩到这个高度！

不得不惊叹，这样多种交互效果。

那么，Genie2是个啥样子模型呢？

Genie2 是 Google DeepMind 开发的先进AI模型，能够根据文本或图像提示生成可交互的 3D 虚拟世界。

接下来初步总结Genie2的最大三个特点：

第一，Genie2作为世界模型，能够多视角模拟物理世界。

证明它能够模拟物理世界，几个视频：

1）模拟不同角色、不同姿态的飞行：

2）模拟物理世界的重力效果，仔细看，这效果确实够逼真：

再看这个视频，模拟马起跳又受到重力下降的画面，真的足够逼真了：

模拟物理世界的光源，注意看右下角，代表不同视角看世界：

第二，Genie2不光能够生成视频，更加激动人心的是，它可以和人类交互，这个简直不能再友好了！

再上证据。如下所示，输入：打开每扇门的指令，使用Genie 2生成了一个包含两扇门（蓝色和红色）的3D环境。

接下来它就开始表演了，我们能通过键盘和鼠标来控制游戏角色，而Genie 2负责实时生成游戏画面：

哪些视频可以证明其交互能力？

接着看。

能够通过箭头键，控制移动机器人，这个看起来容易，但是背后实现难度不小，模型需要计算出移动角色，而不是金字塔，

也不是移动树木，而是通过箭头键移动角色：

第三个最大特点，推断并生成一致的潜在动作，具备自主学习和环境理解能力。

看看下面的风吹草动：

看看智能体间的相互建模和学习：

以上，对于每个人类与Genie 2互动的demo，模型仅需要单张图片+提示词输入，

然后就生成了上面的交互视频。

在长达一分钟的时间里，Genie 2可以生成一个一致的世界，持续时间直接长达10-20秒！

生成一个一致的世界长达10-20秒，是很有挑战的。

接下来，任何人都可以用文字描述自己想要的世界，选择自己喜欢的图片，

然后进入这个新创建的世界，并且可以使用键盘和鼠标与之互动，

哇，真的amazing！

难怪有网友留言，直呼：黑客帝国要来：

AGI的到来，看来已经并不遥远了。

Genie 2 已经学了超过 20 万小时的未标注互联网视频，这是一个什么概念？

如果一个人每天坚持观看3小时的视频，完成20万小时的观看量，需要约：

183年

183年，我的天呢！Genie 2还真是个机器。

分享转发

2024-12-07发表2024-12-08更新AI / AI消息7 分钟读完 (大约1045个字)

字节再送神助攻，强化微调来了，大模型继续狂飙

你好，我是郭震

今日AI技术再迎来突破，OpenAI发现一种微调技术，能让大模型o1-mini超越地表最强大模型o1

如下图所示，微调后的o1-mini竟然超越了o1:

他们称这项微调技术为：强化微调（Reinforcement Fine-Tuning)，下文统一简称为RFT.

更令人意想不到的是，强化微调RFT的技术思路，竟然全部来自字节。

下面这篇Reasoing with REinforced Fine-Tuning：

就这样字节再送神助攻。

OpenAI拿它来训练自家模型，再让大模型继续狂飙，o1-mini涨超o1.

因此要想了解强化微调RTF，通过字节的这篇论文就能知道大概。先看看下面这幅图：

此图来自字节的这篇论文

此图讲解了RFT的主要步骤，首先经过监督微调（Supervised Fine-Tuning )，简称SFT，目的就是为了预热RFT，通过Chain of Thought (COT) ，也就是上图中的标记 e，得到很多推理路径样本。

RFT预热后，进入第二阶段，使用在线强化学习算法训练，训练完成得到最终Policy. 使用的强化学习算法是OpenAI提出的PPO.

总结来说RFT步骤：先SFT，后PPO.

下面说下RFT使用的一个核心算法：PPO

PPO现在强化学习中使用很多，主要原因就是它让策略更新稳定，并且训练速度还挺快。

如下是PPO的三个核心要点，PPO通过引入采样比，使用剪枝损失函数，确保了策略的更新幅度不会过大，使用epochs 和 mini-batch重复利用样本从而提升样本利用率：

可这是为什么，如何做到策略的更新幅度不会过大的？这个问题曾经一直很困扰研究者。

采样比的公式给出了新旧策略的变化率。

然后关键来了。

引入了牛逼的剪枝目标函数，通过这个损失函数加大惩罚那些变化率大的策略更新。

具体来说，如下图所示，超过阈值1或低于某阈值2，都认为变动过大，然后剪枝发挥威力，返回一个较小的相对于At的权重：

那么At是什么？

At是优势函数（Advantage Function)

衡量了动作相对于状态的平均好坏程度，如果大于0，表明当前策略下推理出的动作a优于平均水平，具体看下面截图：

这里面又引出了强化学习最为核心的、最为基础的两个函数，动作价值函数，状态价值函数。它们直接用于评估当前决策（s,a)后，在未来的回报变现。

简单理解，这是两个”算命”函数，一旦训练后，模型便具备了预测未来的能力。

深度强化学习，是AI领域很有意思的一个分支，感兴趣的可以进一步深入理解里面的细节，限于篇幅，不再继续展开。

总结一下子

强化微调RFT有望成为大模型微调的新范式，个人理解尤其是在复杂推理方面有望有较大或大幅性能提升。

它使用了SFT做热身得到大量样本，然后PPO强化学习，得到最终的决策Policy，一旦有了很好的Policy，复杂推理任务给到它后，它就能决策出最佳的推理路径step1, step2,step3,…stepn，从而更有可能得到正确答案。

最后一句，OpenAI得感谢字节做出的技术贡献。

分享转发

2024-12-10发表2024-12-11更新AI / AI消息10 分钟读完 (大约1485个字)

字节要求攻击大模型的实习生赔偿800万

你好，我是郭震

Sora震撼上线，大模型继续狂飙。

通过公布的一些短视频，来看Sora的视频生成效果。

为了更加容易在公众号展示，把视频尺寸压缩为原来的1/3，大家可以看看效果：

以上5个Sora生成视频，因Sora是闭源的，具体的技术细节，无从得知，只能通过公布的技术框架，了解到：

Sora 可能基于GPT-4 多模态版本为基础模型，引入扩展模型（如扩散模型或基于时序卷积网络的生成模块），以支持视频帧的生成与序列化，通过 Transformer 的时间嵌入机制对视频帧间的时序关系进行建模。

文本到视频的生成通过一个联合的嵌入空间实现，将文本和视频的语义统一对齐。初步生成低分辨率的视频帧序列，使用超分辨率网络提升视频帧质量（如 Real-ESRGAN 模块）。

可能采用扩散去噪模型进行多帧生成的平滑优化，保证连续性。

更多视频生成的技术细节，我们不妨从上周发布的腾讯版Sora来一探究竟，腾讯开源了视频生成的代码，部署在下面两个平台：

同时也发布了技术report：

还能通过PC在线免费体验：

腾讯视频模型称为HunyuanVideo，简称混元视频模型。

根据官方介绍，模型拥有130亿参数，是目前开源领域内参数规模最大的文本生成视频模型。

先看腾讯版Sora生成的几个视频，同样为了兼容公众号文章，视频尺寸压缩为1/3：

因视频已被压缩，抛开清晰度，你能发现：Sora生成的5条视频，腾讯混元生成的这5条视频，有什么区别吗？

衡量文生视频好坏，最重要的三个核心指标是什么？如下所示：

最重要的指标，物理一致性，也就是视频动作是否符合真实物理世界，如重力效果；

第二，场景一致性，帧间是否连续，如布局、光线；

第三，视频是否准确传达了输入文本的核心语义。

下面我亲自实践下，腾讯混元视频模型效果，进入网站，输入这些文字：

中国古代盛唐的江南豫章美景：落霞与孤鹜齐飞，秋水共长天一色

然后点击右下角的按钮，就进入视频生成阶段：

步骤可以说是非常简单，做到了一句话生成视频。提示预计5分钟，实际大概2分钟左右就出来下面视频：

为了展示在公众号里，同样尺寸压缩为1/3后展示：

根据腾讯混元视频模型技术Report，混元计算资源远远小于闭源的Sora模型：

腾讯混元视频模型，目前在开源里面得分最高：

混元模型架构如下：

模型在时空压缩的潜在空间中训练，该空间通过因果3D VAE压缩。

文本提示通过大语言模型编码，并作为条件使用。

以高斯噪声和条件为输入，模型生成输出潜变量，并通过3D VAE解码器解码为图像或视频。

3D VAE压缩组件是核心技术之一，其架构如下所示：

上图中间小块，即为压缩后隐式表达。

另一个核心是文本编码组件：如下图右侧所示，腾讯提出了预训练多模态编码方法：

下面详细介绍了MLLM优势，包括：对齐能力强，图片细节处理和复杂推理强，指令跟随能力更强：

训练阶段，模型不基于预训练，而是完全从零开始训。损失函数另外引入了感知损失和对抗损失。训练策略是课程学习策略，从低到高分辨率：

推理阶段主要challenge，单GPU内存会爆。处理方法：采用时空平铺策略，将输入视频在空间和时间维度上分割成重叠的平铺块。每个平铺块分别进行编码/解码，输出结果再拼接在一起：

关于混元视频模型的scaling laws，会在接下来研究：

论文给出了更多生成视频图形展示：

更多有趣的应用，姿势跟随对齐：

多姿势和表情对齐：

分享转发

2024-12-21发表2024-12-21更新AI / AI消息14 分钟读完 (大约2082个字)

自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等

你好，我是郭震

今天教程关于在自己电脑搭建大模型，支持开源的大模型，像主流的通义千问2.5，Llama3，教程还包括如何使用这些大模型做接口调用，实现自动化输出。

如下图所示，这是我自己的电脑安装的两个AI大模型，一个是qwen 7b尺寸，另一个是llama3 8b尺寸：

ollama安装的两个开源AI大模型

本地部署大模型有哪些好处呢？

首先，因为这些大模型都是开源的，安装在自己的电脑上也是免费使用的，如下图所示启动qwen7b后，我可以直接在命令窗口提问它，全球各地有记载的历史最低温度是多少？，后面是qwen的回复：

通义千问本地回复

其次，安装大模型在自己电脑除了我们可以直接免费使用它外，还有一个很大的好处，就是我们可以结合自己的私有文件系统，打造一个大模型+个人知识库的AI系统，既保护了个人数据隐私，也让AI「更懂你」。

大模型的一些基本知识科普

可能点进来看我这篇文章的朋友，有不同行业、不同专业的，可能对一些大模型的基本概念不太了解，下面就先做一个基本梳理。

其中比较重要的比如qwen7b, llama8b，这里的7b、8b代表什么？

b是英文的billion，意思是十亿，7b就是70亿，8b就是80亿，70亿、80亿是指大模型的神经元参数（权重参数 weight+bias）的总量。目前大模型都是基于Transformer架构，并且是很多层的Transformer结构，最后还有全连接层等，所有参数加起来70亿，80亿，还有的上千亿。

大模型和我们自己基于某个特定数据集（如 ImageNet、20NewsGroup）训练的模型在本质上存在一些重要区别。主要区别之一在于，大模型通常更加通用，这是因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力，从而展现出“无所不知、无所不晓”的特性。

相比之下，我们基于单一数据集训练的模型通常具有较强的针对性，但其知识范围仅限于该数据集的领域或问题。因此，这类模型的应用范围较为局限，通常只能解决特定领域或单一任务的问题。

Scaling Laws这个词大家可能在很多场合都见到过。它是一个什么法则呢？

大模型之所以能基于大量多样化的数据集进行训练，并最终“学得好”，核心原因之一是Scaling Laws（扩展规律）的指导和模型自身架构的优势。Scaling Laws指出参数越多，模型学习能力越强；训练数据规模越大、越多元化，模型最后就会越通用；即使包括噪声数据，模型仍能通过扩展规律提取出通用的知识。而Transformer这种架构正好完美做到了Scaling Laws，Transformer就是自然语言处理领域实现扩展规律的最好的网络结构。

知道这些基本知识后，我们回到安装大模型到本地步骤上。一共只需要三步就能做到和大模型在本地会话。

第一步，我使用的是ollama管理各种不同大模型，当然还有其他工具，不过ollama是比较直接、比较干净的，如下所示，一键下载后安装就行了，安装过程基本都是下一步：

安装ollama