书生大模型实战营——L0G1000(Linux基础知识) Linux + InternStudio 关卡1. InternStudio开发机https://studio.intern-ai.org.cn/ 功能:创建开发机、可视化文件夹、团队开发、SSH配置 2. SSH及端口映射2.1 SSHSSH全称 secure shell, 即 安全外壳。 通过 加密和认证机制实现 安全访问 和 文件传输。 通信双方需要 先建立TCP连接,协商使用的版本号和各 2024-10-22
AI掘金训练营刷题 题1 多米诺骨牌# 问题描述 多米诺骨牌游戏规则非常简单,将骨牌按一定间距的尺寸排成单行,或分行排成一片。推倒第一张骨牌,其余发生连锁反应依次倒下,或形成一条长龙,或形成一幅图案。 小 A 觉得多米诺骨牌超级没意思,所以他想了点小花招。 小 A 将 n 个多米诺骨牌放在一条线上,每一块都垂直竖立。他同时将一些骨牌向左或向右推倒。注意:不会出现连续向左或者向右推的情况。 每过一秒,被推向左边或右边的 2024-10-14
基于图片生成诗句(三) 基于图片生成诗句(三)1 改进措施改进来源:Rigid Formats Controlled Text Generation (aclanthology.org) 诗句的生成对 句子的韵律,格式,完整性 要求较高。 是否能 指定 诗句的格式模板 从而生成诗句? 基于预定义格式约束的诗句生成 1.1 Contributions 一个新的用于严格格式控制文本生成的 预训练和微调的架构 制定 符号集 来 2024-09-17
GCN相关介绍 GCN相关介绍图数据有一个很明显的特征,相邻或相近的节点存在一定的空间依赖关系,这种关系传统神经网络很难捕获,为此,图神经网络应运而出。 1 概念图网络核心思想是依据图结构的空间依赖关系来表征现实世界中真实的特征之间的相互作用关系,通过对节点特征进行聚合生成信的节点的特征表示。 GCN 本质: 提取 图结构 的空间特征 2 基于空间角度的GCN2.1 邻接矩阵A对BP神经网络:$f = 2024-09-15 #GCN
CLIP模型原理及实现 CLIP模型CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的一种用于图像和文本联合表示学习的模型。CLIP的核心思想是通过对比学习来预训练一个模型,使其能够理解图像和文本之间的关系。 对于一个批次中的每个图像-文本对,模型会计算图像和文本的特征向量,并使用对比损失函数来优化模型参数。对比损失函数的目标是使得匹配的图像-文本对 2024-09-15
diffusion模型介绍 Diffusion模型1 介绍扩散模型本质是学习真实的数据分布,从而从中抽样,生成新样本。 diffusion过程:不断给真实图片加噪声,直至变成纯噪声。如何,训练一个解码器去噪,逐步进行,直至回复成原本的真实样本。 2 生成模型的目标学习到的数据分布要尽可能符合原始训练数据分布。 $P_{\theta}(x)$模型所产生的图片的改了分布, $\theta$表示模型的参数 $P_{data}(x 2024-09-07
文生图的各种模型 各种文生图的模型DALL-E参数量:120亿 基于 dVAE 训练: 训练一个dVAE, 训练dVAE编码器和dVAE解码器 将文本编码和图片token进行拼接,训练一个自回归transformer来建模文本和图片的联合分布 训练目标:最大化ELBO GLIDE参数量:35亿 把 指导扩散应用于文本生成图像的问题。 使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 pro 2024-09-06
计算机视觉 计算机视觉第一节基础知识 图像预处理: 特征提取:SIFT 、HOG SIFT:尺度不变特征变换 构建尺度空间,检测极值点作为特征点(LOG, DOG) 方向匹配 关键点描述符 关键点匹配 HOG: 特征表示: 训练ML模型: 传统图像分类 基于词袋的图像分类 计算特征点(SIFT, HOG)的相似度 2024-08-29
基于图片生成诗句(二) 基于图片生成诗句(二)一、CLIP模型该模型的核心思想是使用大量图像和文本的配对数据进行预训练,一学习图像和文本之间的对齐关系。CLIP包含2个模态:文本和视觉模态。 Text Encoder: 用于把文本转成低维向量表示 Image Encoder:用于把图像转成类似向量表示 在预测阶段,计算文本和图像向量之间的余弦相似度来生成预测。 1. Components 1.1 Image Enco 2024-08-27
基于解耦注意力的GraphTransformer 基于解耦注意力的GraphTransformer本项目致力于改进单目3D人体形状和姿态估计技术,基于 SMPL 模型实现高效和精准的姿态预测。项目的核心创新在于对VIT架构的优化,通过解耦注意力机制,显著降低了特征计算的复杂度,将计算成本从二次计算减少到线性层面。此外,我们在VIT中引入了图卷积网络(GCN),以对人体关节表示进行深度特征提取,增强了模型对空间结构信息的捕捉能力,从而进一步优化了目 2024-08-24