Fengling's Blog

首页

算法竞赛

大学生涯

大学生涯

未读

记第一次听朋友K歌

发表于2025-03-22更新于2025-10-24

于2025年3月22日听海事同学K歌，很好听，很想唱，但我太菜。特此决定以后有空偷偷一个人去K歌，然后自己听。

未读

20250319周报

发表于2025-03-20更新于2025-10-24 weekly report

日报2025031320250314 2025031620250317调老师要求要复现的论文代码，成堆的bug，感觉写代码的人很有恶意（恼）。甚至把temperature拼成temprature，这样写openaiAPI根本是拉不到数据的！这论文是怎么整出来的？？？？代码证据： from github实验结果： 20250315休息。 20250317~20250319在4090上跑知识库嵌入模型，但是目前显卡占用比较高，跑的很慢很慢…… 其他写了个社团网站demo，浅度学习了一下vue、网站搭建、github action之类的东西。感觉这种什么正事都没干，接下来不管这个Sociodojo到底是怎么回事，我还是先读点论文先吧……这代码真的没法复用我真的想全砍了重写啊。

未读

20250312周报

发表于2025-03-10更新于2025-10-24 weekly report

日报20250306阅读ChatDev代码，检索了解manus。 20250307突发奇想写了个简单的minecraft-codeforces agent，检索了解cursor。 20250308阅读论文《SOCIODOJO: BUILDING LIFELONG ANALYTICAL AGENTS WITH REAL-WORLD TEXT AND TIME SERIES》，学习有关agent环境搭建的内容。 20250309继续阅读，这论文怎么还自己造词呢，真莎士比亚啊。给校内老师帮忙出了点算法题。 20250310论文阅读收尾，写论文summary。qq群里出现了一个神级bot，我快要分不清了。 20250311~20250312阅读论文代码（代码质量令人遗憾），跟学院团委吵社团名字。 Sociodojo 论文阅读论文链接 SummarySociodojo由四部分组成，信息来源、时间线、知识基础和工具箱。(1)Task设计：基于一个简单逻辑，从可观测的 wt 推导出隐藏的 st（透过现象看本质）。考虑到消息传递需要时间，因此隐藏的 st 往往是过去的。(3.1.1)。(index,m ...

未读

20250305周报

发表于2025-03-05更新于2025-10-24 weekly report

日报20250302想了一上午到底自己是在做什么下午按照计划打了一场算竞比赛晚上跑cf网站的爬虫被反爬打趴 20250303爬虫依然被打趴。向刘健师兄请教到底自己该怎么做，通过交流明确了很多基本概念，消除了我的很多疑惑并明确了需要做的事情————找到感兴趣的论文就去认真读并复现。 20250304想起老师所说的ChatDev，成功运行了它的代码，我尝试让他“生成一个五子棋程序”(ChatGPT3.5)，我认为这不算一个很难的要求，但发现好像效果不是很好。注：原论文评估时就是用的GPT3.5。同时阅读论文，大概读了小半。另外群u给了个镜像站地址，爬虫站起来了，虽然已经没大用了。 20250305读完了论文，开始阅读代码，学习到了很多之前不会的python技巧，如使用包装器函数将对Message的访问重定向str类中。回顾所学，写这篇周报。 ChatDev 论文阅读论文链接 Summary仿照软件工程中分工模式，让模型分别扮演CEO(design), CTO(communicate with programmer), Programmer(coding), Reviewer(code re ...

未读

20250219周报

发表于2025-02-19更新于2025-10-24 weekly report

周报 20250213~20250219论文阅读及复现正在阅读 Deepseek LLMDeepSeek LLM: Scaling Open-Source Language Models with Longtermism 学习了 LlaMA 架构pre-Norm 把归一层放前面(我在复现Transformers架构时好像也这么做了) RMSNorm 一种更高效的归一层与传统的Layer Norm相比，RMSNorm计算起来更加高效，因为它不需要对输入进行减去均值的操作，从而减少了计算量和内存占用。给定一个输入向量(x)，RMSNorm的输出可以表示为：[ y = \frac{x}{\sqrt{\mathbb{E}[x^2] + \epsilon}} \cdot \gamma ] 这里： ( \mathbb{E}[x^2] ) 表示输入向量(x)各元素平方的平均值。 ( \epsilon ) 是一个小的常数，用于防止分母为零的情况，保证数值稳定性。 ( \gamma ) 是一个可学习的参数，用于缩放归一化后的结果。 SwiGLU，一种具有门控机制的激活函数，增强模型非线性表达 ...

未读

20250113周报

发表于2025-01-20更新于2025-10-24 weekly report

周报 2025014~20250120transformers复现d_model = 512n_layers = 6n_heads = 8ff_hidden_dim = 2048 均使用贪心搜索。原论文使用 beam=4, alpha=0.6 的束搜索原论文小模型bleu4分数为 28.4 lr batch_size epoch_cnt final_loss bleu4 score description 0.000005 64 2 3.23 6 0.00005 64 2 1.95 23.7 0.00003 64 3 1.93 24.0 0.00001 64 4 2.08 21.5 0.0005 ? ? ? 28.4 原论文代码能力提升计划“良好的代码能力”究竟指什么不太懂，感觉在语境下指的是类似于项目能力的样子，能自行完成环境搭建和代码编写用来把积木搭出来。环境搭建需要较强的信息检索能力，代码编写主要要求能理解代码运行逻辑（然后其实就可以写了吧……）。可能的一些建议针对有c以及python基础，面向对象语言基础的同学，如群里的“走肖木 ...

未读

20250113周报

发表于2025-01-11更新于2025-10-24 weekly report

周报 20250107~20250113还在搞transformer使用已有的tokenizer进行数据预处理追踪向量形状多打注释。 multiheadattention 的输入与预期不同[seq_len, batch_size, d_model] 更改运算位置到GPU记得多打 .to(device) 有些mask是不需要的比如mem_mask 不合理的tgt设置导致出现模型偷看答案以及一开始没搞懂什么叫做 shift right 出现nan，尚未找到原因nan的原因是因为把attn_mask 的True和False写反了然后就出现模型极其容易梯度爆炸的问题，明天继续调……现在它能正常运行7个batch……然后梯度爆炸下周计划在保持心态不爆炸的情况下搞定这个玩意

未读

20250106周报

发表于2025-01-06更新于2025-10-24 weekly report

周报 20241231~20250106 啊？怎么一周过去了啊？怎么一年过去了我做了啥DL学习方面 20241231~20250103目前在复现transformer阶段，很遗憾这周并没有很多时间搞这个。目前能够理解它的原理，但是代码实在不太（极其不）熟练，可能还需要一些时间调试并确保搞懂代码。主要困难来源于搞不懂torch中xx函数xx类构造方法参数之类的问题，以及一些愚蠢的手误。回家跨了个年 20241231~20250101课程设计 20250102~20250107这周是数据结构课程设计时间，需要挺多时间用来写代码，本来是不需要很多的，但是我找了个好玩的题目，并且我的老师们热衷于看可视化，所以虽然算法部分只花了一天时间看论文，半天时间写代码，但花费了极其大量的时间学习可视化。过程中掌握了基础的networkx和manim两个可视化库的应用，制作了简单的图可视化以及3b1b同款视频来演示。感觉有点但不是非常浪费时间，一是这门课的分数大概还不错的，二是3b1b的视频风格真的很帅。下周计划明天（20240107）要被大巴拉出去认识实习并写个报告。搞定transformer ...

未读

transformer_replication

发表于2024-12-28更新于2025-10-24 机器学习

复现transformerday1 配置环境&下载数据集123conda create --name transformer python=3.8 -yconda activate transformerpip install torch torchvision torchaudio 1pip install datasets 如果没有安装上 1conda install -c conda-forge datasets 然后配置环境变量修改到国内镜像 12pip install -U huggingface_hubexport HF_ENDPOINT=https://hf-mirror.com 数据集：https://huggingface.co/datasets/wmt/wmt14 运行代码下载 12345678from datasets import load_datasetds = load_dataset("wmt/wmt14", "de-en")print(ds)print(ds['train'][0:5]) 数据集下载在了 1~/.cache/huggin ...

未读

Hello World

发表于2024-12-28更新于2025-10-24

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment

风铃夜行