作业热门问题:老师,我作业数据呢?在希冀平台实验2中,找到它的作业那一栏,能注意到左上角突然出现了 实验数据 一栏。
然后就可以载入数据了。
hive不支持使用##作为分隔符,采取了正则匹配成功加载了数据。
first edition was made by deepseekfix by fenglingthank for @zc.
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614 ...
作业将csv文件导入希冀平台更多-上传文件至远程桌面
首先将数据上传到hadoop服务器
这里,建议先根据希冀平台的教程跑通 WordCount 项目。注意 Hadoop MapReduce 作业要求输出目录不能预先存在,以防止数据覆盖或丢失。Deepseek chat
使用cat命令查看文件存储格式观察到使用换行分割一组数据,逗号分隔一项数据
关于代码实现,有以下几个思考,可选择性采纳:
根据数据格式自定义Writable并重写toString函数
readline已经被废弃,建议使用BufferReader
直接全部使用LongWritable传输,在必要时转换为float格式
作业代码以下仅供参考
123456789101112131415161718192021222324252627282930313233343536373839import java.io.IOException;import java.time.LocalDate;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.i ...
我是sb,我没报上六级
20250920 那几天在丰矿地找可用的论文做复现填充对照组
周末&周一闲得无聊,要了点活,做了一下entropy在结果正确和失败的对比实验。没区别。
继续仔细阅读了 Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models 这篇综述,目的是找论文。
令人遗憾的是我找的论文都有较大的复现难度,代码问题有点多如 SimPO: Simple Preference Optimization with a Reference-Free Reward 这篇论文由于近半年它的依赖更新,导致环境配置困难(尝试五遍无法打赢,已经尽力使用这篇文章当时的环境……) (令我十分遗憾,这篇文章的作者之一是chendanqi,在算法竞赛领域有一个以她命名的trick叫做cdq分治,就是她提出的。),事实上通过检查issue看得出之前(指今年1月以前)复现这篇文章并没有那么困难……
阅读 DAST: Difficulty-Adaptive Slow Thinking for Large Rea ...
Part1步骤3ssh连接hadoop服务器1234ssh masterssh slave1ssh slave2ssh slave3
建议开启五个tab,最后一个是主机,不执行任何ssh命令
terminal开启更多tab左上角file->open tab
步骤4在master的tab中执行:
1bash /scripts/hadoop/start-hadoop.sh
在主机tab中执行:
12mkdir -p ~/Desktop/workspace/hdfs_opcd ~/Desktop/workspace/hdfs_op
步骤5如果需要创建多层目录,可以使用参数“-p”
主机tab:
查看目录列表
1hadoop fs -ls /
创建目录
1hadoop fs -mkdir /newDir
删除目录
1hadoop fs -rm -r /newDir
步骤6查看当前目录位置
1pwd
创建hello.txt
1echo "hello" > hello.txt
将文件放入数据库
1hadoop fs -put hello.txt /newDir
查看数 ...
Abstract: 读了些论文,做了些复现,帮jungle做了个验证
Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models这是一篇探讨在acc不降的情况下token length缩短的综述。
Chain of Draft: Thinking Faster by Writing Less此篇被知乎老哥锐评为一句“with 5 words at most.”的prompt水了一篇论文token length缩短效果不错,与jungle保持一致,但根据我的额外测试,在更加复杂的问题上表现不佳,相比之下jungle的acc好很多这篇论文很短,用词很简单,以至于我二三十分钟就读完了,打破纪录!
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning选择较高信息熵的20%的token来训练会让效果更好mark了,十分有智慧
The Unr ...
MotivationContributions大量数据的强化学习GRPO蒸馏强大的小模型图片放到图床上这个过程应该自动化。
各种语言的程序范例:
C
123456789#include <stdio.h>int main(){ int a,b; scanf("%d%d",&a,&b); printf("%d\n", a+b); return 0;}
C++
123456789101112#include <iostream>#include <cstdio>using namespace std;int main(){ int a,b; cin >> a >> b; cout << a+b << endl; return 0;}
Python 3
12s = input().split()print(int(s[0]) + int(s[1]))
Java
123456789import java.io.*;import java.util.*;public class Main { public static void main(String arg ...
关于这周每天干了什么20250609这天是计算机安全技术考试考试结果:84感觉被压平时分了……
20250610数据库原理93 满绩了,今年题目比往年试卷难了至少3倍,感谢老师捞到满绩
20250611修了一下agent项目的prompt复习操作系统和计组
20250612操作系统考试还没出分
20250613计组考试没出分但是考炸了,一个书上原题抄写的我愣是三过家门而不入没找到,太愚蠢了下午跟朋友一起验了福建省赛
20250614考六级,感觉炸了,晚上由于次日要去上海大学于是回家
20250615蓝桥国赛,在上海大学宝山晚上回到学校修改了agent执行的流程控制代码复习毛概习概
20250616毛概习概考试毛概出分了,不知道为什么非常低,明明报告认真写了,题也认真做了,这随机给分呢??习概没出分
20250617agent删除了一些不需要的结构,并修改对应代码,进一步优化prompt和校内数据结构老师确认了数据结构比赛的时间,初步确定出题思路
20250618完成了数据结构比赛的绝大部分出题工作
20250619对题目进行小修,老师不让在题目里放二次元图片……悲伤……很悲伤……学习并 ...
实验五 电力信息安全1 实验目的和要求:
了解电力信息安全需求,理解电力信息网络安全架构。
掌握电力信息安全机制设计与实施。
2 实验内容:
电力信息网络安全架构;
查阅资料,深入探讨电力信息网络安全体系。
3 实验步骤:1) 根据“安全分区、网络专用、横向隔离、纵向认证”的安全防护策略画一个相关的电网安全系统拓扑图。对于这个拓扑图,我需要模拟出电力系统常见的“生产控制区”、“管理信息区”以及它们之间的安全隔离。
电网安全系统拓扑图
核心理念:
安全分区: 将电力系统划分为不同的安全域,如生产控制区、管理信息区等。
网络专用: 各区内部使用专用网络,不与外部随意互联。
横向隔离: 同一安全域内部不同业务系统之间也需要隔离,防止攻击蔓延。
纵向认证: 跨安全域的访问(尤其是从管理区到控制区)必须进行严格的身份认证和权限控制。
拓扑图构成要素:
生产控制区(核心安全域)
主站系统: SCADA/DCS系统、能量管理系统(EMS)、配电自动化系统(DAS)等。
生产控制大区边界: 通常部署有高性能防火墙、入侵检测/防御系统(IDS/IPS)、单向传输设备(数据从生产区到管理区单向 ...










