顺利成为Kubestronaut成员
前言3年内成功通过CNCF旗下云原生相关的5个证书,并顺利获得kubestronaut 的领航员的一个称谓,其实我对于证书不是很感冒,证书也证明不了能力,最多只能证明你曾经学习过。
大概在3年以前,公司针对认证证书有一定优惠补助,另外加之当时逢黑色星期五优惠力度很大,所有购买了CKA认证考试,没有怎么学一周就通过了,因为个人对于kubernetes是有一定的运维和管理基础的,2022年3月10日完成了第一个证书。那个时候的证书有效期还是3年的,截止2025年的3.10日,我完成了最后一个KCSA考试,并获得了kubestronaut ,当时收到邮件获得该证书我很是意外和惊喜。
这个时间非常极限,我一度以为CNCF官方不会承认我的这个5个证书是在同一个有效期内,无法得到kubestronaut。
为何要做这件事?起因是由于公司鼓励大家学习提升自身并能够用于工作中,提升整理的技术水平,这是我做这件事情最开始的一个动机。
后来促使我继续参加如下4门考试主要因为我个人对于技术的渴望和追求吧,不然我也想不到有什么更合适的理由了。因为人家造个车都借车(我说的是雷总)几百台,就为了体验不同的产品背 ...
UDEMY-KCSA练习错题集
前言该套题目是UDEMY上的一套题目《KCSA: Kubernetes & Cloud Native Security Associate EXAM-PREP》,我是通过淘宝购买优惠券,然后兑换购买了KCSA的练习题,总共120道题目,60到练习的,60到考试题目,不限次数的练习。
安全词汇principle:原则
measure: 措施,方法
comprehensive: 综合,全面的
important: 重要的
compliance:合规
What is the primary benefit of using immutable(不可变的) infrastructure in application code security?您的答案不正确
Storing configurations locally and securely
Allowing frequent manual changes
正确答案
Preventing configuration drift(防止配置漂移)
Regularly rebooting infrastructure component ...
KCSA错题集
前言以下是学习KCSA练习题的错题集,很多题比较常见和容易理解出错,具体参考该项目:https://kubernetes-security-kcsa-mock.vercel.app/
STRIDE 是一种常见的威胁建模框架,通常用于识别和应对系统中的安全风险。它由 微软 提出,涵盖了六类常见的威胁,每个字母代表一种不同类型的安全威胁。在 云原生安全 的上下文中,STRIDE 仍然适用,尤其是在容器化、微服务和分布式系统的设计和部署中。
STRIDE 框架的每个字母含义如下:
S - Spoofing (欺骗):指攻击者冒充合法用户或系统,从而绕过身份验证或授权机制。在云原生环境中,欺骗攻击可能会涉及伪造服务身份或通过滥用服务账户获取不应拥有的权限。
T - Tampering (篡改):指未授权的攻击者修改数据或系统配置。在云原生环境中,篡改攻击可能发生在容器、微服务通信或者数据存储层,攻击者通过修改配置文件或数据来破坏服务的完整性。
R - Repudiation (否认):指攻击者否认自己的行为,例如删除日志或修改日志文件,导致无法追踪攻击行为。在云原生环境中,服务或应用日 ...
CKAD模拟题2024
Question 1 | NamespacesThe DevOps team would like to get the list of all Namespaces in the cluster. Get the list and save it to /opt/course/1/namespaces.
Answer:12k get ns > /opt/course/1/namespaces
The content should then look like:
12# /opt/course/1/namespacesNAME STATUS AGEdefault Active 150mearth Active 76mjupiter Active 76mkube-public Active 150mkube-system Active 150mmars Active 76mmercury Active 76mmoon ...
2024CKAD考试心得
简述
这个认证相比较CKA,难度一般,内容在k8s应用上会更丰富一些,但也都比较基础,运维/开发同学报考1-2周考下来,毫无压力。
惟手熟尔,考试时间很充裕,但前提是要有一定Linux命令基础,考试课程提供了1套练习题,可以练习2次,尽可能2小时内完成所有题目,个人考试80分钟就完成了,20分钟所有题目都检查一遍,另外,不会做的要跳过,切勿因小失大。
考试期间是可以翻看官方文档的,一定是根据关键字搜索使用的。另外kubectl 命令行帮助文档很有用,大部分题目是不需要翻官方文档的,通过命令行就可以创建大部分资源。如果每道题都翻看文档,时间就可能不会特别充裕。
考试结果
考试大纲参考:https://training.linuxfoundation.cn/certificates/4
考试课程包括这些一般领域及其在考试中的权重:
应用程序设计和构建–20%
应用部署 - 20%
应用观察和维护 - 15%
应用环境、配置与安全 - 25%
服务与网络 - 20%
详细内容
应用程序设计和构建–20%
定义、构建和修改容器鏡像
了解Jobs 和 CronJobs
了解多容器Pod ...
容器宿主机故障检测及节点自愈
背景在 Kubernetes 集群运行时,节点有时会因为组件问题、内核死锁、资源不足等原因不可用。Kubelet 默认对节点的 PIDPressure、MemoryPressure、DiskPressure 等资源状态进行监控,但是存在当 Kubelet 上报状态时节点已处于不可用状态的情况,甚至 Kubelet 可能已开始驱逐 Pod。在此类场景下,原生 Kubernetes 对节点健康的检测机制是不完善的,为了提前发现节点的问题,需要添加更加细致化的指标来描述节点的健康状态并且采取相应的恢复策略,实现智能运维,以节省开发和减轻运维人员的负担。
NPD 故障检测NPD(node-problem-detector)是 Kubernetes 社区开源的集群节点的健康检测组件。NPD 提供了通过正则匹配系统日志或文件来发现节点异常的功能。用户可以通过运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD 会解析用户的配置文件,当有日志能匹配到用户配置的正则表达式时,可以通过 NodeCondition、Event 或 Promethues Metric 等方式将检测到的 ...
Ubuntu内核管理
背景由于公司目前开始全面开始推进ubuntu系统的使用,使用时发现内核更新太过频繁,对于ubuntu桌面版本内核升级可能会提升用户体验和安全性,但对于ubuntu server服务器,我们一般会采用固定版本。默认情况下ubuntu不管是桌面版还是server版本,执行 apt update会升级下载所有需要升级的包(包括内核包)。版本固定方便统一维护,如果某个版本的内核存在bug,可以安排统一更新。
升级和卸载内核1、升级内核
123456789101112131415161718# 查看当前内核uname -r# 升级软件包sudo apt update# 查看可用内核apt-cache search linux-image# 选择合适的内核进行安装sudo apt-get install linux-image-XXXX-genericor 之前执行过 sudo apt update 更新过,执行如下dpkg --list | grep linux-imageor 另外,可以自行下载制定内核进行安装,下载地址如下:http://kernel.ubuntu.com/~kernel-p ...
CKS真题2023
考试心得我是去年3月份考的CKA,5月份考了2次都没有过CKS,主要还是因为个人没有复习好,刷题太少,2次考试都没有过。后来又重新找了几篇2023年最新的真题,针对的进行练习。我几次考CKS经验来看,如果考试题目不熟练的话,时间大概率不够的。由于2022年7月份之后考试PSI系统进行了升级,所有操作都要在ubuntu20.04主机上进行,包括浏览器。
第一题 kube-bench 修复不安全项12345678910111213141516171819Context针对kubeadm创建的cluster运行CIS基准测试工具时,发现了多个必须立即解决的问题。Task通过配置修复所有问题并重新启动受影响的组件以确保新的设置生效。修复针对API服务器发现的所有以下违规行为:1.2.7 Ensure that the --authorization-mode argument is not set to AlwaysAllow FAIL1.2.8 Ensure that the --authorization-mode argument includes Node F ...
calico-node异常重启
环境信息
os 版本: centos7.9
kernel 版本:3.10.0-1160.59.1.el7.x86_64
k8s 版本:v1.19.4
calico-node 版本:v3.8.8-1
问题描述calico异常重启导致容器网络异常超时,查看日志发现报错如下:failed to create new OS thread
123456789101112131415161718192021222324252627282930313233343536373839404142# 获取异常节点calico-node重启多次kubectl -n kube-system get pod -owide | grep calico-node-56bgmcalico-node-56bgm 1/1 Running 21 246d 10.165.6.26 10.165.6.26 <none> <none># 查看calico-node历史日志如下:kub ...
Linux 使用crash分析vmcore dump文件
vmcore是什么?vmcore是指操作系统在遇到致命错误(比如内核崩溃)时所生成的内存转储文件。这个文件包含了操作系统在崩溃前的内存状态,因此可以用于诊断崩溃的原因。
在 Linux 系统中,当内核崩溃时,通常会生成一个称为vmcore的文件。该文件位于/var/crash目录下,其命名类似于vmcore.<时间戳>。vmcore文件通常是非常大的,因为它包含了操作系统在崩溃前的全部内存内容。
一般情况下,vmcore文件可以通过分析工具进行分析,以确定崩溃的原因。例如,可以使用GNU Debugger(GDB)或crash工具来分析vmcore文件。
手动触发vmcore的文件vmcore文件通常是在系统遇到严重故障、例如操作系统崩溃或Panic时自动生成的,而无法手动触发。在一些情况下,我们可能需要手动触发一个vmcore文件的生成,例如在进行内核调试时。这时,可以使用kdump工具来手动触发vmcore文件的生成。
安装kexec-tools和kernel-debuginfo包这里系统采用的CentOS7.9
12# yum install yum-utils ke ...