尝试在云服务器上部署 Flink 并提交计算任务

网站相似度计算:裸机 & Kubernetes 部署实战 背景与目标 任务:基于 Flink Table API,用 SQL 计算网站间的相似度(Jaccard Coefficient)。 数据:referrer-referree 格式的 CSV,数千到数万条记录。 目标: 跑通 Flink Job,并且能够在外部访问 flink web ui 在K8S集群中部署flink,能够使用多台机器共同计算较大的数据集 一些常用命令备忘: ## 将文本文件转换为csv # 1. 添加表头 echo "referrer,referree" > medium_relation.csv # 2. 替换空格为逗号并追加到新文件 sed 's/ /,/g' medium_relation >> medium_relation.csv ## 压缩和解压缩 tar -czvf xxx tar -xzvf xxx.tar.gz -C ~/ # -c 创建一个新的 tar 文件 # -x 解压文件 # -z 使用gzip压缩 后缀为.tar.gz # -j 使用bzip2压缩 后缀为.tar.bz2 # -v 显示详细的压缩过程 # -f 指定 tar 文件的名称 # -C 指定解压缩包的目录 ## 下载文件 curl -L -o helm-v3....

May 15, 2025 · 5 min · 885 words · sirius1y