职位描述
岗位概述
我们在找一位务实、能落地的爬虫与自动化数据工程师,负责搭建和维护支撑商业决策的数据管线。在这个角色里,你将全权负责大规模外部数据的端到端获取——从设计高可用的中文站点爬虫,到搭建自动化工作流,把干净、结构化的数据对接到内部系统。你的工作将直接影响商业决策,确保我们能稳定获取来自企业信息公示平台、电商平台和监管渠道的关键商业数据。你需要在技术执行的同时,理解并尊重中国数据采集合规与运营环境的现实边界。
核心职责
爬虫与数据采集(约 60%)
- 设计、开发并维护面向各类中文数据源(如天眼查、政府采购平台等)的高可用、可扩展爬虫管线。
- 持续迭代反爬对抗策略,包括但不限于代理/IP 轮换、请求频率控制、浏览器指纹管理和验证码处理。
- 从 HTML、JS 渲染页面(无头浏览器)、API、PDF 及其他非结构化格式中解析并提取结构化数据。
- 构建完善的监控、日志和告警体系,确保爬虫健康度与数据时效性。
- 持续关注国内网络爬虫的技术与法律环境变化,确保所有采集活动在《个人信息保护法》(PIPL)、《数据安全法》(DSL)及平台用户协议框架内运行。
工作流自动化与编排(约 40%)
- 以 OpenClaw(或同类工具)为核心编排层,定义、调度和管理复杂的多步骤数据采集与自动化工作流。
- 搭建自动化管线,将爬取的数据对接到下游系统,包括数据库、数据仓库、内部 API 及可视化看板。
- 实现容错工作流逻辑,包括异常处理、自动重试、条件分支和失败告警。
- 与数据分析师及产品团队紧密配合,理解业务需求,将手动取数与处理流程自动化,提升整体运营效率。
- 为所有负责的系统撰写数据字典、数据字典表、管线设计文档及运维手册。
硬性要求
- 1–5 年数据工程、爬虫或自动化相关实战经验。
- 熟练使用 Python 或 Go 进行数据抓取与自动化开发,深入掌握 Playwright / Selenium、BeautifulSoup、lxml、requests 等常用库。
- 具备大规模爬虫实战经验:深入理解 HTTP/HTTPS、会话机制、Cookie、浏览器开发者工具及现代反爬虫对抗技术。
- 有 OpenClaw 或同类 RPA / 工作流编排工具(如 Apache Airflow、n8n、UI.Vision)的实操经验,能独立完成流程搭建、调度与监控。
- 深度熟悉中文互联网生态,了解主流站点的页面结构与访问策略、百度搜索行为特征及国内常见的反爬技术方案。
- 熟悉 SQL 数据库(PostgreSQL / MySQL)及云存储(S3 / OSS)的数据接入与管线搭建。
- 掌握 Docker 容器化技术,能在容器化或云环境中部署和维护爬虫。
- 了解国内相关数据法规(PIPL《个人信息保护法》、DSL《数据安全法》),具备良好的数据伦理与合规意识。
- 具备英文读写能力,能与海外团队顺畅沟通。
加分项
- 熟悉国内常用的代理服务商及代理管理平台。
- 英语口语流利是加分项,非必须。
- 有创业公司或中小企业历练,适应高ownership、快迭代的务实风格。
技术栈
- 主力语言:Python / Go
- 爬虫与浏览器自动化:Playwright、Puppeteer、Selenium、BeautifulSoup、Scrapy
- 工作流编排:OpenClaw、Apache Airflow
- 数据存储:PostgreSQL、S3 或同类 / 阿里云 OSS
- 基础设施:Docker、Git、Linux
- 代理与基础设施:各类住宅代理 / 数据中心代理网络
我们提供
- 有竞争力的薪酬(视经验与能力可谈)¥15K+
- 弹性工作安排(REMOTE POLICY – 需要base在上海/深圳/北京)
- 学习预算与专属学习时间,支持技能成长
关于投递简历、咨询、与面试详情
面试全程线上完成。简历通过后,我们会邮件约您线上面试。
视情况可能安排一个简单的 take-home task。
如果你对这个岗位感兴趣,请附上简历和期望薪资发送邮件至联系方式
如有任何其他疑问,欢迎添加微信咨询