最新爬虫远程工作招聘信息-远程.work

数据与自动化工程师

15k-25k 远程全职远程工作

Favorite Medium

AI 爬虫自动化

岗位概述
我们在找一位务实、能落地的爬虫与自动化数据工程师，负责搭建和维护支撑商业决策的数据管线。在这个角色里，你将全权负责大规模外部数据的端到端获取——从设计高可用的中文站点爬虫，到搭建自动化工作流，把干净、结构化的数据对接到内部系统。你的工作将直接影响商业决策，确保我们能稳定获取来自企业信息公示平台、电商平台和监管渠道的关键商业数据。你需要在技术执行的同时，理解并尊重中国数据采集合规与运营环境的现实边界。

核心职责
爬虫与数据采集（约 60%）

设计、开发并维护面向各类中文数据源（如天眼查、政府采购平台等）的高可用、可扩展爬虫管线。
持续迭代反爬对抗策略，包括但不限于代理/IP 轮换、请求频率控制、浏览器指纹管理和验证码处理。
从 HTML、JS 渲染页面（无头浏览器）、API、PDF 及其他非结构化格式中解析并提取结构化数据。
构建完善的监控、日志和告警体系，确保爬虫健康度与数据时效性。
持续关注国内网络爬虫的技术与法律环境变化，确保所有采集活动在《个人信息保护法》（PIPL）、《数据安全法》（DSL）及平台用户协议框架内运行。

工作流自动化与编排（约 40%）

以 OpenClaw（或同类工具）为核心编排层，定义、调度和管理复杂的多步骤数据采集与自动化工作流。
搭建自动化管线，将爬取的数据对接到下游系统，包括数据库、数据仓库、内部 API 及可视化看板。
实现容错工作流逻辑，包括异常处理、自动重试、条件分支和失败告警。
与数据分析师及产品团队紧密配合，理解业务需求，将手动取数与处理流程自动化，提升整体运营效率。
为所有负责的系统撰写数据字典、数据字典表、管线设计文档及运维手册。

硬性要求

1–5 年数据工程、爬虫或自动化相关实战经验。
熟练使用 Python 或 Go 进行数据抓取与自动化开发，深入掌握 Playwright / Selenium、BeautifulSoup、lxml、requests 等常用库。
具备大规模爬虫实战经验：深入理解 HTTP/HTTPS、会话机制、Cookie、浏览器开发者工具及现代反爬虫对抗技术。
有 OpenClaw 或同类 RPA / 工作流编排工具（如 Apache Airflow、n8n、UI.Vision）的实操经验，能独立完成流程搭建、调度与监控。
深度熟悉中文互联网生态，了解主流站点的页面结构与访问策略、百度搜索行为特征及国内常见的反爬技术方案。
熟悉 SQL 数据库（PostgreSQL / MySQL）及云存储（S3 / OSS）的数据接入与管线搭建。
掌握 Docker 容器化技术，能在容器化或云环境中部署和维护爬虫。
了解国内相关数据法规（PIPL《个人信息保护法》、DSL《数据安全法》），具备良好的数据伦理与合规意识。
具备英文读写能力，能与海外团队顺畅沟通。

加分项

熟悉国内常用的代理服务商及代理管理平台。
英语口语流利是加分项，非必须。
有创业公司或中小企业历练，适应高ownership、快迭代的务实风格。

技术栈

主力语言：Python / Go
爬虫与浏览器自动化：Playwright、Puppeteer、Selenium、BeautifulSoup、Scrapy
工作流编排：OpenClaw、Apache Airflow
数据存储：PostgreSQL、S3 或同类 / 阿里云 OSS
基础设施：Docker、Git、Linux
代理与基础设施：各类住宅代理 / 数据中心代理网络

我们提供

有竞争力的薪酬（视经验与能力可谈）¥15K+
弹性工作安排（REMOTE POLICY – 需要base在上海/深圳/北京）
学习预算与专属学习时间，支持技能成长

关于投递简历、咨询、与面试详情
面试全程线上完成。简历通过后，我们会邮件约您线上面试。
视情况可能安排一个简单的 take-home task。

如果你对这个岗位感兴趣，请附上简历和期望薪资发送邮件至联系方式
如有任何其他疑问，欢迎添加微信咨询

如何申请

Enquiry via wechat: atomkwk

登录后申请

Python工程师

5k-10k 远程实习支持亚太/北美时区远程

某新加坡AI公司

Python 数据清洗爬虫

登录后申请

岗位职责：

负责大规模文本和图像数据的抓取和维护；
负责文本和图像数据的结构化信息的提取、质量分析和清洗工作；
利用机器学习模型，对数据进行清洗，提取需要的信息，并对数据集进行优化，提高数据集的质量。

岗位要求:

全日制本科及以上学历，计算机、软件工程等相关专业优先；
在Python编程方面有丰富经验，能够编写高质量代码和文档，并熟悉面向对象编程以及常见的Python运行效率优化方式；
熟悉使用ChatGPT等AI生产力工具，并能利用这些工具快速掌握新的技术栈；
有bash脚本或其他批处理脚本编写经验，以及独立开发通用爬虫框架的能力者优先；
熟悉常用数据库操作（如MongoDB/PostgreSQL），并有使用pandas、jupyter等数据分析工具的经验者优先；
有使用AWS的经验者优先；
对各类游戏和二次元文化有浓厚兴趣，有使用ACG资源站点的经验者优先；
具备优秀的分析能力和学习能力；
有强烈的责任心和团队精神，善于沟通和协作。

如何申请

登录后申请

Asp.net core工程师

5k-10k 远程兼职远程工作

北京天博助力科技有限公司&法国天博咨询有限公司

Asp.net core Azure 爬虫

登录后申请

招聘长期合作的兼职后端工程师，和我们一起完成定制化的电商解决方案的具体实现

如何申请

登录后申请

爬虫/数据工程师

5k-10k 远程实习远程工作

增长黑盒

Python 爬虫

登录后申请

About GrowthBox Research

增长黑盒 Research 是一家以数据和情报学驱动的增长策略研究机构，致力于为全球企业和投资机构提供增长策略咨询、Competitive Intelligence、另类数据服务等。我们服务的客户包括：国内一线美元 /人民币基金、国际顶级奢侈品集团、国内一线互联网大厂等。

你将负责什么？

负责爬虫系统的开发、维护与优化

设计数据采集策略，提升数据采集效率及质量

对数据内容敏感，热衷探索并实践前沿爬虫技术与存储技术

我们需要你会：

热爱技术，拥有优秀的代码能力，快速学习能力

拥有 python 爬虫经验，掌握 web/app/小程序的数据采集方法

了解反爬虫策略和应对经验

熟悉后端数据库存储和维护

良好的英文水平，可流畅阅读国外开发文档

你将在这里：

在超棒的办公环境里，和一群有趣的同事，一起挖掘最前沿的 Growth Hacking 策略，你还将被训练以刑侦学驱动的深度分析事物的方法与逻辑。

适合什么样的人加入？

对新鲜事物具有强烈的好奇心，高度自我驱动型人格，善于钻研解决问题。

如何申请

登录后申请