最新数据清洗远程工作招聘信息
数据工程师
新
职位描述:
我们是一家位于加州的劳动法律事务所,专注于为加州的雇员提供法律服务。现计划在小红书(Red Book)平台上通过关键词和内容采集来发现潜在客户,并对相关数据进行清洗、分类和管理。我们寻求一位拥有丰富经验的自由职业数据工程师/外包工程师,帮助我们构建小红书自动化爬取和数据处理系统。
主要职责:
- 根据指定关键词,通过小红书平台采集相关的帖子、用户ID和互动数据(点赞、评论等)。
- 建立并维护数据管道,包括数据爬取、清洗、去重、存储。
- 根据需求设计并实现NLP或分类模型,对潜在客户进行标签化(如白领/蓝领、是否正在与雇主产生纠纷、是否对劳动权益有疑问等)。
- 确保数据爬取和分析过程合法合规,并根据平台政策和相关法规进行调整。
- 与团队沟通,定期汇报爬虫运行、数据质量及分类准确度等。
任职要求:
- 熟练掌握Python、Selenium/Playwright、Requests等网络爬虫及网页自动化技术;熟悉小红书平台者优先。
- 具备数据库(SQL或NoSQL)设计和管理经验,能够搭建并优化ETL流程。
- 熟悉常见的NLP/机器学习框架(如TensorFlow、PyTorch或使用OpenAI/Hugging Face接口)进行中文文本分类。
- 了解国内社交媒体的反爬虫机制、代理IP轮替,以及相关的技术手段。
- 具备良好的沟通能力和项目管理经验,能根据业务需求提供有效的技术解决方案。
项目周期与合作方式:
- 以项目为主,远程工作,可按小时收费或包项目报价。
- 需要定期与团队进行远程会议沟通、验收成果并进行迭代。
岗位职责:
-
负责大规模文本和图像数据的抓取和维护;
-
负责文本和图像数据的结构化信息的提取、质量分析和清洗工作;
-
利用机器学习模型,对数据进行清洗,提取需要的信息,并对数据集进行优化,提高数据集的质量。
岗位要求:
-
全日制本科及以上学历,计算机、软件工程等相关专业优先;
-
熟悉使用ChatGPT等AI生产力工具,并能利用这些工具快速掌握新的技术栈;
-
有bash脚本或其他批处理脚本编写经验,以及独立开发通用爬虫框架的能力者优先;
-
熟悉常用数据库操作(如MongoDB/PostgreSQL),并有使用pandas、jupyter等数据分析工具的经验者优先;
-
有使用AWS的经验者优先;
-
对各类游戏和二次元文化有浓厚兴趣,有使用ACG资源站点的经验者优先;
-
具备优秀的分析能力和学习能力;
-
有强烈的责任心和团队精神,善于沟通和协作。