最新数据挖掘远程工作招聘信息
数据工程师
新
职位描述:
我们是一家位于加州的劳动法律事务所,专注于为加州的雇员提供法律服务。现计划在小红书(Red Book)平台上通过关键词和内容采集来发现潜在客户,并对相关数据进行清洗、分类和管理。我们寻求一位拥有丰富经验的自由职业数据工程师/外包工程师,帮助我们构建小红书自动化爬取和数据处理系统。
主要职责:
- 根据指定关键词,通过小红书平台采集相关的帖子、用户ID和互动数据(点赞、评论等)。
- 建立并维护数据管道,包括数据爬取、清洗、去重、存储。
- 根据需求设计并实现NLP或分类模型,对潜在客户进行标签化(如白领/蓝领、是否正在与雇主产生纠纷、是否对劳动权益有疑问等)。
- 确保数据爬取和分析过程合法合规,并根据平台政策和相关法规进行调整。
- 与团队沟通,定期汇报爬虫运行、数据质量及分类准确度等。
任职要求:
- 熟练掌握Python、Selenium/Playwright、Requests等网络爬虫及网页自动化技术;熟悉小红书平台者优先。
- 具备数据库(SQL或NoSQL)设计和管理经验,能够搭建并优化ETL流程。
- 熟悉常见的NLP/机器学习框架(如TensorFlow、PyTorch或使用OpenAI/Hugging Face接口)进行中文文本分类。
- 了解国内社交媒体的反爬虫机制、代理IP轮替,以及相关的技术手段。
- 具备良好的沟通能力和项目管理经验,能根据业务需求提供有效的技术解决方案。
项目周期与合作方式:
- 以项目为主,远程工作,可按小时收费或包项目报价。
- 需要定期与团队进行远程会议沟通、验收成果并进行迭代。