高级爬虫工程师
面议职位描述:
【我们在做什么?】
我们正在建设「达人精灵」——一个主要面向海外的综合性平台,目标是通过提供大数据分析,解决人、货、场的最后一公里的若干问题。
你将加入项目研发团队,主导整个数据采集系统搭建及维护,为开发团队提供结构化、干净、可追踪的数据基础。
【你的核心职责】
一、数据源建设(电商+社交):
1、搭建欧美主流电商平台的数据抓取系统
·目标平台:Tiktok、Temu、AliExpress等
·抓取内容:商品、达人、带货视频等
3、数据结构化&去噪:
·处理HTML/JS渲染/多语言文本,确保数据字段清晰、结构稳定
·设计数据清洗、去重、关联机制,尤其是商品在社交与电商间的打通逻辑
4、数据可用性保障:
·设计稳定的采集调度逻辑(定时更新、全量vs增量抓取)
·处理反爬策略(账号管理、动态代理、验证码识别等)
·建立抓取异常预警机制,保证数据完整性与时效性
5、数据存储与接口对接:
·搭建数据入库方案(MongoDB/MySQL/ES),支持算法团队直接调用
·与AI团队协作,调整数据格式、字段、注释,提升建模效率
【我们希望你具备以下能力】
1、熟练使用Python,熟悉爬虫框架:Selenium、Appium、Requests等
2、熟练使用JS,能使用TamperMonkey开发插件端爬虫
3、熟悉Java,能够进行全栈爬虫开发
4、至少掌握1种欧美主流电商或社交平台的数据抓取技巧,有反爬实战经验
5、熟悉常见数据存储方式(MongoDB、MySQL、ElasticSearch)及数据结构设计
6、有跨平台数据整合经验,能理解商品与社交内容的关联逻辑
7、具备良好的工程规范、日志记录、异常处理能力
【加分项】
1、有电商/视频网站/APP爬虫经验优先;
2、能使用AI提升工作效率优先;
3、能独立维护部署任务(如Docker、Linux定时调度)优先;
4、有大数据挖掘功底优先;
【关于公司的一些特色】
1、公司是程序员文化,公司两位创始人都是技术非科班出身,热爱技术,尊重技术人员;
2、信任,是公司最核心的文化,所以公司没有考勤全凭自觉,弹性工作,没有项目进度表,没有晨会和周会;
3、你想到的福利,我们一般都有,不抠门;
云雅是一家很特别的公司,如果你想进一步了解,可以参考:
云雅官网:
https://www.iyunya.com(内容是老板自己写的)
创始人老陈个人空间:
@陈志武zwchen的个人主页-微博(记录了超过10年)
https://www.zhihu.com/people/zwchen(最近写得少)
公司内部的员工指南(100%落地,也是员工入职后看到的):
https://etdxr3a3ez.feishu.cn/docs/doccnZlvjxgOt0OS2Pge8V7U01g
附加信息:
五险一金,定期体检,周末双休
-
美居项目操盘手
6000-8000/元投递简历
-
国内注册专员
6000-8000/元投递简历
-
装饰施工员
6000-8000/元投递简历
-
ProcessModuleEngineer-SRSF
6000-10000/元投递简历
-
MIEngineer(Manufacturinginstruction)
6000-8000/元投递简历
-
片区工程经理(金堂)
7000-9000/元投递简历
-
仓管员
6000-8000/元投递简历
-
保安(金堂)
3000/元投递简历
-
供应部业务副总监
25/元投递简历