Benjamin Li
Verified Expert in Engineering
Software Developer
Benjamin拥有超过二十年的软件和大数据开发经验, 包括数据建模和数据仓库设计. 他的活跃工具集包括Spark, Python, Scala, AWS, Azure, SQL, Hive, Linux, 微软商业智能解决方案, C#.NET, and Java. 他对细节的关注以及强大的分析和解决问题的能力使他成为任何团队的优秀补充. 本杰明是一个善良、用心的沟通者,他总是能写出高质量的作品.
Portfolio
Experience
Availability
首选的环境
Linux, PyCharm, IntelliJ IDEA, Apache Hive, Spark, 亚马逊网络服务(AWS), Azure, Visual Studio, Windows, SQL Server BI
The most amazing...
...我所做的事情是通过重新构建项目和增强代码,将运营成本降低了80%.
Work Experience
高级数据工程师
Twitter(通过Avenue Code签订合同)
- 开发了一个Scala类,将来自Scalding TypedPipe的Twitter用户事件聚合为数据科学(DS)和机器学习(ML)的指标。, 使我们有可能使用它们并找到洞察力.
- 使用Scala和Apache Beam API提取创建数据流作业, transform, 并为机器人加载(ETL)数据集来检测有害的推文.
- 重新设计了代理问卷的Appen UI模板, 减少了用于从Appen RESTful API收集代理响应和在BigQuery中存储数据的Python代码的复杂性.
- 开发Apache气流dag, tasks, 和运营商通过RESTful API从Appen清除历史数据,并授予PII合规性.
- 用Scala构建后端,用TypeScript构建前端, JSON, YAML代表解决骚扰的产品,代表信任和安全政策.
- 创建Python PySpark ETL管道提取, transform, 并以Parquet数据格式加载(ETL)数据集.
- 更新了一个基于looker的仪表板,可以查询多个数据集.
Data Specialist
道明银行(透过Procom签订合约)
- 作为企业数据基础(EDF)顾问指导项目团队设计Azure数据工厂(ADF)管道,处理企业客户风险评级(ECRR)和事务监控(TM)使用的30多个MAL代码(500多个表)的数据。.
- 使用Azure Databricks和Spark DataFrame设计ETL,从原始区域加载源数据, such as CSV, XML, or CopyBook, and then cleanse, transform, 并将其作为4型SCD保存在策展区——镶木地板中.
- 概述了准备参数和调用Databricks笔记本的ADF管道. 将管道集成到Rahona编排框架中,以触发或调度SLA.
- 将QA测试集成到数字化CI/CD企业交付管道(EDP)中.ai. 协调跨多个团队的集成测试工作. 在Datadog上监控管道.
Big Data Consultant
永明人寿(透过承办商)
- 在项目第二阶段担任技术主管,为团队提供技术指导. 主持每日scrum会议,促进团队活动.
- 重新设计了项目架构和代码,将AWS Glue作业的数量从150个减少到30个. 这降低了80%的运营成本.
- 开发Python和PySpark代码,处理历史数据批量加载和每日CDC加载,并构建每日快照.
- 创建Hive SQL和Spark SQL,处理复杂的业务转换逻辑.
- 开发了CI/CD管道来构建, package, 并将项目部署到开发中, system integration, 生产测试.
- 调优系统性能并定位数据倾斜问题. 为业务团队提供调整数据模型的建议,避免问题再次发生.
- 在Amazon EMR和AWS Glue中测试了该解决方案,并将AWS Glue作业解决方案部署到生产环境中.
大数据解决方案设计师|架构师
道明银行集团(透过承办商)
- 领导一个由三个解决方案开发人员组成的团队,并成功地为不同的业务线(LOB)交付了几个项目.
- 与来自不同业务线的业务分析师合作,明确功能需求.
- 为项目设计解决方案, 文档化的设计规范, 并与团队成员分享开发工作.
- 使用各种源数据为复杂业务逻辑开发Apache Hive查询,并提供ETL解决方案.
- 创建了一个Oozie工作流和调度程序来编排和调度作业.
- 构建了以copybook格式处理大型机数据文件的Java解决方案.
- 指导解决方案开发人员, 共同的设计意图, best practices, and guidelines, 并审查解决方案开发人员的代码.
高级软件开发人员
Creditron
- 根据业务需求开发SSRS报告,并将其部署到Azure SSRS.
- 修复了现有功能中的错误,并为使用ASP的电子支票处理(ECP)支付应用程序开发了新功能.NET, C#.NET, .. NET Framework和SQL Server.
- 创建SQL脚本来填充数据,并通过SSRS报告展示典型ECP系统的用例和场景.
- Designed a .NET应用程序使用SSRS web服务自动部署SSRS报告.
高级软件开发人员| Scrum Master
Hatch
- 开发SSIS包,从数据库等各种来源加载数据, CSV files, XML files, SOAP web service, RESTful API, and FTP. 应用数据卫生逻辑和使用c#脚本任务开发转换. 将数据加载到数据库.
- 使用c#创建了应用程序的数据访问层和业务逻辑层.NET and .使用。NET框架来处理SQL Server数据库中的数据.
- 架构RESTful API,用于应用程序访问SQL Server数据库中的数据.
- Used ASP.NET来开发web应用程序的表示层.
- 扮演scrum管理员的角色, facilitated teamwork, 主持每日scrum会议, sprint planning, sprint review, 回顾会议.
- 构建了一个Windows服务,将员工数据从本地SAP系统和Active Directory服务器复制到Azure SQL server数据库.
- 创建SSRS报告,向项目经理显示项目进度.
- 使用Power BI为项目经理组装一个交互式仪表板.
高级软件工程师|组长
Epsilon
- 领导7人的工程团队,为数字营销业务设计了一个BI解决方案.
- 使用SSIS设计和开发ETL包来提取和清理数据, 应用业务转换逻辑, 并将数据加载到数据仓库中.
- 构建数据模型. 定义了SSAS多维数据集的维度和事实. 开发了一种策略来刷新多维数据集,以赶上仓库中的数据更改.
- 开发一套SSRS报告,可视化活动的业务见解.
- 创建了一个工具来自动将SSRS报告部署到不同的项目和农场.
- 通过开发带有仪表板和向下钻取功能的web应用程序,可以按不同类别和粒度查看数据.
Software Developer
Redknee
- 实现了支持多种语言的Unicode短消息服务(SMS).
- 设计了一个线程池来处理来自套接字和文件的并发标签长度值(TLV)记录.
- 实现了用于跨分布式组件通信的CORBA接口.
Software Developer
Invatron
- 对潜望镜有贡献, 一个决策支持系统,旨在优化连锁商店的易腐食品运营,以及一个具有多个子系统的广泛分布的实时系统,如服务器, MB, Proxy, hhMQ, TSP, TSP-PE, Scheduler, and HITS.
- 采用面向对象的方法对降价组件进行了分析和设计. 开发数据模型,并在多个数据库系统中实现SQL脚本.
- 开发抽查,以审查和更新实时库存. 为随机加权(2型UPC)产品开发新的条形码降价,为非2型UPC产品开发优惠券折扣. 通过串行和WiFi实现标签打印.
- 在c++模板中构建了一套通用算法,使用Windows上的Visual c++和Linux、Unix上的GCC处理各种易腐食品操作,将应用程序部署到不同的操作系统上.
- 通过开放数据库连接(ODBC)创建了一个数据访问层,以访问多个数据库系统, 包括SQL Server, Oracle, DB2, Informix, and Sybase. 应用程序可以与各种数据库系统一起部署.
- 构建一个消息传递框架,用于跨决策支持系统的组件进行通信.
- 交付了一套嵌入式应用程序来检查和调整库存, 核对一下,把价格记下来, 并为各种设备打印条形码标签,如手持扫描仪和壁挂式价格检查器.
- 开发了一个安装守护进程,用于自动检查和安装手持扫描仪等设备的新应用程序版本, 壁挂式价格检查器, 以及分布式连锁店的销售点(POS)机器.
高级软件工程师|组长
中国建设银行广东分行
- 带领团队开发了一个使用C语言的客户-服务器系统, C++, Pro*C, 和SQL在各种Unix和Linux平台上使用Informix数据库系统.
- 从业务线收集需求, 设计了数据库和ER图, 并在Informix SQL脚本中实现数据模型.
- 排除生产问题,调查根本原因,并找到解决方案.
Experience
针对保险业务的AWS EMR/Glue ETL项目
共同申报准则(CRS)
数据湖摄取数据流
全球采购情报(GPI)
企业数据基金会(EDF)
Periscope Server
Python和PySpark Job for False Discovery Rate (FDR)
广告技术的商业智能解决方案
Skills
Languages
SQL, Bash, C#.NET, C++, Java, Python 3, Scala, Python, t - sql (transact - sql), UML, C, Pro*C, C Shell, Bourne Shell, Snowflake, Bash Script, JavaScript, TypeScript, YAML, HTML, Stored Procedure
Frameworks
Spark, ASP.NET, .. NET, Jakarta Server Pages (JSP), Hadoop, YARN, Apache Spark, Apache Thrift
Paradigms
Database Design, 商业智能(BI), ETL, Scrum, Agile, MapReduce, Design Patterns, 面向服务的架构(SOA), Microservices, Data Science
Storage
SQL Server 2016, Apache Hive, SQL Server集成服务(SSIS), SQL Server报表服务(SSRS), Microsoft SQL Server, 数据库体系结构, Amazon S3 (AWS S3), HDFS, Azure SQL Databases, SQL Server分析服务(SSAS), Azure Active Directory, MySQL, PostgreSQL, Data Lakes, IBM Informix, IBM Db2, Sybase, Redshift, Data Pipelines, JSON, Databases, Database Structure, 数据库事务, SQL Server Management Studio (SSMS), Datadog, Azure SQL, Data Integration, NoSQL, Database Modeling, PL/SQL, Google Cloud, Database Migration
Other
Data Modeling, Big Data, 数据仓库设计, Data Engineering, Data Analysis, Data Analytics, Reverse Engineering, 软件工程, Software, TIBCO, SQL Server 2015, Azure Data Factory, CI/CD Pipelines, Scrum Master, Data Warehousing, StarTeam, CORBA, SOAP, Web Services, Message Bus, Sco Unix, 实体-关系模型(ERM), 企业架构, MSMQ, Azure Data Lake, Amazon Neptune, Shell Scripting, Amazon RDS, Transactions, SAP, Azure Databricks, Data Management, Orchestration, 包装消费品, Food, Point of Sale, POS, Access Points, Leadership, Team Leadership, 认证ScrumMaster (CSM), Communication, Team Mentoring, Consulting, Data Visualization, Data Architecture, Parquet, Data, Data Governance, Streaming Data, 解决方案架构, APIs, ETL Tools, Monitoring, 技术架构, Data Auditing, DAX, 实体关系, 数据构建工具(dbt), ELT, API Design, Risk Management, Finance, 财务风险管理, Google BigQuery, Machine Learning, Cloud
Platforms
Linux, Windows, 亚马逊网络服务(AWS), Zeppelin, Azure, Apache Kafka, Databricks, Oracle, Unix, HP-UX, KornShell, 谷歌云平台(GCP), Visual Studio Code (VS Code), Amazon EC2, Azure Synapse, Jupyter Notebook, Docker, Kubernetes
Libraries/APIs
PySpark, Jenkins Pipeline, REST api, ODBC, JDBC, STL, Scalding
Tools
PyCharm, IntelliJ IDEA, AWS Glue, Spark SQL, Git, Confluence, Jenkins, Cloudera, Oozie, Visual Studio, TFS, SQL Server BI, Apache Airflow, VirtualBox, GCC, Hue, Eclipse IDE, BigQuery, Apache Maven, Phabricator, Jira, Bazel, Cloud Dataflow, Apache Beam, Amazon Elastic MapReduce (EMR), Google Analytics, Bitbucket, Looker, Microsoft Power BI, Terraform, 亚马逊虚拟私有云(VPC), AWS IAM, AWS CloudFormation, Amazon CloudWatch
Industry Expertise
Banking & Finance
Education
计算机科学硕士学位
复旦大学-中国上海
计算机科学学士学位
国防科技大学-中国长沙
Certifications
认证Scrum Master
Scrum Alliance
如何使用Toptal
在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.
Share your needs
Choose your talent
开始你的无风险人才试验
对顶尖人才的需求很大.
Start hiring