そむたむログ

趣味でデータ分析・機械学習やっています。勉強記録や日々の気づきをログに残すことが目的です

Pycon行って来ました! 〜Pycon Day1〜

Pycon行って来ました!

Python歴が短いこと、知り合いがいないこともあって行く前は不安でいっぱいでしたが、いざ行ってみたらとても楽しかったです。

 

PyconJPの概要については公式HPが詳しいです。

PyCon JP 2017 in Tokyo | Sep 7th – Sep 10th

 

Pycon Day1 9/8(金)の感想をまとめます。

トーク以外の部分多めです。

※内容は印象に残ったもののみ書いています。

 朝〜受付

いつもより1時間以上朝が早いこともあり(言い訳)寝坊してしまいました。。

なんとか10分前には会場に到着し、間に合いました。

Tシャツなどグッズをもらっていざ会場へ

f:id:somtamchan:20170908225331j:plain

 写真は帰宅後に撮りました!Tシャツかわいいです!!

 

Keynote

Peter Wang(Continuum Anaytics共同設立者 CTO)さんです

Anacondaデータサイエンスエコシステム製品のエンジニアリングチームを率いている方だそうです。

Anacondaの話

 Pythonのパッケージ問題を解決するために自分でAnacondaを作ったとのことです。

私もAnaconda使っています。月間250万DLということでかなり使われているようです。ただパッケージ界隈はいろんな思いがある方がいるとパーティーで知ったので深くはツッコミません。

イブサンローランの広告にiPython

会場があたたまった瞬間でした。

要するにPythonは人気という話

7秒のあたりに出て来ます


Y - ALEXANDRE ROBICQUET - Yves Saint Laurent - 30s VO

 

Pythonの特徴とか、その他印象に残ったこと
  • Pythonは24周年
  • もともと教育言語にルーツがあるからわかりやすい言語になっている
  • プログラマだけでなく、データ解析者、アナリスト様々な目的の人にリーチできる言語

   →Pythonは一つのことしかできないと「最も誤解されている言語」

  • Pythonの将来はどうなるか、「未来を予測する最も良い方法は、それを発明すること」(アラン・ケイ)とのことで自分で作ることが将来を予想する最も良い方法ということ(?)
  • ビジネスでOSSが好まれるのはベンダーロックから解放されるため。OSSならばイノベーションを自由に採用することもできる
  • コミュニティが重要、コミュニティがあるから言語を続けている

 

 

トーク

会場を移動しつつトークを聞いていました。

パーティであった方のお話だと前よりも1つあたりの時間が短くなったとのことですがそうなのでしょうか?発表チャンスを増やすためでしょうか

全時間聞きましたが2つ簡単にまとめておきます。

 野球を科学する技術〜Pythonを用いた統計ライブラリ作成と分析基盤構築

 行く前に去年のスライド見ていたので気になってました。

行ってみたら会場(スタジアム)満杯!大人気でした。

もう何年も同じテーマで取り組んでいるとのことですが基盤やライブラリまで作ったということですごいですね。

内容で気になったのは、この辺り

  • スクレイピングにはScrapyを利用。Scrapyはデフォルト設定で使うとサイト側に大きな負荷を与えてしまうので注意が必要
  • クローリングとスクレイピングにはJOB管理にはAirbnbのAirflowを利用。
  • Airflowは管理画面がGUIでかつほぼPythonで実装され、保守開発も可能というメリットがあるが、一方で設定が煩雑、依存ライブラリが多いなどデメリットも(まさにTurbulance笑)

   →Dockerイメージを作成して公開

 

後半は野球のお話。 野球はそれほど詳しくありませんが、広島カープの鈴木選手の怪我離脱で得点力が30%低下した話など聞いていて面白かったです。

 

Pythonで大量データ処理!PySparkを用いたデータ分析のきほん

こちらも会場満杯でした。大規模データの分散需要多そうです。

スライドにねこ出てきて可愛いです。

気になった点だけ箇条書きで。

  • 大量データ×データ量スケール×機械学習が可能
  • 複数言語サポート(PythonのほかもSQLとかRとか・・・)
  • リッチなUIでデバッグがやりやすい
  • サーバ1台でも動くので試しに気軽に動かしてみることができる
  • 動作環境はAWS EMRなどマネージドサービスを使うと楽
  • プログラミングモデルでRDDとDataframeがあるがPysparkのRDDは遅いためDataframeがオススメ
  • 機械学習のライブラリも利用可能
  • pandasとSparkのDataframeは相互変換できるが遅い
  • 分散を使う場面の見極めが大切、レコメンデーション、異常検知、広告配信自動化など

 

仕組みの話はすっきりわからなかったので見直したいです。 

Lunchタイム

5種類くらい?のお弁当から選びました。どれも美味しそうでした!

中華にしましたが、ベジタリアンやハラルのお弁当もあって、ハラルのが記憶が正しければ海南鶏飯(たぶん)でかなり心惹かれました!

 

Break Time

 期待していたおやつタイム!!

f:id:somtamchan:20170908234445j:plain

 今日はダグワーズとゼリーでした。

おやつタイムに限らずコーヒーやオレンジジュースといった飲み物もずっとあって助かりました。

 

Party

お酒と美味しい料理がたくさんありました!

人が多かったのでたくさんは食べられませんでしたが、個人的には常陸野ネストビールと生春巻き(結構本格的)があったので大満足です。

技術レベルが違いすぎて話せる人がいないかと心配していましたが、Pythonという共通話題があり、それなりに一人参加の方も多かったので気楽に過ごせました。

 

そのほか諸々

  • 空調の調整が大変そうでした。寒くなりすぎたり暑くありすぎたり。。早稲田大学の学生さんも普段から困っているのでしょうか。。
  • 電源の数は少なめでした。明日は充電万全で行きたいです。

 

Day2は余裕を持っていけるようにします