データ分析しないで馬券を買うことが圧倒的に不利な時代で意識しておくべきこと

データ分析しないで馬券を買うことが圧倒的に不利な時代で意識しておくべきこと

自分自身の知識を常に活用することはもちろんですが、競馬の馬券購入者であれば、基本的にベッティングの意思決定にデータを活用します。

単純な統計データを見るにせよ、より複雑なデータモデルを構築するにせよ、最大の課題の1つは、必要なデータを、必要なことを簡単に表示できる形式で入手することです。

今回は、収益性の高いAIデータ分析MITAI開発者チームが直面した課題と、データの収集と分析に関するヒントを紹介します。

統計がどこにでもあり、コンピューターが数秒で数字を計算できる時代、データは極めて重要な役割を担っています。

しかし、データは簡単に入手できる反面、使い勝手が悪いことも多く、正しい方法で分析するにはちょっとしたノウハウが必要です。

データ収集の問題点

データを分析する前に、まずデータを入手する必要があります。データの問題点は、分析できない形式であることが多いことです。

JRA-VANのデータソフトで統計データを見ることはできても、そのデータを他のプログラムに取り込んで本格的な分析を行うのは困難を極めます。

さらに、見ることのできる(あるいはすでに持っている)データには、必要な情報がすべて含まれていません。

競馬を現実的に見るためには、必要なデータがすべて揃っていて、分析可能な形で1つの場所に保管されていることが望ましい。

データ収集は、まず最初に行うべきことです。では、どのようにすればよいのでしょうか。

最適なデータを集める

時間をかけて最適なデータソースを探しましょう。それは、他の情報源よりも過去にさかのぼったデータかもしれません。

より多くの統計データを含んでいるデータかもしれません。あるいは、より信頼性の高い、公式な情報源から得たデータかもしれません。せっかく自分でデータを集めるのであれば、最高のデータでありたいものです。

私は過去に、分析を始めようとするあまり、データ収集に近道をしたり、つまずいたときに「これでいいや」と思ったりする失敗をしたことがあります。データの不備は、分析における不正確な結論につながり、それがコストにつながるからです。

基本的に完璧主義はマイナスに働きがちですが、データ収集だけは別です。几帳面で、品質を追求する姿勢を持ちましょう。できる限り最高のデータを集めることが重要なのです。

オリジナルデータの保存

収集したソースデータの中に、間違いや異常が見つかることはよくあることです。その場で間違いを直したくなることもあるでしょう。

しかし、修正・調整したデータで別の列(またはファイル)を作成し、元のデータに加えた変更を「変更ログ」として記録しておく方が、より良い方法です。

エラーや異常の対処方法を決めるときに、後で「こんなはずではなかった」と思うような誤った判断をしてしまうことがあります。

元のデータを保存したり、どのように変更したかを記録しないと、元のデータを「失った」ことになるか、何をなぜしたのかがわからなくなり、より混乱した質の低いデータセットが出来上がります。

必要な時に必要なデータが得られるように、オリジナルのデータを収集しておくとよいでしょう。

データを更新する

データを収集するためのコードを書いているとき、新しい結果が出たらどのようにデータを更新するかを考えておくとよいでしょう。最新の結果を収集するためにコードを単純に変更することもありますが、そう簡単にはいかないこともあります。このようなことは、コードを書いた後ではなく、書く前に考えておくとよいでしょう。

VBAのようなコンピュータ言語は習得に時間がかかるものの作業の手助けになります。それができないのなら販売されているデータで頑張ってみる価値はあります。

良いデータ収集は良い分析の基礎となり、正確な結論にヒントを与えてくれます。日本の競馬は自由度が高すぎるため、アメリカのような単調なスピード競馬やラビットと呼ばれるペースメーカーがいる欧州の競馬よりも結果は安定しません。

そうした背景から精度には限界があることを念頭に置いておくと良いでしょう。真面目にデータ分析するようになれば、理路整然としないカオスぶりに驚くと思います。

その中でどうやってデータを整理し、貴重なデータを抽出できるかはアイデアが重要になります。時には万を超える試行錯誤をする必要があるかもしれません。

時間をかければ何かが見えてくるとは限らないため自分に向いてないと思ったら誰かに任せた方が時間や費用は小さくなるでしょう。

データ分析ではランダム性を避ける

データは、過去の結果が将来の出来事を予測するのに役立つことが分かっているので、貴重なものです。問題は、歴史が良い予測因子である一方で、ランダム性が常に邪魔をすることでしょう。

この記事のアドバイスのほとんどは、ランダム性を回避する方法についての実践的なアドバイスになります。

データ分析においてランダム性を回避することは非常に重要です。ランダム性によって引き起こされる結果は、不正確な結論や誤った情報につながり、それに基づいて賭けをすると損をすることになるからです。

データ分析:ヒストリカルデータ

結論の信頼性を高めるためにサンプルサイズは大きくしたいものですが、データが適切であることを確認する必要があり、過去にさかのぼりすぎて今日のレースには無関係な結論にならないようにする必要があります。

競馬は、レース展開や馬場整備などで変化しますが、さらに重要なのは、何が良い賭けとなるかに関する一般の人々の知識が時間とともに向上し、何が利益となるかが変化することです。

例えば、昨年のレースデータでは、前走に有利な馬が見つかるかもしれない。しかし、現在では前走の優位性は常識となり、馬券のオッズに反映されています。

個人的には、ヒストリカルデータは必要以上にさかのぼらないようにしています。20年前であれば、レースのシーズンごとのデータとして十分なサンプル数を得ることができますが、データに関しては、より新しい方が良いことは確かです。

データ分析で理由を知る

何百ものデータポイントを同時にテストする場合、結果の広がりは通常、ベル型のカーブを描きます。つまり、ほとんどの結果は平均値(市場の割合による若干の損失)付近を推移しますが、単にランダム性により、大きな勝者も敗者も存在することを意味しています。

そのため、私は常に、データが示していることの背後にある理由を知りたい(または理解しようと)しています。そうすることで、自分の結論が真実であり、偶然の産物ではないという確信を持つことができるからです。

例えば、1000人に100回コインを投げてもらうと、約97%の人が41~59の表を出すが、60以上の表が出る人も約28人でてきます。純粋にデータだけを見ると、この28人は優れたプレイヤーであり、彼らがコインをはじくたびに、あなたは彼らと並んで表に賭けることになる、と言えるかもしれません。

しかし、その行為は正しくありません。なぜなら、コイン投げはランダムなものであり、長期的に見れば、その人たちを支持する市場のパーセンテージを失うことになるからです。だから、データの背後にある理由を知ることが重要なのです。

何が真実で何がランダムかを判断するのは卓越したデータサイエンティストであっても難しいことで、分析中に行う必要がある数少ない主観的な判断になります。

データ分析を再現できるか?

データで発見したことを、将来の賭けで再現できることが重要になります。

たとえば、先行馬に興味があり、600メートル地点でリードしている馬の回収率が105%であることがわかったとします。しかし、レース前にどの馬が600 メートル地点で先頭に立つかを知ることができないため、このデータはそれほど価値がありません。

この例では、レースが始まる前に、データをどのように分析し、どのように活用するかを考える必要があります。

例えば、ある馬が前走のスタートで600m地点で先頭に立ち、そのような馬が他にいない場合、その馬をリーディングに分類することができます。そのような馬のパフォーマンスを分析し、優位性があれば、レース前にその基準で選択することができます。

重要なのは、データに対して決して思い込みをせず、結論に対して直接的な根拠を持つことです。些細な思い込みでも、最終的な結論に大きな影響を与え、その結論が間違っていた場合、損をすることがあります。

これは変化の大きい日本の競馬では失敗が多くなることを意味します。ですから、その失敗を上回るリターンがあるかを考慮して買い続けなければなりません。

データ解析:バックフィット

データの中でテストできる様々な条件の組み合わせは何千通りもあり、結果のセットから負けを削ってより有益なものにする方法が必ずあるはずです。

バックフィットとは、どのようなデータセットでも同じような結果が得られるような任意の偏りのない分析を行うのではなく、データに合った分析を行うことです。

バックフィッティングは通常、データをどんどん掘り下げていき、より良い利益を生み出すマイナーなランダム(負け)要因を排除していくときに行われます。

それはあなたのデータで利益の出る条件を作りますが、それらの条件はランダムであり、将来的に利益を上げるための本物の手段ではありません。

よくある過去レースを検証して回収率がプラスのレースを見つけることができますが、それは現実的にトレースすることがないのに実行したら大損してしまいます。

このような過剰なリスクを背負わないために専門家にお金をだして代行してもらうのも現実的な手段になります。

あなたに自分の仕事があり、それでも競馬のデータ分析をすると決めたのならオーバーワークを覚悟する必要があるでしょう。

なぜなら、レースデータは毎週更新するものであり、少なくとも良質なデータのために週数十時間を犠牲にするからです。

データ分析まとめ

データから利益を上げるには、良いデータが必要ですが、分析でしっかりとした結論を出すこと、ランダム性の罠に陥らないことも重要です。

次にデータを分析するときは、これらのアイデアを念頭に置き、ランダム性の罠に陥っていないことを確認してください。そうすれば、馬券市場でお金を稼ぐことができる本物の有益なエッジ(優位性)を見つけられる可能性が高くなります。

シン・競馬新聞では、これらのデータ分析を行った上でデータを視覚化することに成功しました。

現実的に理解しやすい数値を構築するのはイメージよりもずっと困難がゆえに今まで実現できそうでできなかったものです。

その成果は、競馬で勝ったことがある経験を持つ人により高く支持されてきました。基幹システム構築から数えて10年以上前から運用されており昨日今日の技術ではありません。

1000万馬券はデータ変化量で見つかった

CTA-IMAGE 予想力を重視する限り好配当に巡り合う可能性は低いままです。なぜなら、馬柱やJRA-VANにあるデータは強い馬を見つけるためにあるからです。予想力に頼るほど堅い配当しか当たらず利回りが低くなってしまう。この悪循環を断ち切る、たった1つの方法があります。それは、リアルタイムにデータ分析すること。レース発走直前までデータ変化を見ていくことで過去データからの予想が、いまこの瞬間にフォーカスした予想に変えることができます。競馬新聞にある情報はすでに古いことは分かってる。でも、他に方法がないんだ!そういう方のためにデータ分析ライブを始めました。必ずや好配当の当て感の違いに気づかれるはずです!