SmartNewsの推薦システム — ニュースを最適化する機械学習

スマートニュースは二〇一二年に創業され、現在は日本と米国の両市場で利用されているニュース配信アプリです。一日に数万件の記事が世界中から流れ込む中、利用者一人一人に最適な記事二十件程度を選び出すのが推薦システムの役割です。本記事ではクリック予測と多様性の両立、速報検出、新聞社との提携など全体像を整理します。
SmartNews was founded in 2012 and is currently a news distribution app used in both the Japanese and US markets. With tens of thousands of articles flowing in from around the world per day, the recommendation system's role is to select roughly twenty optimal articles for each individual user. This article organizes the overall picture, covering click prediction and diversity balancing, breaking news detection, partnerships with newspaper companies, and more.
クリック予測モデル
推薦システムの基本層は「この利用者はこの記事を読むか否か」を予測する二値分類モデルです。利用者の過去の閲覧履歴、滞在時間、時間帯、端末、記事のカテゴリや掲載媒体など、多数の特徴量を入力に勾配ブースティングや深層学習モデルが使われます。
The base layer of the recommendation system is a binary classification model that predicts "will this user read this article or not." Many features are fed in — the user's past browsing history, dwell time, time of day, device, article category, the source media outlet — and gradient boosting or deep learning models are used.
多様性との両立
クリック予測スコアだけで並べ替えると、同じカテゴリの記事(例えばスポーツや芸能)ばかりが上位を占める現象が起きます。スマートニュースは政治・経済・国際・科学・エンタメなど幅広いカテゴリから均衡よく配信するために、再ランキング段階で多様性制約を加えます。「同一カテゴリは連続三件まで」「同一媒体は一定割合まで」といった規則を適用し、偏りを抑えます。
Sorting only by click prediction score causes a phenomenon where articles in the same category (for example sports or entertainment) dominate the top spots. To deliver a balanced mix from broad categories like politics, economy, international, science, and entertainment, SmartNews adds diversity constraints at the re-ranking stage. Rules like "no more than three of the same category in a row" or "any one media outlet capped at a certain ratio" are applied to suppress bias.
類似記事のクラスタリングと重複排除
同じ出来事を扱う記事が各新聞社から並行に投稿されると、利用者の画面に同じニュースが何件も並ぶことになります。スマートニュースは本文の埋め込みベクトルや見出しの類似度を使って類似記事を一つのクラスタに集約し、代表記事一件だけを表示します。残りの記事は「他の報道」として折りたたみ表示にします。
When articles covering the same event are posted in parallel by each newspaper company, the same news ends up lined up multiple times on the user's screen. SmartNews uses body text embedding vectors and headline similarity to aggregate similar articles into a single cluster, displaying only one representative article. The remaining articles are shown collapsed as "other reports."
速報検出
地震・政治発表・大事件など緊急性の高いニュースは、通常の推薦フローを飛ばして即座に全利用者に配信する必要があります。スマートニュースは短時間に同じ話題の記事が急増する現象や、特定キーワードの出現頻度を監視して速報性を検出します。検出されるとプッシュ通知や専用枠で強制的に露出します。
News with high urgency — earthquakes, political announcements, major incidents — must bypass the normal recommendation flow and be distributed to all users immediately. SmartNews monitors phenomena where articles on the same topic surge in a short time, and the appearance frequency of specific keywords, to detect breaking-news characteristics. When detected, the news is forcibly exposed via push notifications or dedicated slots.
ヘイト・誤情報フィルタリング
推薦される記事が差別的な表現を含んだり、事実に反する誤情報を広めることは配信事業者の信頼を根本から揺るがします。スマートニュースは機械学習による自動判定と人手の審査を組み合わせて、ヘイトスピーチや誤情報の疑いがある記事を配信対象から除外します。第三者ファクトチェック機関との連携も行われています。
If recommended articles contain discriminatory expressions or spread misinformation contrary to fact, the trust of the distribution operator is fundamentally shaken. SmartNews combines automatic judgment by machine learning with human review to exclude articles suspected of hate speech or misinformation from distribution. Collaboration with third-party fact-checking organizations is also carried out.
利用者フィードバックによる学習
各記事には「興味なし」を示す親指下ボタンが配置されており、押された記事と似た特徴を持つ記事は今後その利用者には出にくくなります。クリックしなかった記事を暗黙の負例とする手法と組み合わせ、利用者の嗜好を継続的に更新します。
Each article has a thumbs-down button placed to indicate "not interested," and articles with characteristics similar to ones that were pressed become less likely to appear for that user going forward. Combined with methods that treat unclicked articles as implicit negative examples, the user's preferences are continuously updated.
A/Bテスト基盤
新しいモデルや多様性制約の調整を本番に投入する前には、必ずA/Bテストで既存モデルとの差を計測します。評価指標はクリック率だけでなく、滞在時間、次のセッションまでの復帰率、多様性指標、親指下率など多面的に評価します。クリックは増えたが復帰率が落ちた場合、本当の満足は下がっていると判断します。
Before deploying a new model or diversity-constraint adjustment to production, the difference from the existing model is always measured via A/B test. Evaluation metrics emphasize multiple facets — not only click rate, but dwell time, return rate to the next session, diversity metrics, and thumbs-down rate. If clicks increased but the return rate dropped, true satisfaction is judged to be declining.
新聞社との提携とロイヤリティモデル
スマートニュースは各新聞社・出版社と正式な配信契約を結び、読まれた記事数や広告収益に応じてロイヤリティを支払う仕組みを構築しています。これは出版側の収益を支えると同時に、質の高い記事を継続的に供給してもらうための基盤でもあります。広告やサブスクに頼らない出版社の新しい収益源を作り出す試みと位置付けられています。
SmartNews concludes formal distribution contracts with each newspaper and publishing company, and has built a mechanism that pays royalties according to the number of articles read and ad revenue. This both supports publisher-side revenue and serves as a foundation for continuously sourcing high-quality articles. It is positioned as an attempt to create a new revenue source for publishers that does not rely on ads or subscriptions.
低レイテンシでの応答
数万の記事から利用者個別に二十件程度を即座に返すためには、二段階推薦が基本です。第一段階で新着や人気や利用者履歴に基づいて候補数百に絞り、第二段階で重いクリック予測モデルと多様性再ランキングを適用します。全件にモデルを掛けると応答時間が爆発するため、現実的な計算コストで精度を出す工夫が施されています。
To instantly return roughly twenty articles per individual user from tens of thousands, two-stage recommendation is the basic approach. The first stage narrows candidates down to hundreds based on freshness, popularity, and user history; the second stage applies a heavy click-prediction model and diversity re-ranking. Applying the model to all items would explode response time, so devices for producing accuracy at realistic computational cost are applied.
おわりに
スマートニュースの推薦は「クリックされやすい記事を出す」という単純な最適化にとどまらず、多様性・速報性・誤情報の排除・出版社との提携を同時に考慮した複合システムです。機械学習とジャーナリズムの両方の視点が揃って初めて、利用者の長期満足を支えるニュース体験が実現します。
SmartNews's recommendation is not limited to the simple optimization of "showing articles that are likely to be clicked." It is a composite system that simultaneously considers diversity, breaking-news characteristics, misinformation exclusion, and publisher partnerships. Only when both machine learning and journalism perspectives come together is a news experience that supports long-term user satisfaction realized.