{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "194%"
       }
      }
     }
    },
    "editable": true,
    "slideshow": {
     "slide_type": "subslide"
    },
    "tags": []
   },
   "source": [
    "# Creating a searchable index of the National Jukebox\n",
    "\n",
    "_Extracting text from audio and indexing it with BigQuery DataFrames_\n",
    "\n",
    "* Tim Swena (formerly, Swast)\n",
    "* swast@google.com\n",
    "* https://vis.social/@timswast on Mastodon\n",
    "\n",
    "This notebook lives in\n",
    "\n",
    "* https://github.com/tswast/code-snippets\n",
    "* at https://github.com/tswast/code-snippets/blob/main/2025/national-jukebox/transcribe_songs.ipynb\n",
    "\n",
    "To follow along, you'll need a Google Cloud project\n",
    "\n",
    "* Go to https://cloud.google.com/free to start a free trial."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "z-index": "0",
        "zoom": "216%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "The National Jukebox is a project of the USA Library of Congress to provide access to thousands of acoustic sound recordings from the very earliest days of the commercial record industry.\n",
    "\n",
    "* Learn more at https://www.loc.gov/collections/national-jukebox/about-this-collection/\n",
    "\n",
    "<img src=\"https://www.loc.gov/static/collections/national-jukebox/images/acoustic-session.jpg\" alt=\"recording 100+ years ago\" width=\"400px\" />"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "z-index": "0",
        "zoom": "181%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "\n",
    "To search the National Jukebox, we combine powerful features of BigQuery:\n",
    "\n",
    "<img src=\"data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAALEAAAFdCAYAAABM2IyIAAAAAXNSR0IArs4c6QAAIABJREFUeF7tnQfYHUXZ/p+3p4ckpJBgQj4JUkLxjxQFCTUEBRSET4SACAIWOirlE+kgICJIU0GwUVR6UVQg+An4RRNAipKQUBNCSOEl9e3/65mdZ/aZZ2fL++aEc3Z3znWF8+6ePXvOzPzOzT33zM7W9fT09IB/+BrIcQ3UeYhz3Hr+q6sa8BB7EHJfAx7i3DehL4CH2DOQ+xooHcRr166FDz5YAaNGjcx94/kCBDVQKojfeOMNOOjgQ2DlylVw4w3XwV577ZnKwezZz8IXDvlvddxr8+emHu8P+PBrIJcQr1q1Co796vGqtr52wvGw++5TnDXX2toKJ3ztG+q1r3/tBFi5ciWceNIpavuEE46Ds878TmqNe4hTq6jqB+QSYqy1Qw75IsyaPRv2228a3HD9j50Veeedd8HZ53wXGhoa4J//+D9oaWlWUL+76F246abrYeLEiakN4CFOraKqH5BbiG+77ZdwwYUXQb9+/eDZ2f9Qz/IxffqX4amnn1a24eaf/aRPle0h7lO1fahvyi3E7733Huy08y6AA47XXnM1HHDA/lbF8devueZqOFC8HlfLy5e/D+idJ07cBIYOHQpZIEbbMn/+a7DxxuNg5Mj0DiPamnnz5sOGG46AcePGfagNXsQPyy3E2BiktPtN2xduuOE6q31uvfUXcOFFF8OAAQNg9qyZ0NLSAl1dXXDE9KPUcZdcfBF89KP/Zd7z8sv/hksuuQyefuYZs2/PPXaHk08+CT5/0BfUPtmxe+qpp+Hqq69RtoYem222GZxx+qkwdeo+EV6effY5+P7lV8DMmf8wr40ZMwaOOeZoOO6rxxaRrw+lTLmGmDyvy1Ic/IVDAaE56KDPww+vulJVJkK86aTN1d/333c3bLPNNurvl156WaUWHR0danv8+I/AsmXLVUdw8uSt4MUXX4pAfO+998HpZ3xb7a+rq4PJkydDc1OTAfqySy+Gww77omlEBP3II4+GNWvWqH0IOyp+W1ub2j7uuK/COWef+aE0etE+JNcQr169Grbdbnvo7OwEbhkWLlwIu+waJBa33XoLTJmyWyLERxxxlFJg7Ohd86OrYOutt1bAP/DAg3DW2f8D7e3tFsQI4ic/9WlAG/H5zx0I5577PzB8+HB1zA033gRXXnkV9O/fH/4x8xkYOHCgAnf3PfaCxYvfgz123x0uuuh8ZSPwvLfffqfy9vi45eafwp577lE0xtZ7eXINMdYORm2PP/4ETNt3Ktx44/Wqwq6/4Ub4wQ9+CCNGjID/+/tTKp2IU+J3310MO39yF/X6XXfeDjvuuINV6ZdfcSXcdNNPLYgffvgRFdWNHj0K/vrkE9Dc3Gze093dDftMnaY8MqYmmJ489NDDcNLJp8LgwYPh78/8TVkc/jjttDPgvvsfsMqw3lu+QB+Qe4jvu+9+OO30b0FjYyO88K9nVUoxbb/94ZVXXoGjjz4Kzvveuaa5XHbiz3/+Cxx/wtdVJ+65Z/8ZaVq0ARjn4YM8MXrnm2/5uVLfSZM2jbxnzpw5gB1EzKExj7744kvhlp/fCvvuOxVu0j80/iaCHH8Uf3/mqQLh9eEUJfcQo6dES4HPV199FXx8u21h9z32VrV33713w7bbBr43Tonv+u3v4KyzzoFNN/0o/PlPf4zU+oIFC2DXT+9uQXzGt74D99xzb2oLnXbqKXDyyScCHX/EEV+Ciy+6MPK+f86aBYceepjy1vPnzUk9rz/AroHcQ4zFwf9Vo5rtv/9nYdKmm8LVP7pGdc6enPG4VVqXEv/x0T/B17/+zV4pMSnrkdOPgAsvPD+VKa/EqVW0TgcUAmICcciQIfCRj2ys0gZSQV47Lojnzn0Vpu67nzrst3fdATvs8AmrQq+44gdw403BQAnZiQcefAhOOeU02HzzzeEPjzwYaQBU6UmbTYLJW22l1NV74nViNPXNhYAY0wm0FJhW0GPGjMdgwvjxqUqMB6D9wLhrk002gWuvvRq2njxZpRMPPvQwnHnm2ZF0Audu4EALPp9/3rnw5S8H2TM+fvObO+C7535PKftTf3vSpBO77Lqb8sm77fZpwPht7NixkXQCs27MvP2jdzVQCIixyNynbrfdtnDvPb+P1ERcTkxKSW+YMGECLF26VOXE+DcCzpUY/6aMGv/ebNIkGDZ8mIKaMuULLjgPjjpyuvkOPFem97z51luAU0PVD2n3KXDrz2/uXev5o1UNFAbiJ2bMgGOOOU4VChMJTCbkIw5iPA7nYlz5g6ssNd9ppx3hzO98G3DgREKM23/5y2Nw7Y+vhxdeeMF8FMZ5x3zlaDjnnLMin4/zOK699rrIiN306Yer2XgUBXo2e1cDhYG4d8V2H7169Rp4/vnn1YsbbTRG2YssD7QJ8+a9Ch0dnbDxxhsrX5708HMnstRq9mM8xNnryh9ZozXgIa7RhvFfK3sNeIiz15U/skZrwENcow3jv1b2GvAQZ68rf2SN1oCHuEYbxn+t7DXgIc5eV/7IGq0BD3GNNoz/WtlrwEOcva78kTVaAx7iGm0Y/7Wy14CHOHtd+SNrtAY8xDXaMP5rZa8BD3H2uvJH1mgNeIhrtGH818peAx7i7HXlj6zRGvAQ12jD+K+VvQY8xNnryh9ZozXgIa7RhvFfK3sNeIiz15U/skZrwENcow3jv1b2GvAQZ68rf2SN1oCHuEYbxn+t7DXgIc5eV/7IGq2BYkLc3Q3Q2Q7Q1YnLw0NPVyfUQQ9Aj+Mf7sfj8YGv8+PU37RfHRBsB//Rx9N2XbBdF76sjqHtOvyDPWjbeq7DZeeDg9Sz3sa/Xdt8f309QH0DAK7F3NAI0NgMgPtK8CgWxN1dAO1tAF0dAtju+G0FMYNXMYnHC6gltBbMBCvuNNRqmglKoolvS2gFvASzE+L6AOzIP9pfH8Dc3BLAXeBHcSBGeDvaNKwEbQK8UpWlUtO2pdCkxlqJCQyl4PxBMDvIkQqs1FZLtnmOUV6pzApghBbhZ/AasPW+ppYA5oI+igFx25rAOqAtUHDGPUs7wSCPQJygxAZaaSuSKHEoMkFLIBvLoKF0KrGEltSYK7Pj76ZmgObovf6KwHX+IUaAO8k+aChjYSaIBbzcTpBCO5VYQMsthaJBK7DyxtxWOLwwV2AOawRoZhksJZZ2QoBbrz01+mJS7MYmgJb+ReDWKkO+IUb70NEer8Cqw6Y7bpZ9kBBTx468sKOjxz0xKXFEkeMtcVDrZB303wSveZYdObIJpMx1AASntAwEqgteYzvqAluB9qJAj/xCjJ24NasC+6CU12EhSGEjyswUWXbsnEqs4Y5LJxTMskNHlOj9znSC++GEVCJTx04rrkokEHbhkfl2/4GF6uzlF+K1q4WN6A5SBgUz79Dp/ZYix9kJhxJbUJNloBiN2Yc0ZTMJm/DGsREb974uJSZoHbaBK6+EGrcbmgD62bchS/v6tfx6PiFGZV29IoRVKrGB2dXJo1yYd/JkisHzYg0u+V8eRBhbwYQ4rrVFTBzmwfoNHOY05VVKS8mE7NgxReYwY3rB1XjA4MLkyPmEuH0tAP6TNiETzDFgx0Vu5IUJXpkPG6/cWzvhgJescuLgRlyHLoudwGP0cdjBK0jslk+I16wMOnRkGwhmAzFLKeJshBXFuVILbRksBaYRO24nxAhdqhLH2QmXIouOnTWwIXPhGAW2vDFTY4zc+g+qZZeQ+bvlE+KVrQDdLBe2FBk9sOjk9SZy48PM3C7wv00HT9ezHOugqM08a7vBm8XYhzh4WZoRl0RY3pfsBYObWw4FM1NiHM0bNDQzKLV8YC4h7mldinfMCTtxlhLz/aKjlxi5sbkQ6txim/XpgjkWTIGtdEI2d1w6wSCliI18s4JTn0dFZno4Wnpc3JYpBNkF2i/hNfsbAIYEN1XP+yOXEEPr0gBgA2+XPVIX8cYOZaZojeZJ8Mk+ul8Xwuoa5CDI9cSfNBJS0wkClSmzCh44xKA7YxngtWAWnTrq5A0dkfatc/F6PiFe/h5T4ThFZlGby17w2WsqT9ZQkgJbSky2gc1is1IKamueF9M+1uHjCYXLTrigpeNIkc1gBk8nuB92eWMGMVfmYSNzAWnal8wpxIuFEhOwIiuWubFz0CMGXt6hc9kHV9SWWtvaQrCniNLyyUBkK6xnbTUi8ZnwxAQrtxsGYK3kw0alfeNcvJ5PiJctsgc2ZDqRqaOXoLwuZTYemCcUwhsnNXmSndDjFWZY2igyAcs9Mf+b58VCgZ1emBRZPw8fnQtI075kPiFeuijBE3Ov7FJoitMYxARtqq3g0Mq4jSgn+yDshGvY2dWRc6kvnsrYCAm0wz5IxeUDHRzuEWPS+MjF6/mEeMlCPWdCd+ioI5fW0VOvx9kHlkiYdEKDqeYDJSiwnE8cN53YTL1kkRuHVtkMbhfStkmJmT9OtBHCG284NheQpn3JfEL8HkKsVdYCmE/FdCmyBpErL4/TrL9dkVsKzKZ/FzMV00CsX5f+1yhuAry8g2fyY51aGJ8sbIOJ4sR+D3Ha72M9vr74bXv2WgRk2cHjcyNA+2lSZIcCp9oKllYYr2z9wQrvyIld8JIPjjxrz6EGLiTcpMS035FCWMrMX28AGDluPTbSh3fqfCqxgpiUVj6zqZlWXqyvpeN2QqUXDo+cqsiuwQ7WaC47wTt2FsT6fbFJhIA3Von1RCDueQ3A2m5IoEcl30j9w8Nw3T4pnxC/+6ZW0y7x7ABbzTcWsJptrcZqW3plsc8MhiSM5FlXdtCFHiwc5h05itnkYEYczOrCZam8cptshbQTQoGVvWgAGP2RdaOnRt6dY4iTlJh3+BjAFqwId4yloI5cbGoR442NJxZuQm2yoeTMgxo6lTA2gqZd0n7HtrIdGtI4L0xpxejxNYLhun2NfEL8zhsJdkLCzdWWdeyM8jpshjUtUyi04pdUWnhjDjEbqDNNJOFVbGdMIwhOOj5u2+zX6uv0xPq1MRPWjZ4aeXdOIX5dRGykvPJZq3CifZAQx0GdNEFI0KsuFBV2wmUllD1gKm2lDVk6csxOWFDrETm1r0FPoNfPaCNIqT3EVfwZLnwtXYm5D6a/LfvgsBNxHb2kwRBSZl4dfEhadujkAIdrbgSHOZPysgEQSjFcCiz3jZ1YxUas3EfnU4ldEMuYLQIxRWtpyptkLxwDJU6IWTxhTfpxzEpLmx9hRWtxyss8chLE5IUJZg9x5X5JvT7TgvnxSmxgZtEZjdQZRRbZMHX4kpRYDorovp3xx6oQjgtHXbPV8FBrnjDzxk6vG6e0rv3UsXPEalyJ8e+x/9Xrqq/FN+RTiSMQu6I2DrHwxnHQcsixtWSa4cqPae4xLTJILFNrR7xwlo5cQpTGIVdX53NopSLzlAK9MOvseYir/Ht8e55WYtaR43bCshIynWB2IU2ZKaWQOfJGYwCGDGGrYlJK4YgnSIk7OgDeWgDQ1sZG3jjQ+u9M9sFhKywbwWHWlyQZFWYdvY0/WuWGrMzH51OJM0Es4OUJhQWvA2pSXNcgyWaTACb2MZpaswbgr0+r5WZNtGZNck9QVpUoZFFe/mOgK0D44AdLKcZ5iCvzM+rLWd5+Nbg0yagvKrLeloCaETvZsUtSZD3bzdgONvttzykAzc0ArR+EShy5UNRRqEEDAJqaAJ59AWDBQh17OaCMswcKYrIOvYGZKTGqsYrYNNQbb9qX2q+59+RUiTXEBlwGMR9mlhBK+xCnyNZQtYB/6l4ADfUAjz0JsHqNPVxt/DC7TInsxKd2ABi1IcCL/wZ4/c1AiVuaAIYNA1iyxFZmAywNI2toJcSWP5YKzLyyshI8J/YQV/+X+NZcpryowGkQp3Ts4uBWMLOhaTxu370DiP8yA2CVhJjNOTYdO92z22UHgNEjAf71cgBx/xaAnT8BsGgxwKvzQ2U2oIoOW0SJEUSpyDFe2SgwdfQ0xB+ZVP22rMA3yKcSOyFG4BBmVE5uB9gEIJlKpCkzh5iOJYj/PCNUYhoMIS/tWm9i1x1DiN9ZBLDLTgCDBgLMnccgTuiwWRBzwJlXjvwA9OIruJ/bCOrkeYgr8BPq6ynemhPEX1yBZT5sjdKhWsd09HB/0uietBzTUIkbAP6ESrw6OvtNDn7QYMauOwGMGQnw7zkAG48FGKxX35mDEM9jfpdsgV5QME6ZY/e73ieiNeWJGwA8xH0lsALvM0qs82GnnUjqyDmUWqYXcSN+09ATC4j5e+XqQATxbjsFSow/NlRCeqAS4z+ljq6cN8HrJh7PzmcNcrCOnYe4AjD29RRvzknwxL2EN1N6waDfTyvxo0+ESiwHScyKQGwq5W47B0osH6jECuI0WB2Qx3X0XCrtshPjN+trC9TU+3LqidFOiCmXSXYiLRfuzesGYrITDs9NF46auAwAkiBGOxHXceuVnYjz1N5O1NSvTn0ZrsQqZkNbQVBnzYN70+FjnloqsctT44+C5g4ThFO0Ei9ZBrAhWwNtfSuxNUlezDH2SlxFtl0dO2ttNhaNOVVWvB5JKRLSjVglFh1ErB6e96InHjMK4LmXgnx4C/2/cvLEdKylvEkeuTce2itxFWmN+ehqKLGK7noA+uyJGcSvvQGw9RYAm04E8Eq8znzl1BPP1VkwtxF8nQl+GZK2DRFFTojcIqN+TLkT0wnHslYynXj+ZQCEGBV328nBHVBNx44PLSdFbWwkL5Nn5krMruzw6cQ6/4D6foI85sSf1hEbjtghxNTpGzoYYOVKnxP3nQZcq1quwbQOZ/uw3spH7Mz8CRp+7m3EljDC5xp2nrIrwMB1uPPQ32cBLH7PTiMieW+l82LHiB1mxxv7YecPC9no5yDE1vzh9T13gnX0hg4F2HpLgCGDe1f+zk6AV18DeOVVu8OXNqmdT8E0E360nejN3AnXBCBvJ3rXhhU92kzF5Fc3V3AqpjWPWE7Z5GtVyAVWxA1pKKFQz67lWdPWjxCvWxDLKzqS0grpif0story2KeTVXM+MV+vImlVeSpY0tXNHOwsV3T4+cROXPLpiV1XdnBv7Jp9Fju8zDxx3Dxi60qPhMVU6Do765J9TbELZrIKfHkq54Wi4pq71HnEPL0Qk+KVrdBK7K/s6JOGVuZNmS5PojnErhWAXIMZYt5w6gpBLpipeI5J8XIRwcjaEmLuhDXiFzM53tkhlLbCX2NXGegqfRbn1c5svWJrBhrCxoaNXYrsSiEs2+BY1xjLxK9+VtuOgqat/EOX7kfshPDQciRP3R3Jtd6EnGvMcmFa+YdmtY3zl+xXGs3s5/PrToRTNxPTDbE6pl93Ijtj6/3IpGWsIounxFzNLC87SrUPGZZ65W4i0rHTEYXTG6ctnp0hxbBgZjekkeDytSc28stYrXdWYz+gTxC7lq9yrU8sFl3BL6EuP9JDz04bwYabaSFBCTEt7VrNtdj8MlbVYzbyye/gqpjyjqKOO4zKa+3kehJ0zZ1cosq5P+uqmMIbq6uddUcvskI8LZ4Sd4svx/rEcVEcn4+svLL0wmQt2FXPflXMKkLt1ycO51rIVTNN/ObXJ64ioRk+Wt3ugKcR4n516po7fbtc17VycSv88P3GPvB7erBEgmyFeWY+wnkLsAwrxfNFuKXiyshNduisbdftDWTUVg/gV4rPANv6OiQX9+zQNy6nxVN0vy7TbQ/MSB5fVyLGcliw+3t2rC/kKn/e1LsnyZs0uu6SFHfPDscaxJE8uA93T3JCzNU5ZmX43s65MHcPRTXWK8Urv+xQYn/3pMqzmfmM/j520SVdlZ3w97HLzFDVD8Tb4jpXhnfdZZTd105O3qGVe/i6EbScq4nWEm40Q1OxsywoKG97QMpMdoM6aK5tbi/MKppyRE8rrQJZA50Gtb+jaBVR7s29nRWg3F7E2QXXvZ01nXm/t7NlMdgNzT3EVYR46SLH7Q4ojaCkQt5ZVL9OSksXfkYGM2hQg93myygueWGXJ45LJ2ROrOvNKC6ba6zUmXlj3OZzK8y2WKuYK66aUxHjgS3LUQ8wYkwVG7FyH53PqZjLFun107h9iIOWDYKom5rTcTGK7LQRHFq28mVf7YTp5HFo9U5lHegGNWmDIWx42YKXQZwE9fDRlSOpimfKJ8TLF7tvUG5Byr0wh9ehyNaIXYaROQlvlssUedSWlFRYCp2WWGj/i2u8qvSB4E3wxNwzDxtVRfQq99E5hfi9wE6ooWeCkg87s8EPo7wcXgZ1nPLyG8pQx40v3co7c+ZvNo84vBujGHZ22AmXjUi0FVyBKZVg4GaBGaHfwLE2XOXY+tDOlE+IW5c4lJhBaiUXMfDSiB73yApG13VzZCG4ldDHsqfUVqO5E/gZPIUwSQW3FMIbG6hJcdUECZZEiIhN2ghXajF0ROpXzsMBuYS4p3UprjXA1NhlF4RKkyKr4WR9vAGY3ZNDQclApm0Oq9NOyOlr1Px6f1Y7wVWZd+zMlSAaYumBaTuTN9aX8A9ha8LlgdaY75hLiGFla7iIIJ/NZnlikVJE4OUgs7+lvSB4uUpTZcZ27ByTJ0xOnGAnLFshVZng1VduxEEbBzeN2NHrjY0AA4fmGN3wq+cT4tUrATrbHZ6YqbNTeV0KTO/RlzHxwQ4aHDEqvA52gg92xNkJglh6ZIrGjBqT/3U8UwfPCTPrADY1A/TXq9XnHOV8Qty+FgD/kS0gD2xmrqnLNphtEKpLk9xJuY2toDkWanQj4Ro6cYOZPqcT/F7PTHnVn1J5mQKbq6PXAeaWfgDN/XKOb/D18wkxQrt6hfbEPErj0y8JXPmsj1cdOAatBNm8rmU4zU7EWWJujTkyPEqLKLAGVl0NIu2DDpLN0HJGeyEHRAYMtm+7kGOc8wkxVvja1QCdHeG8YStuE1kwQk/KbD3rHC1JiSMws2yNR2+ZIda+InIVtIaTWwYLYgavUmK1hpUe0ZP5MFNol71oaALotw7rydUY8PmFGCe+r1llR21WbKbTiVhboUFXrztgJniVEOv0wtxURg4/u/JhLsEsUjO7CVqyEQS3S4X5Pn2pvuzYmUnxIr1weeP+A4PLlwryyC/E2AC4ti928CKemC7sTLAUpgMn7YWGljyxVGIOsjXIwa+tY+kEmzqhHZx+YtAaO0HWQHti443ldozN4B1AqcAEc3MLQFNLQfDNsyfmTdC2RtgKV4cuLpUg2NOUmL1u4HYsHkgXhOIPhF8g6vLCdPWzGtlj0yrNVdFp9iIucmMjeGQ7CO7GJoCW/oUCOL8dO9kMbWsBujocaUQCvGQ98Fzkmc2wMh/80J0/C15jhoNvotKJjKaYRu3M6J2c7MPgtZSY9ks7EdOxMzPW9PswUitIGiGbP992gpcGrUVHG+voyYk+rm1XpEbQSnj50LOYBR+J2ByDHZYXZtEaV2QDuPTFZCe4jeDw8kiOK7T+G+0D2oiCPooDsVLUrsAnoyqrwQ7mjTNHai54XR05JcFaiYkOAXfgE4LjzLAzTyfoGjvWyTPRm77raFJaQWorUwqyEQ2NAbwF6sS5fofFgphKiPYAO3xdnQBdXdDT1Ql1FsQsIzaRG9kC8RoftYtLJywvLBdPoUlsYtw5MgFI2og0T8xUmaBFWPGWvQhvY3NhcuC0/4EUE+K0UvvXC1UDHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C+MhLme7F6rUHuJCNWc5C1NTEM+d90Y5W8GXep1qoKYgXqeS+DeXtgY8xKVt+uIU3ENcnLYsbUk8xKVt+uIU3ENcnLYsbUk8xKVt+uIU3ENcnLYsbUk8xKVt+uIU3ENcnLYsbUk8xKVt+uIU3ENcnLYsbUk8xKVt+uIU3ENcnLYsbUk8xOuh6Xt6euDNt96CCePHr4ez+1PKGvAQryMTH9t8K2hvb4fbf/Mr+OQnd4auri74/EFfgBdffAlO/OY34IwzTlvHT/BvT6uBwkCM8Hz1uBNgzZo1MGLECLj+umvTyl6R1yXES5cuhU/ssLM693bbbQv33vP7inyOP0l8DRQG4idmzIBjjjnOlPT+++6GbbbZZr23vYQYP/DSyy6HBx98EC44/zyYOnWf9f4dyv4BhYH41FNPh/sfeBAGDhwIq1atgqOPPgrO+9656719XRCv9w/1H2DVQCEgXr16Nfy/7XeEtrY2uPDC8+F73zsfhgwZArNnzYSGhoaKNfnatWth7ty5yq6MHTtWnbcvEHd3d8Obb74JK1asgEmTJkG/fv0q9h3LeKJCQPy7398N3/nOWSoNeOyxP8H2n9gJWltb4eaf/QT22mtPq11/dvMt8Nhjj8Nuu30avvH1r1mv/eIXv4Q//PFR2HWXXeDEE79hXlu+fDlccun34f77H4DOzk61f+LYOIdFAAAf00lEQVTEiXDrz38GBx18CCxf/r7p2OFr5513AbwyZw4cfviX4MAD9jfnQd9+1VVXw5133aXegw/8kU2Zshuc+91zYJNNNikjg+tc5kJAfMQRR8HTzzxj0oCzzjoH7vrt7+Czn/0MXPfja6xKOud/zoU77rgTDj74ILjqB1dYr11w4UVw222/hM8deAD86Ec/VK9hR3Hafp+FN998S20PHToUBg0aBAsWLIBx48bBypUr1Q+G0gk85tBDD4N/zpoFZ591Jhx//FfV+zB2+/o3ToRHH/2T2h4woL9S81dfnae2hw8fDvfc8zsfy/UB6dxDvGjRIvjULrspSGY88ReYMGECPPX00zB9+pehsbERnn9uFgwYMMBUTW8hvvba6+DqH10D/fv3hyuv+D5Mm7avUk+E9JRTToeFCxeqc6dBfMvPb4WLL75UWYfLL78MPrPfNPX9EOLTT/8WvPDiizB58lbw4AP39aEZy/2W3EN8w403wZVXXgWbb745/OGRB43q7bjTp2DJkiVw2aUXw2GHfbHPEO+191SYP/81OO3UU+Dkk0+0aJkx40n4yjGB0qZBvPc++8K8efPh1FNOhlNOOck6zxtvvAG777G32odlwLL4R/YayD3E+0ydptTs298+w/K4ZA123HEHuOvO2/sEMaYck7feTr33kYcfhC22sOFCj4uvY4cvCeK08+D5p+67H8yd+ypceslF8KUvHZa9Bf2RkGuI8X/BBx54UGozPvP0/8KYMWPUcb2xE+iDp+wedAz/MfMZ2HDDDSOftduUPeCtt95OhBhfx+OSznPkUUfD3/72FJx+2qlw0knfTC2TPyCsgVxDTGqb1qAcjCSIzz7nu3DnnXeZjh122Lb7+Ce8EqdVcJVfzy3E+L/ynXbeBXCYd/oRh8NnPrNfpCrvuuu3agAEO3vY6cMHdq6wk7X33nvBz356k/Wefad9FubMmWOlE5g/Y8TmUsgnn/wrHP2VY9U5vCeuHsm5hfjxx5+AY796vKo5SiVkNc6aPRsOOSTo1OEcBpzLgFnw+RdcpNIG7EQh4Pig9AD/5hEbqTMef9VVV8K+U/eB+vp6mD37WTjp5FMzpxM33fRTuPyKK1U6gZ3NAw7YX6Uc2Nk77bQzVDqx2WabwaN/fLh6NOT0k3MLMQL00EMPq/kROE8i7oHx2zvvvANHTj9CjeYtWvQu7LHn3qozNnjwYNhyyy3ULLTnnnsexo8fD5gUcIgxQsPkoKOjQ30E5sSDBw+Ct99eoPLipqbGyGCHKyfGz9j/gM+pzhs+8L2jRo1UyQc+EOg7bv817LBDYF/8I3sN5BJiPsz83e+eA8ce85XYEn//8ivgJz/5mTUMjdHYmWedDYsXv6fe19LSAkcdOR1GjR4Fl1xymQUxvj5z5j/gjG99W4FLD1TwSy6+EL533vkKxDQ7ge/DgZMf/vBHcPc990RG7M44/TT1g/KP3tdALiHufTGj78D5C6i6qMxbbbWlgjzpgcfPfvZZ6GjvgIEDB8DWW28NdXV1ffoqfu5En6ot9k2lhbiy1ejPVs0a8BBXs/b9Z1ekBjzEFalGf5Jq1oCHuJq17z+7IjXgIa5INfqTVLMGPMTVrH3/2RWpAQ9xRarRn6SaNeAhrmbt+8+uSA14iCtSjf4k1awBD3E1a99/dkVqwENckWr0J6lmDXiIq1n7/rMrUgMe4opUoz9JNWvAQ1zN2vefXZEa8BBXpBr9SapZAx7iata+/+yK1ICHuCLV6E9SzRrwEFez9v1nV6QGPMQVqUZ/kmrWgIe4mrXvP7siNeAhrkg1+pNUswY8xNWsff/ZFamBYkLc3Q7QtQKgaxVA92qArjYA6ATo6bL/AW53B/tAP+O2+ps9q797gv34bLZxn1pBW79ObYLb8nJ+vV1Xrw/C5zoAddk/PuN2vX7GbbxNA23jc0P4T+3n2/h3I0BDC0D9AICGgQCNgwHqmisCSa2fpFgQd68F6FgG0LkCQAFK4MYBzCHWfxuwJcwSYmxaPGYdICaAFZQIM4eWoEZANbROeAnmRgZ5I0B9A/Q0DIa6puEA9cW+J0hxIFbwLtfgSngZxAZuUuAugG6mxKTIUo25AmdSYtIvUmSHElsQkzILeAlspcwELELdGGzX8/0EMj6zvxuHASDMBX0UAOIegPbFgfoq5aV/LiXGm8Y4LEUSxMZWxNkJtBfaVijLIR8SYm0flN2QCsxthVZgBW6MEitLoWGmv82zABrtRfMoh83JP9n5h7j9XW0fOgG6NaTqWW5zqBnIFtRoD8hWkFIjpKjUzAtbSpwGMULCQDbqGwcxKqv2xBLeiPIyiJUiBzYieCalbtKKjZ4ZQR6df2pFCfINMVoI/GcpsEuNHd7Ypciq48c7eo5OXqRj11eImQpTx87q3PXWC3Pl1XArSyH+oa0omLXIL8TYiWtbEADcjcuucuXt0CmEA2iEV9kHUmaEFpWb0gmpxCKpSIQ4TeRkGuFSY925M+kEpRQIo/bC9KyUmeyE9MN6u56UuEl3/JoAWsYVqrOXW4h72hZCXecHbhW27ASDu1dpRZwi9wQWGPkL/6AdmZ/DFTVZh04pMSkw/c0VmcVqvOPGYVZQazvhUuK6piC16BfcEbUIj3xCjDnw2tcBelBxNaQKUL3t7OC5OnykyC6PzBUYjwsfph+ndxmmUxC2TkJhBd8Z8cCuPFhGajEKbADWCqwUmcHdf2JhcuR8Qty+BKBjcWAjXPDGKbHZj1Dy7Bj/ZpEbeWOdA+ONHlF6e6AH6vBZUMwhdmUTrqEP6uvh+YKBlIDqYMlj6thpYFWKwXNgZiNMB44psFOJEWbq8KGlGA3QNKIIQpzTW4CtfROgs5UpMfPEBmpUV/LG3COTFxYQm44ewRygpR40MGe2BdTOaI0O5pAGPwJ1Qr1At42w2R282ShzjI2w4jSCnHlfbidQibk6Nw4F6DfeQ1y1Glj1H4DuNQ4llvaCd+yknXBDrHjVSkuCa8Fcx2JhUwFaSfENdYFSK8+rt80zV1zOOE9vjc0I8A68c1aIWRJhvLGAl/Y3DAAYWIw7l+bTTqx4XqssQRtjK0iJI+kF5cjaVujBDg5rCHNgI5yKTEKthdXq5+nXOMuuHz2/Y0LgJDS8lr3QqhxJI3geTHZCKjGzEXUEND43AQzetmo6VMkPzifEH8xKhhi9b2xHL9rBI4/LYQ0gttg1yhrxxK6enXATCmZrvIwrrfTEbHiEoCbaeSrhTB+0Ghv7wMFF6Nn2kO0ryVLVzpVTiGeG+bBS2xRFVkqM+bDDI4fuwThbA6mAOJpK2DbCjtxcUsw8sVRadnjQteMdPd3XMz8MNjfCyoH5wAYpMKUSDpiH7Fg18Cr5wfmE+P2nbaVVcLpgjlFkPTxtUgfywMweBNY4lFi3Mtt5sUkvKMXQz5YGy2jN7udpDxx8LgUVxmVwuHF4OSYHDlIIAS3aB/TDylLg300AQz9ZSZaqdq6cQvy3AForYsNtyop5Xkz76TWdTnAFjoWY7ARTXD5z2N6d2IhmdjGbZsxnHJvBD0zX2JmMi2BphkrgFNkIMo/OHPBaMGt4FfxNABvsWjXwKvnB+YR4+ZMM4jg7IeENIY4ocMQ2BDuc6YSCOJpGZG2UAFbhgcPELYiI1cm4Zw6jNwM1KrWaEMejNQ2xyolFJ4621bP+N2xK1q9d08flFOLHbU8cayeYV1ZzK4Jb2xo4Dbw4iSfMhcPXwzyYv49aNPTI2cfsBMOh6hp1dacTEUXmiu2yDxxW8zoBjJA3Awzbo6bhzPrl8gnx0j8zD8xsRSLMHWakDeEjj0tRGsVr9n5mJyTkJKispg3KlA+LYWjeKPJmpFxhQzXmCmx39MzAnlFk1pEju0DeV2036xE7psQj9snKSU0fl1OIH3XYCeGRDdCkwN1MgXWYJsAkm8DTCQtqbQNcw85WK0thdk1Fj7MN2kmQLyavHCpx8El8fwA0DU2zjpsLXq7QI/ataTizfrl8QrzkkQSIox2+HjWYob2sUOHAEthQhxdqmOTYKLexFUqJbbthKt0OhK224MPO8R04HcUxyxBrJ+rUbI4AaqujxxTXKDJ17PRrG34mKyc1fVxOIX7IhtiyEQRx2OFTymnBG26HdiKc2OP0zAHrtqeWTSuHmSPDzix5EFEbdfiMwmZQZNWvo9SCfhGWF2bQuvZvuH9Nw5n1y+UT4vfud0PsgLkH0EbIjhtuB8PJyGWkIxeZOxEeryWdP5mwQQ6GBP/bD6dQuDxxRJmF+spBD67IAcRkL+hZx24ELYdX/j3yc1k5qenjcgrxfTojbo9R5PYwM9aQBrCK6Eyrc3S/tgk8P7b8M3UDbWVOauloR85OIcLsN4zYlEPQJ42zExEFp9gN0wduI/ggh9rfDDDy8zUNZ9Yvl0+IF9+tIdaWASfJm8EP2odpRLAuBELKO2iZYdYWgpyxtBlUyep8JLlmfjC9ag/JRaBkhwUdtHCkLrQLtkemOccKcmZLgm31rgBSJ8Rs/6gvZOWkpo/LKcS/F0qMEGMKYcNswDVe1mUfgv/dR22FiOEcSh5CbLexs18nPDAf1EBjI+Gl16PpRAC5K63g+4PBDp5UCKgR8lGH1DScWb9cPiFedFeYExO4SolDiFGFFbKiQ6eAlR00rdTOQQ6ZKXOYDcXaViTUukkirEGK6ESfdM/rUuoAahtuvPoDIXbASwo9+otZOanp43IK8Z0aYvS+aB+kN27XNoIUlqUR6k8BNymxA3reAQzTieSRPFeLhxAzL5zJ81KHLRzscKUSIcRsUIQsBXlgYy+aA8BHH1bTcGb9cjmF+HaHnQijtR41Sy3syHUzOxHsj9qHNM/MzyfnVPDZbnX1LdA8bFuob94AOlr/DZ2r3zZzJWiUTVtf9R0pnZCDF65Bjgi86keAcyiYZzaKTLkxKTFXZA3xmMOzclLTx+UU4t/ojhwpsHhGK8FtgMMuOD1wnDdOGKamH4UCsmEADNnsBGjop1fZ6emGVW/fB21LZhoI7JRBDGoQlGbwwp4cb9IKA2+KN1ajeA54SZnHHFHTcGb9cvmE+J1fJUJMaQT3uDbU1GmLdvRsuLXXdaYbgS3g2fDA8QdBvw13hp6utdC55h1oGjQRero7YPlL34eejpWB8poOXiCZpM7hczA7jW+HnTx7LoXtgWWHj2a5aV9M/pg/b3RkVk5q+ricQvzLBIg7I3MkLJjpknumujxyS8qT8cQW5EqGzaA1bLDFqdDYfyNYMf830Lb8X7DBlqdBY/8xsGL+r6H9/Rc0xMyzxkAdRmWuDlu8Nw7g1z8O80Pgo3aoytpK4LOHuIo/zoW/YBCLzl1PV5ALJ9oJ1uGTgyEcbkUoG442x7qnbg7f6lvQ0G8ktM65Gdo/mAsbbP4NaBo0AVa8die0LXvWVmIxXOzqmIW5MV31rKF2wBrrqdUVIHpwQz5v9OUqNmLlPjqnSnxb2LGjdMKkFKEfthTWpBIBlNITu7YpnuPD1vY0TnsEkCB+f84t0P7BHBjmhFinExGI3XaA2w23QjuUmcdt5IuNjWAdPQ9x5X5JvT7TwltZOoFKHKpxkAOHcEl7YLaFnbDTCdsLq9PpH4ENcXgc/jV88regsd8oWI5K3DoHhm/xTaXEH8y/E9Yum619bhRWWl8i4nG5N9YjeUk5shty7NzFKPHYr/S66mvxDflUYoQYs2GjwiydwPUtJXQJI3ZGgTmkbDAk9kfgmDg0fPIZTohb5wd2QqqqcrCWalJklrEDp4eZzVRM7bEjUZwZghae2ENcxd/kgp+zAQ6txPpqZ1JimfsmwyrtBWXJ2vs6Jgq5OoAjtg6UeNkrgRKP2DJQYoR47dLZGtgwlQiVM/C8sWmDM1KLDj/TOVTfzsqLqXOHnTpmJ8YeU8VGrNxH51SJNcQRJQ6uoeuzEiuvbM8rjrMf+DlNgzdTI1/tK+ZBd+caGIFK3H80LHvlFmhrfUVB3DxoArw//w5oW/ocNA+eAA1Ng1T81t2+TEOb7GnjOmz1ep5PAK7o+Ml5xrF2wkNcuZ9Sb8+04BaRTgR2go/URTpqCWlFN/fQfFg6VoEDjzxsy5OhccA4eP/VX8PaZf+CYR87FlqGfgzWLJkFa1vnwNBNDoL6hn6w5KVroHP1Athw8ukqcmud90voeP8lk1a4ojEnvMx6uLyxsRHWcbihr7GTWfG4Y3tb8zV5fE6V+BZHOhHMZMtsG4QHTvO+9sShwH4MmXgEtAzfBla98wSseOsP0DJsMgybdJTV0O0r34BlL18P9Y39YOTHz4O6ugZY+sJl0NP+fjBjkqUU0svGpxHafohBEZqaGR2e1lc3G0XWtsLbiSr+KGOUWEGs04nYCC3tdWVHpBd2pxXNw7aCoR89So3QLX35OuhY/S70H7kDDBgVrKzT3dEKra/fA90dK2DYRw+HfiM+Dh0rX4f3/3ODfaFn1txXeF05JTPeEzMltjyxV+LqUbywNpQYWR+2+dfU8HJX2zJoff0+aGv9j1n+CiFraOoPgz+yv4IbH++/8hPoWDnfdOKSJv70VYnxc7jCB8taiWQCt70SV49hsJSY5hFrO5GmtM4ozTH4oa/BU/lwQjrRNHA8DJ10DNQ3DlAV0r5iPrR/MA+62luhedAm0LLB5lDfNEi9tua9mbDijbvZ1cnhHOBEmKmjpuxHUO/RNCPcF00nvJ2oIq0xH70Q0wk+CR4B1rmxYxiZT8VMtBn03l4MliDk9S3Dla1oHLCR8wv39HTBqrcfgdXv/s2OvsQVGnEdvMTozRnN0SX8NJFID3aYSfJ6/oRX4iqyjRDL4WZ9VUdlcmIWtcVMFMLSB8PXFMnVqWSiZYMtoN+I7aGuoRk6Vr6p8uG1y1+EHrzTk2PRk/gRuOhsNuuaugi8lA3bE4CC9SjkiJ2HuIr06o9WI3ZSifW2nh6ZlO/G2wMxvJww0hdALK/DC674GL7lqUqVW+f9CtqWv2iiNAWx/k8wmT39WjnnIEhkODomJ9YjesG1djqRMFd7oCc+uvptWYFvkNOI7Tb3LLbuDpDrTLjnUrjTBrUOhfbApLQcVvsaPMd6FXqZqyjENmQEs2UfCO4keyCHlWUe7Bx2rg+vtZM5sYe4Aj+hvp7iHT4VUyoyTsV0QJo05TLVA4fnI6jtZz3hSJdnGCpx/43gA5xHvDyYR0wLSJj5vgw4YzP4PAqHUkdyZGlPnPOJcSomm0PMI7aN7Ey7r81R7fflVIlxUjy/OJTPn8CsOG0+ccLwsuncKUyhh6cUurVc61YER9OqwvRX2rJV4RwH1yX6IbTh4EYAfHTyezTdCH45dbQ6vDUJSHtkD3EVf3/m8iR9pbN1xXN7NiUWs9DkPGF+WX94Yah7Mjy/UBTBCX4i9AjmD5t1JfTu8BKkYO4DvS47evzSJFJsk1bwiUExdsSa8CM7eGOmV7ERK/fR+VTid37NVvyJXrYvV/5x2gs+R0J20uiaOhm5abnVboWtJE/+Jb5hzHJToa8QUzOjly2FV3YkT80085EjHT7ywzHzif2FopX7JfX6TItud0DMVTmYQxF7ZUbEA0c9b/B+YTvMOQO74LwVmCgMKit+XHiBaCjFctjYeGOZHztWv3QOdkRmr9FtDxwQo08e86VeV30tviGfSrzoDrGQoLxkH9dhY4ukxIy4WZBLe2FtC8ipJSliM1459MTaJNC9FVnHLjg4y6X7USvBvDB5Y3WiuIiNw0vLWrFO3hi/eEr1fpTv/tadE5tFBRHq6MrwzqueHfCGcEcVmjpw6hXjIpid0BY4tMRciuk+du4byQAtguKC3BW9mSHoKNxmwW2zxKueDM9XARr939Vrwwp+cj6V+N3fuZWY7mWnRu/0jDbHQoDuVTKjk+HJTtCl+tphmOo3d2EimplCs55doLz0Gimn3mPZDEodHHYi2vGjgRN2hQfr6AVziB1KzJe2Gn1oBVGq3qnyCfHie4QS06rwcolXXFRQD0okdeT4GmxmODn01GZRQssTR29UHkZsYYOSMBPEBG3ItO7QadLD49wdPfcqmWIwRV3hTCti0g1n5FKvuCrmwdUjr4KfnFOI701R4gDqHnV/5+Srn7m60oidvY86eNw+kM2Q0ht2+BA2usNomCBrGxHGyPaKQMLbBt459Lz2haYJkEfuniQXUNGAjzqogihV71T5hPi9B5gSI6gUs4ULbIe3yU3yxvGeN/DP4eLcEnb1P3N1UABr1ge/GSNBye2Gc+V3PrpH3piUm64MIQtiqbBco5jZC1TqkQdm/do1fVxOIdY3nlGjdnJxbQ212k+KHCqknIppwck7aix5CAc7wglCvFXp9aSWDj1xcJTzLkqU8zojNZp77LAflhem+9lxG8HvY8dshb/xTBV/nEv+EK5PbCAOoTUqbO79TEu9RpevsiFmcyAsiIXiyrENRzghvbCpLUoU9A5LmcNhPraooAnrYhcaDGwH/ocW1pYKLCHWk+RH7FfFRqzcR+dTiZf+Ud9Yhisxuzl55MbldDfR6PoSAcQaXjNxSNsMPRvCvB44DPMwf2pbQd436oXDLl/glfmSreH5aISOrwjEBvi0f45bQQgn+sTd05k6eQJmfzPGyv2Sen2mZX9JuI+dVGTaRjVmE4OS4CWo9ReTdsGeKxFNKZzlMVMobI2OjuTx6CzAnR/j9sx43ZKO1FQqkQIzZcXD9+511dfiG/KpxMvwBuWyE5cArzoWlZqy4xjl5R01bhmsQQ3HcDPNXuMZWzjvxxp2JgicubHlibV3Zh238GY14iaMJo2Q8LJhZwturczD96xFJnv9nfIJ8fInNZSuNIIpL8HLvTHCzCf8uBRZ2gahzOFInahvDbGZKyGhZodH8mJFaMqInhgECXqIqMAcXlJkGuzQymzdDkwfv8GUXgNTi2/IKcT/64CYPLEDYqbESo3VPT3CaIxPu+QemRrMSifoF2Dez8aZHUoc3lKUa3AUVvOqGUpmKYQD3sBWYEdOQ0xKG4Fa3rCcbW+way0y2evvlE+IW59hnjgDvAitshOo3F3mWUfBYV9N3NYgCjGTWlbVkZSY99xEk7AAQt/uIMYjmxQjOsEnVGC9gLZ1Y3IBNc6dAD6bjW0PDRZ5yfsjpxDPDD2xyYMFzMAVmSCWz116ymbcoEbQvM6OXIoA27rL5k6wF0KtDYeNI4qsd1jDzQpaglU+U8dOKjRPKPTfQ3fMO7/B77lHTorNQ7FWzNKDHNRh089WtMaAxf3QFQx+qGf2Gm7LiE2RS+N1NDIXpmvGNcQM1IURW3xlRudQBMc6B0GMndApBNoIYxsata1AMEmZGcBoN4wSM7+MCj14+zy0dup3zCXEPSuegzo17ZKpL/e9siOnkwlKKIJnhJc9q/gtHNnTHGsptp7M1XRSoVNrW0OqIBcUx0ZtKijG4xFQ+keQJiiygheHmR32gtKMwdtl+co1f0wuIYbV/wHoWhP6XAtm6X3RVmBHTiuwshl624K5Ozgfm19MrZc45dIe/0htcD2fx776WV9jFyixVmQ+Tq3mQyCMGmKlrA1aYUmJOaxSkR3RW0N/gAGbp37fPByQT4jXvgHQ2cpsgbQVCCPBqp+NGmsFNlDjNvun7EUwhdM56d0Fbcqws9J3MQ5tdfA0vTyPCJQZ4eUKrJVX2QmuwtJeILQJqQX+CJqGAvSbkAdGU79jPiHuWArQ/q4ZwAi8LofVTiGSbQQqdFeg1ApmVGTa7g6U2UhyaCtYvy68iI4CYj4MLS+yI6Wlc7JBEdNaSnlRaQXExgtziCXM3BszRZZQN48GaBqRCkgeDsgnxN1tAGteDyEWOXBgF6QSuxSYPDFXYoJYPyPUoGG25khE4XY2OFdgfcGoncDxCA2hrXfAy2HmtkLnxJGOHlfimPSi/ya4EmIeGE39jvmEGIvVthCga4VIKVxRmujAUYdO2QlSXHwfV2CtyAiv2Y/o6W1RrWL+jzVJSPfLIheKWqqrFJfg5RBzRUYYtTc2doJUWHbwHB0+kxc3AjQMBmgZmwpHXg7IL8TdawHWvs3UOD4LdqYR5IONjdBqrEAVEJsYDl/TMNPCxcEFUFZ780v0bRDUfMngXzB3UsCL22QjmPo6bQUHOAPEPFfutzFAfb+8MJr6PfMLMRatYxlA53Kd//IUguXBVgdORmtaiZUiCy+sbAR5ZPyblDgOYj0BWbkDBrXyxGbCbwzEHGaEmMOMgJIiy5iN0gpmK0wuzPJjPjzdOBygaXgqGHk6IN8QY01jB69T2worDyYbIcCNpBIUrTEFVh07sg78mQEcUWK+CMW6QMzshLEZBC9FbWm2IiY/bhwMgB26gj3yDzHC1L448McyD5YDGpEozdGhMx64txBzBWZdN9OxY1YiYifwNe2LXd441k64lJnlxipP1tsK4FF88YDCoFwAiHVboLXAfwZcrcAqpeAduGgmHEZq3D70EWKRRgQdO7ZImtMTZ4XYZStY3Ea2gUdxCHHjsMLEaa5fXnEgxtJhZw9B7lppDylT7quUWtsHpbi0TR05nhOjPUD48VnHbLxT5+rYqR6dGZUOvbAR5riOHUGsp1eqJTNZBy+ixCJyi0srGgYF/rdAnbjiQ0wlxBy5cyVA90o1PN3TvRbqTLTWrW2HI1IzsLo8McFMS8lTKqG3ZYfODGZQxw53OCBWgGqIZVohBz0MzOSJxXA0wtrQH3rqB0Id2oeC5MBpvqdYSpxWWv96IWvAQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1XoTzE5WrvQpbWQ1zIZi1Xof4/sY7KcTsYB2AAAAAASUVORK5CYII=\" alt=\"audio video logos\" style=\"float:left; height:200px;\" />\n",
    "\n",
    "1. Integrations with multi-modal AI models to extract information from unstructured data, in this case audio files.\n",
    "\n",
    "   https://cloud.google.com/bigquery/docs/multimodal-data-dataframes-tutorial\n",
    "   \n",
    "2. Vector search to find similar text using embedding models.\n",
    "\n",
    "   https://cloud.google.com/bigquery/docs/vector-index-text-search-tutorial\n",
    "\n",
    "3. BigQuery DataFrames to use Python instead of SQL.\n",
    "\n",
    "   https://cloud.google.com/bigquery/docs/bigquery-dataframes-introduction"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "275%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Getting started with BigQuery DataFrames (bigframes)\n",
    "\n",
    "Install the bigframes package."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "214%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:02.494188Z",
     "iopub.status.busy": "2025-08-14T15:53:02.493469Z",
     "iopub.status.idle": "2025-08-14T15:53:08.492291Z",
     "shell.execute_reply": "2025-08-14T15:53:08.491183Z",
     "shell.execute_reply.started": "2025-08-14T15:53:02.494152Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "%pip install --upgrade bigframes google-cloud-automl google-cloud-translate google-ai-generativelanguage tensorflow "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "z-index": "4",
        "zoom": "236%"
       }
      }
     }
    }
   },
   "source": [
    "**Important:** restart the kernel by going to \"Run -> Restart & clear cell outputs\" before continuing.\n",
    "\n",
    "Configure bigframes to use your GCP project. First, go to \"Add-ons -> Google Cloud SDK\" and click the \"Attach\" button. Then,"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:08.494636Z",
     "iopub.status.busy": "2025-08-14T15:53:08.494313Z",
     "iopub.status.idle": "2025-08-14T15:53:08.609706Z",
     "shell.execute_reply": "2025-08-14T15:53:08.608705Z",
     "shell.execute_reply.started": "2025-08-14T15:53:08.494604Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "from kaggle_secrets import UserSecretsClient\n",
    "user_secrets = UserSecretsClient()\n",
    "user_credential = user_secrets.get_gcloud_credential()\n",
    "user_secrets.set_tensorflow_credential(user_credential)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "193%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:08.610982Z",
     "iopub.status.busy": "2025-08-14T15:53:08.610686Z",
     "iopub.status.idle": "2025-08-14T15:53:17.658993Z",
     "shell.execute_reply": "2025-08-14T15:53:17.657745Z",
     "shell.execute_reply.started": "2025-08-14T15:53:08.610961Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "import bigframes._config\n",
    "import bigframes.pandas as bpd\n",
    "\n",
    "bpd.options.bigquery.location = \"US\"\n",
    "\n",
    "# Set to your GCP project ID.\n",
    "bpd.options.bigquery.project = \"swast-scratch\""
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "207%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Reading data\n",
    "\n",
    "BigQuery DataFrames can read data from BigQuery, GCS, or even local sources. With `engine=\"bigquery\"`, BigQuery's distributed processing reads the file without it ever having to reach your local Python environment."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "225%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:17.662234Z",
     "iopub.status.busy": "2025-08-14T15:53:17.661901Z",
     "iopub.status.idle": "2025-08-14T15:53:34.486799Z",
     "shell.execute_reply": "2025-08-14T15:53:34.485777Z",
     "shell.execute_reply.started": "2025-08-14T15:53:17.662207Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "df = bpd.read_json(\n",
    "    \"gs://cloud-samples-data/third-party/usa-loc-national-jukebox/jukebox.jsonl\",\n",
    "    engine=\"bigquery\",\n",
    "    orient=\"records\",\n",
    "    lines=True,\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "122%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:34.488610Z",
     "iopub.status.busy": "2025-08-14T15:53:34.488332Z",
     "iopub.status.idle": "2025-08-14T15:53:40.347014Z",
     "shell.execute_reply": "2025-08-14T15:53:40.345773Z",
     "shell.execute_reply.started": "2025-08-14T15:53:34.488589Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# Use `peek()` instead of `head()` to see arbitrary rows rather than the \"first\" rows.\n",
    "df.peek()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "134%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:53:40.348376Z",
     "iopub.status.busy": "2025-08-14T15:53:40.348021Z",
     "iopub.status.idle": "2025-08-14T15:53:40.364129Z",
     "shell.execute_reply": "2025-08-14T15:53:40.363204Z",
     "shell.execute_reply.started": "2025-08-14T15:53:40.348351Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2025-08-14T15:55:55.448664Z",
     "iopub.status.busy": "2025-08-14T15:55:55.448310Z",
     "iopub.status.idle": "2025-08-14T15:55:59.440964Z",
     "shell.execute_reply": "2025-08-14T15:55:59.439988Z",
     "shell.execute_reply.started": "2025-08-14T15:55:55.448637Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# For the purposes of a demo, select only a subset of rows.\n",
    "df = df.sample(n=250)\n",
    "df.cache()\n",
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "161%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:56:02.040804Z",
     "iopub.status.busy": "2025-08-14T15:56:02.040450Z",
     "iopub.status.idle": "2025-08-14T15:56:06.544384Z",
     "shell.execute_reply": "2025-08-14T15:56:06.543240Z",
     "shell.execute_reply.started": "2025-08-14T15:56:02.040777Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# As a side effect of how I extracted the song information from the HTML DOM,\n",
    "# we ended up with lists in places where we only expect one item.\n",
    "#\n",
    "# We can \"explode\" to flatten these lists.\n",
    "flattened = df.explode([\n",
    "    \"Recording Repository\",\n",
    "    \"Recording Label\",\n",
    "    \"Recording Take Number\",\n",
    "    \"Recording Date\",\n",
    "    \"Recording Matrix Number\",\n",
    "    \"Recording Catalog Number\",\n",
    "    \"Media Size\",\n",
    "    \"Recording Location\",\n",
    "    \"Summary\",\n",
    "    \"Rights Advisory\",\n",
    "    \"Title\",\n",
    "])\n",
    "flattened.peek()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2025-08-14T15:56:06.546531Z",
     "iopub.status.busy": "2025-08-14T15:56:06.546140Z",
     "iopub.status.idle": "2025-08-14T15:56:06.566005Z",
     "shell.execute_reply": "2025-08-14T15:56:06.564355Z",
     "shell.execute_reply.started": "2025-08-14T15:56:06.546494Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "flattened.shape"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "216%"
       }
      }
     }
    },
    "editable": true,
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   },
   "source": [
    "To access unstructured data from BigQuery, create a URI pointing to a file in Google Cloud Storage (GCS). Then, construct a \"blob\" (also known as an \"Object Ref\" in BigQuery terms) so that BigQuery can read from GCS."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "211%"
       }
      }
     }
    },
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T15:56:07.394879Z",
     "iopub.status.busy": "2025-08-14T15:56:07.394509Z",
     "iopub.status.idle": "2025-08-14T15:56:12.217017Z",
     "shell.execute_reply": "2025-08-14T15:56:12.215852Z",
     "shell.execute_reply.started": "2025-08-14T15:56:07.394853Z"
    },
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "flattened = flattened.assign(**{\n",
    "    \"GCS Prefix\": \"gs://cloud-samples-data/third-party/usa-loc-national-jukebox/\",\n",
    "    \"GCS Stub\": flattened['URL'].str.extract(r'/(jukebox-[0-9]+)/'),\n",
    "})\n",
    "flattened[\"GCS URI\"] = flattened[\"GCS Prefix\"] + flattened[\"GCS Stub\"] + \".mp3\"\n",
    "flattened[\"GCS Blob\"] = flattened[\"GCS URI\"].str.to_blob()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "317%"
       }
      }
     }
    },
    "editable": true,
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   },
   "source": [
    "BigQuery (and BigQuery DataFrames) provide access to powerful models and multimodal capabilities. Here, we transcribe audio to text."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T15:56:20.908198Z",
     "iopub.status.busy": "2025-08-14T15:56:20.907791Z",
     "iopub.status.idle": "2025-08-14T15:58:45.909086Z",
     "shell.execute_reply": "2025-08-14T15:58:45.908060Z",
     "shell.execute_reply.started": "2025-08-14T15:56:20.908170Z"
    },
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "flattened[\"Transcription\"] = flattened[\"GCS Blob\"].blob.audio_transcribe(\n",
    "    model_name=\"gemini-2.0-flash-001\",\n",
    "    verbose=True,\n",
    ")\n",
    "flattened[\"Transcription\"]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "229%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "Sometimes the model has transient errors. Check the status column to see if there are errors."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "177%"
       }
      }
     }
    },
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T15:59:43.609239Z",
     "iopub.status.busy": "2025-08-14T15:59:43.607976Z",
     "iopub.status.idle": "2025-08-14T15:59:44.515118Z",
     "shell.execute_reply": "2025-08-14T15:59:44.514275Z",
     "shell.execute_reply.started": "2025-08-14T15:59:43.609201Z"
    },
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "print(f\"Successful rows: {(flattened['Transcription'].struct.field('status') == '').sum()}\")\n",
    "print(f\"Failed rows: {(flattened['Transcription'].struct.field('status') != '').sum()}\")\n",
    "flattened.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "141%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:59:44.820256Z",
     "iopub.status.busy": "2025-08-14T15:59:44.819926Z",
     "iopub.status.idle": "2025-08-14T15:59:53.147159Z",
     "shell.execute_reply": "2025-08-14T15:59:53.146281Z",
     "shell.execute_reply.started": "2025-08-14T15:59:44.820232Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# Show transcribed lyrics.\n",
    "flattened[\"Transcription\"].struct.field(\"content\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "152%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T15:59:53.149222Z",
     "iopub.status.busy": "2025-08-14T15:59:53.148783Z",
     "iopub.status.idle": "2025-08-14T15:59:58.868959Z",
     "shell.execute_reply": "2025-08-14T15:59:58.867804Z",
     "shell.execute_reply.started": "2025-08-14T15:59:53.149198Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# Find all instrumentatal songs\n",
    "instrumental = flattened[flattened[\"Transcription\"].struct.field(\"content\") == \"\"]\n",
    "print(instrumental.shape)\n",
    "song = instrumental.peek(1)\n",
    "song"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "152%"
       }
      }
     }
    },
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T15:59:58.870143Z",
     "iopub.status.busy": "2025-08-14T15:59:58.869868Z",
     "iopub.status.idle": "2025-08-14T16:00:15.502470Z",
     "shell.execute_reply": "2025-08-14T16:00:15.500813Z",
     "shell.execute_reply.started": "2025-08-14T15:59:58.870123Z"
    },
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "import gcsfs\n",
    "import IPython.display\n",
    "\n",
    "fs = gcsfs.GCSFileSystem(project='bigframes-dev')\n",
    "with fs.open(song[\"GCS URI\"].iloc[0]) as song_file:\n",
    "    song_bytes = song_file.read()\n",
    "\n",
    "IPython.display.Audio(song_bytes)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "181%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Creating a searchable index\n",
    "\n",
    "To be able to search by semantics rather than just text, generate embeddings and then create an index to efficiently search these.\n",
    "\n",
    "See also, this example: https://github.com/googleapis/python-bigquery-dataframes/blob/main/notebooks/generative_ai/bq_dataframes_llm_vector_search.ipynb"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "163%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:00:15.506380Z",
     "iopub.status.busy": "2025-08-14T16:00:15.505775Z",
     "iopub.status.idle": "2025-08-14T16:00:25.134987Z",
     "shell.execute_reply": "2025-08-14T16:00:25.134124Z",
     "shell.execute_reply.started": "2025-08-14T16:00:15.506337Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "from bigframes.ml.llm import TextEmbeddingGenerator\n",
    "\n",
    "text_model = TextEmbeddingGenerator(model_name=\"text-multilingual-embedding-002\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "125%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:00:25.136017Z",
     "iopub.status.busy": "2025-08-14T16:00:25.135744Z",
     "iopub.status.idle": "2025-08-14T16:00:34.860878Z",
     "shell.execute_reply": "2025-08-14T16:00:34.859925Z",
     "shell.execute_reply.started": "2025-08-14T16:00:25.135997Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "df_to_index = (\n",
    "    flattened\n",
    "    .assign(content=flattened[\"Transcription\"].struct.field(\"content\"))\n",
    "    [flattened[\"Transcription\"].struct.field(\"content\") != \"\"]\n",
    ")\n",
    "embedding = text_model.predict(df_to_index)\n",
    "embedding.peek(1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "178%"
       }
      }
     }
    },
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T16:01:20.816923Z",
     "iopub.status.busy": "2025-08-14T16:01:20.816523Z",
     "iopub.status.idle": "2025-08-14T16:01:22.480554Z",
     "shell.execute_reply": "2025-08-14T16:01:22.479604Z",
     "shell.execute_reply.started": "2025-08-14T16:01:20.816894Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "# Check the status column to look for errors.\n",
    "print(f\"Successful rows: {(embedding['ml_generate_embedding_status'] == '').sum()}\")\n",
    "print(f\"Failed rows: {(embedding['ml_generate_embedding_status'] != '').sum()}\")\n",
    "embedding.shape"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "224%"
       }
      }
     }
    }
   },
   "source": [
    "We're now ready to save this to a table."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "172%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:03:43.611592Z",
     "iopub.status.busy": "2025-08-14T16:03:43.611265Z",
     "iopub.status.idle": "2025-08-14T16:03:47.459025Z",
     "shell.execute_reply": "2025-08-14T16:03:47.458079Z",
     "shell.execute_reply.started": "2025-08-14T16:03:43.611568Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "embedding_table_id = f\"{bpd.options.bigquery.project}.kaggle.national_jukebox\"\n",
    "embedding.to_gbq(embedding_table_id, if_exists=\"replace\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "183%"
       }
      }
     }
    },
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Searching the database\n",
    "\n",
    "To search by semantics, we:\n",
    "\n",
    "1. Turn our search string into an embedding using the same model as our index.\n",
    "2. Find the closest matches to the search string."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "92%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:03:52.674429Z",
     "iopub.status.busy": "2025-08-14T16:03:52.673629Z",
     "iopub.status.idle": "2025-08-14T16:03:59.962635Z",
     "shell.execute_reply": "2025-08-14T16:03:59.961482Z",
     "shell.execute_reply.started": "2025-08-14T16:03:52.674399Z"
    },
    "slideshow": {
     "slide_type": "skip"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "import bigframes.pandas as bpd\n",
    "\n",
    "df_written = bpd.read_gbq(embedding_table_id)\n",
    "df_written.peek(1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "127%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:03:59.964634Z",
     "iopub.status.busy": "2025-08-14T16:03:59.964268Z",
     "iopub.status.idle": "2025-08-14T16:04:55.051531Z",
     "shell.execute_reply": "2025-08-14T16:04:55.050393Z",
     "shell.execute_reply.started": "2025-08-14T16:03:59.964598Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "from bigframes.ml.llm import TextEmbeddingGenerator\n",
    "\n",
    "search_string = \"walking home\"\n",
    "\n",
    "text_model = TextEmbeddingGenerator(model_name=\"text-multilingual-embedding-002\")\n",
    "search_df = bpd.DataFrame([search_string], columns=['search_string'])\n",
    "search_embedding = text_model.predict(search_df)\n",
    "search_embedding"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "175%"
       }
      }
     }
    },
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T16:05:46.473357Z",
     "iopub.status.busy": "2025-08-14T16:05:46.473056Z",
     "iopub.status.idle": "2025-08-14T16:05:50.564470Z",
     "shell.execute_reply": "2025-08-14T16:05:50.563277Z",
     "shell.execute_reply.started": "2025-08-14T16:05:46.473336Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "import bigframes.bigquery as bbq\n",
    "\n",
    "vector_search_results = bbq.vector_search(\n",
    "    base_table=f\"swast-scratch.scipy2025.national_jukebox\",\n",
    "    column_to_search=\"ml_generate_embedding_result\",\n",
    "    query=search_embedding,\n",
    "    distance_type=\"COSINE\",\n",
    "    query_column_to_search=\"ml_generate_embedding_result\",\n",
    "    top_k=5,\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2025-08-14T16:05:50.566930Z",
     "iopub.status.busy": "2025-08-14T16:05:50.566422Z",
     "iopub.status.idle": "2025-08-14T16:05:50.576293Z",
     "shell.execute_reply": "2025-08-14T16:05:50.575186Z",
     "shell.execute_reply.started": "2025-08-14T16:05:50.566893Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "vector_search_results.dtypes"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "158%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:05:54.787080Z",
     "iopub.status.busy": "2025-08-14T16:05:54.786649Z",
     "iopub.status.idle": "2025-08-14T16:05:55.581285Z",
     "shell.execute_reply": "2025-08-14T16:05:55.580012Z",
     "shell.execute_reply.started": "2025-08-14T16:05:54.787054Z"
    },
    "slideshow": {
     "slide_type": "slide"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "results = vector_search_results[[\"Title\", \"Summary\", \"Names\", \"GCS URI\", \"Transcription\", \"distance\"]].sort_values(\"distance\").to_pandas()\n",
    "results"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "@deathbeds/jupyterlab-fonts": {
     "styles": {
      "": {
       "body[data-jp-deck-mode='presenting'] &": {
        "zoom": "138%"
       }
      }
     }
    },
    "execution": {
     "iopub.execute_input": "2025-08-14T16:05:56.142373Z",
     "iopub.status.busy": "2025-08-14T16:05:56.142038Z",
     "iopub.status.idle": "2025-08-14T16:05:56.149020Z",
     "shell.execute_reply": "2025-08-14T16:05:56.147966Z",
     "shell.execute_reply.started": "2025-08-14T16:05:56.142350Z"
    },
    "trusted": true
   },
   "outputs": [],
   "source": [
    "print(results[\"Transcription\"].struct.field(\"content\").iloc[0])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "editable": true,
    "execution": {
     "iopub.execute_input": "2025-08-14T16:06:04.542878Z",
     "iopub.status.busy": "2025-08-14T16:06:04.542537Z",
     "iopub.status.idle": "2025-08-14T16:06:04.843052Z",
     "shell.execute_reply": "2025-08-14T16:06:04.841220Z",
     "shell.execute_reply.started": "2025-08-14T16:06:04.542854Z"
    },
    "scrolled": true,
    "slideshow": {
     "slide_type": ""
    },
    "tags": [],
    "trusted": true
   },
   "outputs": [],
   "source": [
    "import gcsfs\n",
    "import IPython.display\n",
    "\n",
    "fs = gcsfs.GCSFileSystem(project='bigframes-dev')\n",
    "with fs.open(results[\"GCS URI\"].iloc[0]) as song_file:\n",
    "    song_bytes = song_file.read()\n",
    "\n",
    "IPython.display.Audio(song_bytes)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "trusted": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kaggle": {
   "accelerator": "none",
   "dataSources": [
    {
     "databundleVersionId": 13238728,
     "sourceId": 110281,
     "sourceType": "competition"
    }
   ],
   "dockerImageVersionId": 31089,
   "isGpuEnabled": false,
   "isInternetEnabled": true,
   "language": "python",
   "sourceType": "notebook"
  },
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}